在AWS EMR笔记本中,你可以使用Pyspark来处理和分析小型JSON文件。下面是一个示例代码,用于加载和处理JSON文件:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("JSON Processing").getOrCreate()
spark.read.json()
方法加载JSON文件并创建一个DataFrame:df = spark.read.json("s3://path/to/json/file.json")
请确保将"s3://path/to/json/file.json"替换为实际的JSON文件路径。
df.show()
row_count = df.count()
print("Number of rows:", row_count)
spark.stop()
以上代码示例演示了如何加载和处理小型JSON文件。请根据实际情况修改代码中的文件路径和进行其他数据分析操作。
上一篇:AWS EMR版本5.23.0是否支持Python版本3.7.x?
下一篇:AWS EMR的pyspark笔记本在“Failed to run command /usr/bin/virtualenv (...)”时失败。