Apache Spark 是一个强大的大数据处理框架,它允许你使用 SQL 和高级数据处理 API(如 DataFrame 和 Dataset)来处理大量数据
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, sum, mean, count
spark = SparkSession.builder \
.appName("Pivot Data") \
.getOrCreate()
data = spark.read.csv("input_data.csv", header=True, inferSchema=True)
pivot_data = data.groupBy("category").agg(
mean("value").alias("mean_value"),
sum("value").alias("sum_value"),
count("*").alias("count")
)
pivot_data = pivot_data.orderBy(col("mean_value").desc())
pivot_data.write.csv("output_data.csv", header=True)
spark.stop()
以上示例展示了如何使用 PySpark 对数据进行透视操作。你可以根据自己的需求调整代码,以适应不同的数据类型和数据处理需求。