温馨提示×

Spark sortByKey函数怎么使用

小亿
125
2023-12-07 09:31:42
栏目: 大数据

sortByKey函数是Spark中的一个操作,它可以对键值对RDD中的键进行排序。

使用sortByKey函数的语法如下:

val sortedRDD = pairRDD.sortByKey([ascending: Boolean], [numPartitions: Int])

参数说明:

  • ascending:可选参数,表示是否按升序排序,默认为true。
  • numPartitions:可选参数,表示输出的RDD的分区数,默认为输入的RDD的分区数。

示例:

val rdd = sc.parallelize(List((3, "apple"), (2, "banana"), (1, "orange")))
val sortedRDD = rdd.sortByKey()
sortedRDD.foreach(println)

输出结果:

(1,orange)
(2,banana)
(3,apple)

在上面的示例中,我们创建了一个键值对RDD,然后使用sortByKey函数对键进行排序,默认按升序排序。最后通过foreach操作来打印排序后的结果。

0