spark中怎么自定义分区

发布时间：2021-07-22 14:48:23 来源：亿速云阅读：165 作者：Leah 栏目：云计算

今天就跟大家聊聊有关spark中怎么自定义分区，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

实现的功能是根据key值的最后一位数字，写到不同的文件

例如：

10写入到part-00000

11写入到part-00001

19写入到part-00009

给读者提供一个自定义分区的思路

import org.apache.spark.{Partitioner, SparkContext, SparkConf}

//自定义分区类，需继承Partitioner类
class UsridPartitioner(numParts:Int) extends Partitioner{
  //覆盖分区数
  override def numPartitions: Int = numParts
  
  //覆盖分区号获取函数
  override def getPartition(key: Any): Int = {
    key.toString.toInt%10
  }
}

object Test {
  def main(args: Array[String]) {
    val conf=new SparkConf()
    val sc=new SparkContext(conf)

    //模拟5个分区的数据
    val data=sc.parallelize(1 to 10,5)
    
    //根据尾号转变为10个分区，分写到10个文件
    data.map((_,1)).partitionBy(new UsridPartitioner(10)).saveAsTextFile("/chenm/partition")
  }
}

看完上述内容，你们对spark中怎么自定义分区有进一步的了解吗？如果还想了解更多知识或者相关内容，请关注亿速云行业资讯频道，感谢大家的支持。

向AI问一下细节

spark中怎么自定义分区

猜你喜欢

最新资讯

相关推荐

相关标签