这篇文章将为大家详细讲解有关Spark sql的批处理物理计划BatchScanExec有什么用,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。
BatchScanExec是batch类的物理计划,对应的逻辑计划是DataSourceV2Relation,是Datasource。
它的入参是Scan类,Scan类有两个重要方法,一个获取分区列表信息;另一个方法获取读取器工厂。
override lazy val partitions: Seq[InputPartition] = batch.planInputPartitions() override lazy val readerFactory: PartitionReaderFactory = batch.createReaderFactory() override lazy val inputRDD: RDD[InternalRow] = { new DataSourceRDD(sparkContext, partitions, readerFactory, supportsColumnar) }
planInputPartitions方法获取分区列表;createReaderFactory获取分区读取者工厂,这两者决定一个DataSourceRDD来作为inputRDD对象。
对于传统的DataSource类,只要实现对应数据源的Scan子类就可以使用了。
而StreamingDataSourceV2Relation对应的物理计划是MicroBatchScanExec和ContinuousScanExec,这时候Scan就不用了,而使用MicroBatchStream和ContinuousStream两个流的定义类。
关于“Spark sql的批处理物理计划BatchScanExec有什么用”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。