温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

第15课:RDD创建内幕彻底解密

发布时间:2020-06-27 20:21:15 来源:网络 阅读:425 作者:Spark_2016 栏目:大数据

本节课主要内容:

    1、RDD创建的几种方式

    2、RDD创建实战

    3、RDD内幕


RDD创建有很多种方式,以下几种创建RDD的方式:

     1、使用程序中的集合创建RDD,实际意义用于测试用;

     2、使用本地文件系统创建RDD,测试大量数据的文件;

     3、使用HDFS创建RDD,最常用的方式;

     4、基于DB创建RDD;

     5、基于NoSQL创建RDD,例如HBase;

     6、基于S3创建RDD;

     7、基于数据源创建RDD;


RDD实战:

//通过集合方式创建RDD

val conf = new SparkConf().setAppName("RDDDemo").setMaster("local")
val sc = new SparkContext(conf)
//创建RDD
val rdd = sc.parallelize(0 to 100)
//1+2=3 3+3 = 6 6+4 = 10 ....
val sum = rdd.reduce(_ + _)
println(sum)


//通过HDFS上文件创建RDD

val conf = new SparkConf().setAppName("RDDDemo").setMaster("local")
val sc = new SparkContext(conf)
//创建RDD
val 
lines = sc.textFile("hdfs://Master:9000/data/README.md")
val words = lines.flatMap(line => line.split(" ")).map(line => (line, 1))
val wordCount = words.reduceByKey(_ + _)
wordCount.collect().foreach(println)


备注:

资料来源于:DT_大数据梦工厂

更多私密内容,请关注微信公众号:DT_Spark

如果您对大数据Spark感兴趣,可以免费听由王家林老师每天晚上2000开设的Spark永久免费公开课,地址YY房间号:68917580

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI