温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

spark如何整合hadoop

发布时间:2021-12-08 10:00:17 来源:亿速云 阅读:335 作者:小新 栏目:云计算

这篇文章主要介绍了spark如何整合hadoop,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。

Spark应用程序有两部分组成
1.Driver 2 Executor
Spark基本概念
Application基于Spark的用户程序,包含一个Driver 和集群的多个executor
Driver program运行Application的main函数并创建SparkContext通常用SparkContxet代表Driver Programe
Executor是为某Application运行在work node上的一个进程,该进程负责运行task,并且负责将数据存在内存
或者磁盘上,每个Application都有各自独立的executor
Cluster manager,在集群上获取集群资源的外部服务列如Standalone,Mesos ,yarn
worker node 集群中任何可以运行application代码的节点
task被送到某个executor的工作单元
job包含多个task组成的并行运算,往往由spark action催生,该术语可以经常在日志中看到
rdd由spark的基本计算单元,可以通过一系列算子操作,主要有transaformation和action操作
并行化scala集合
spark使用parallelize方法转换成RDD
val rdd1=sc.parallelize(Array(1,2,3,4,5))
val rdd2=sc.parallelize(List(0 to 10),5)
参数是slice对数据集切片,每一个slice启动一个task进行处理
Spark支持text files可以支持读取本地文件,支持整个目录读取,压缩文件的读取gzip 通配符的读取第二个参数是分片可选
使用wholeTextFiles读取目录里面的小文件
使用sequenceF可以将sequenceFile转换成rdd
使用hadoopRDD方法可以将其他任何hadoop的输入类型转化为RDD
广播变量
广播变量缓存到各个节点内存中,而不是每个task
广播变量创建后,能在任何运行的函数中调用
广播变量是只读的,不能在广播后修改
对于大数据集的广播,spark尝试用高效的传播算法来降低通信成本
使用方法 val broadcastVar=sc.broadcast(Array(1,2,3))
broadcastVar.value
累加器
累加器只支持加法操作
累加器可以高效的并行,用于实现计数器和变量求和
Spark支持原生类型和标准可变的集合计数器,但用户可以添加新的类型
只有驱动程序才能获取累加器的值
使用方法
val accnum=sc.accumulator(0)
sc.parallelize(Array(1,2,3,4)).foreach(x=>accnum+=x)
accnum.value


spark要启动start all
[root@localhost bin]# ./spark-submit --master spark://127.0.0.1:7077 --class week2.SougoQA --executor-memory 3g scala.jar hdfs://127.0.0.1:9000/dataguru/data/SogouQ1.txt hdfs://127.0.0.1:9000/dataguru/week2/output
./spark-submit --master  --class week2.SougoQA --executor-memory 3g scala.jar hdfs://127.0.0.1:9000/dataguru/data/SogouQ1.txt hdfs://127.0.0.1:9000/dataguru/week2/output

感谢你能够认真阅读完这篇文章,希望小编分享的“spark如何整合hadoop”这篇文章对大家有帮助,同时也希望大家多多支持亿速云,关注亿速云行业资讯频道,更多相关知识等着你来学习!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI