直接上代码吧
说下测试思路:
该代码监控的/tmp/sparkStream/目录;
首先,创建该目录mkdir -p /tmp/sparkStream;
然后,运行spark程序;
最后,向监控目录/tmp/sparkStream/添加数据文件;
观察spark程序运行效果。
sparkStreaming
import org.apache.log4j.{LoggerLevel}
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{SecondsStreamingContext}
import org.apache.spark.streaming.StreamingContext._
object HdfsWordCount {
def main(args: Array[]){
Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
Logger.getLogger("org.apache.eclipse.jetty.server").setLevel(Level.OFF)
sparkConf = SparkConf().setAppName().setMaster()
ssc = StreamingContext(sparkConf())
lines = ssc.textFileStream()
words = lines.flatMap(_.split())
wordCounts = words.map(x=>(x)).reduceByKey(_+_)
wordCounts.print()
ssc.start()
ssc.awaitTermination()
}
}
亿速云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。