需求:
/ 解决是一个各个子模块内的热度排名--》 排名得用sortBy ---》 (可能就是简单的排序,或者是二次排序) ---》
// 前面有一个wordCount---》 算出次数出来 --》 考虑什么作为key
//算的一个网站下面,每个子模块下面的网页热度前2名 :
// 算的一个网站下面,每个子模块下面的网页热度前2名 --》 每个子模块下面的网页的次数的前2名
// 在实际开发中,真正代码时间可能只占20-30% ,其他时间都在理解需求,想思路
import java.net.URL
import org.apache.spark.{SparkConf, SparkContext}
object Data_anlysis {
def main(args: Array[String]) {
val conf = new SparkConf().setAppName("data-anysis").setMaster("local[2]")
val sc = new SparkContext(conf)
val linesRDD = sc.textFile("d://web_data.log")
val rdd01 =linesRDD.map(line => {
val lineSplited = line.split("\t")
(lineSplited(1),1)
})
val rdd02 = rdd01.reduceByKey(_+_)
val rdd03 = rdd02.map(tup => {
val url = tup._1;
val host = new URL(url).getHost
(host,url,tup._2)
})
val rdd04 = rdd03.groupBy(_._1)
val rdd05 = rdd04.mapValues(iter => {
iter.toList.sortBy(_._3).reverse.take(2)
})
println(rdd05.collect().toBuffer)
sc.stop()
}
}
运行结果会把网站的日志数据按照某一模块的要求列出排名前2个结果展示出来。
亿速云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。