#
概要:本例子为SparkStreaming消费kafka消息的例子,实现的功能是将数据实时的进行抽取、过滤、转换,然后存储到HDFS中。 实例代码 package com.fwmagic.test
项目架构:日志数据---->flume----->kafka-------->spark streaming---------->mysql/redis/hbase 前置条件
一、Spark Streaming的介绍 (1)为什么要有Spark Streaming? Hadoop 的 MapReduce 及 Spark SQL 等只能进行离线计算,
简介 Spark Streaming是Spark核心API的扩展,可以实现可伸缩、高吞吐量、具备容错机制的实时流时数据的处理。支持多种数据源,比如Kafka、Flume、Twitter、ZeroM