如何分析Flink中的KeyBy,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。
KeyBy算子:将数据流按照指定key进行分区(分组)
示例环境
java.version: 1.8.x
flink.version: 1.11.1
示例数据源 (项目码云下载)
Flink 系例 之 搭建开发环境与数据
KeyBy.java
package com.flink.examples.functions;
import com.flink.examples.DataSource;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.api.java.tuple.Tuple3;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import java.util.List;
/**
* @Description KeyBy算子:将数据流按照指定key进行分区
*/
public class KeyBy {
/**
* 遍历集合,将用户按性别分成两类
* @param args
* @throws Exception
*/
public static void main(String[] args) throws Exception {
final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
//如果有多个分区,则设置并行度需大于1,或者在算子上设置setParallelism(2)前行度,否则算子只有一个并行度,则计算结果始终只有一个分区
// env.setParallelism(4);
List<Tuple3<String,String,Integer>> tuple3List = DataSource.getTuple3ToList();
DataStream<Tuple3<String,String,Integer>> dataStream = env.fromCollection(tuple3List);
//注意:使用Integer进行分区时,会导致分区结果不对,转换成String类型输出key即可正确输出
KeyedStream<Tuple3<String,String,Integer>, String> keyedStream = dataStream.keyBy(new KeySelector<Tuple3<String,String,Integer>, String>() {
@Override
public String getKey(Tuple3<String, String, Integer> tuple3) throws Exception {
//f1为性别字段,以相同f1值(性别)进行分区
return String.valueOf(tuple3.f1);
}
});
//lambda
// KeyedStream<Tuple3<String,String,Integer>, String> keyedStream = dataStream.keyBy((KeySelector<Tuple3<String, String, Integer>, String>) t3 -> t3.f1);
//指定第几个字段做为key进行计算
// KeyedStream<Tuple3<String,String,Integer>, Tuple> keyedStream = dataStream.keyBy(1);
keyedStream.print().setParallelism(4);
env.execute("flink keyBy job");
}
}
打印结果
2> (张三,man,20)
4> (李四,girl,24)
2> (王五,man,29)
4> (刘六,girl,32)
2> (吴八,man,30)
4> (伍七,girl,18)
关于如何分析Flink中的KeyBy问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注亿速云行业资讯频道了解更多相关知识。
亿速云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。
原文链接:https://my.oschina.net/u/437309/blog/4672911