温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

怎么用Spark求数据的最大值

发布时间:2021-08-25 18:30:43 来源:亿速云 阅读:270 作者:chen 栏目:云计算

本篇内容介绍了“怎么用Spark求数据的最大值”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

1: 以前用过hadoop从文件中读取数据求过最大值。现在用Spark来求最大值。由于spark的资料比较少所以搞了半天才弄完。我亲自测试在local状态下14750778条数据用了10秒。

2:下载spark-0.9.1-bin-hadoop1并解压到F:\BigData (Spark可以再Windows上运行) 打开目录F:\BigData\spark-0.9.1-bin-hadoop1\assembly\target\scala-2.10把里面的spark-assembly_2.10-0.9.1-hadoop1.0.4.jar放到新建的工程里面就可以了。

准备数据:新建一个data文件在里面输入如下内容:

1,1,5.0

1,2,1.0

1,3,5.0

1,4,1.0

2,1,5.0

2,2,1.0

2,3,5.0

2,4,1.0

3,1,1.0

3,2,5.0

3,3,1.0

3,4,5.0

4,1,1.0

4,2,5.0

4,3,1.0

4,4,5.0

1,1,5.0

1,2,1.0

1,3,5.0

1,4,1.0

2,1,5.0

2,2,1.0

2,3,5.0

2,4,1.0

3,1,1.0

3,2,5.0

3,3,1.0

3,4,5.0

4,1,1.0

4,2,5.0

4,3,1.0

4,4,5.0

1,1,5.0

1,2,1.0

1,3,5.0

1,4,1.0

2,1,5.0

2,2,1.0

数据之间用逗号分隔

打开eclipse新建一个javaProject.

在任意包中书写如下内容

package com.spark.test;

import java.util.Arrays;

import java.util.regex.Pattern;

import org.apache.spark.api.java.JavaDoubleRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.DoubleFunction;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

public final class Max {

 private static final Pattern SPACE = Pattern.compile(",");

 public static void main(String[] args) throws Exception {

  // spark安装目录

  String spark_home = "F:\\BigData\\spark-0.9.1-bin-hadoop1";

  // "local" 代表了本地运行模式

  JavaSparkContext ctx = new JavaSparkContext("local", "JavaWordCount",

    spark_home, JavaSparkContext.jarOfClass(JavaWordCount.class));

  // 加载文件

  JavaRDD<String> lines = ctx

    .textFile(

      "E:\\workspace\\spark\\src\\com\\spark\\resource\\test.data",

      1);

  // flatMap函数是把每一行根据分隔符把它变成多行。比如1,2,3 用逗号分隔用了flatMap后变成

  // 1

  // 2

  // 3 .这一行的主要作用是把所有的数据放到JavaRDD里面

  JavaRDD<String> words = lines

    .flatMap(new FlatMapFunction<String, String>() {

     @Override

     public Iterable<String> call(String s) {

      return Arrays.asList(SPACE.split(s));

     }

    });

  // 把JavaRDD<String>类型变成JavaDoubleRDD类型的

  JavaDoubleRDD one = words.map(new DoubleFunction<String>() {

   @Override

   public Double call(String s) throws Exception {

    if (s.trim().length() == 0) {

     s = "0";

    }

    return Double.parseDouble(s);

   }

  });

  // 统计有多少条数据

  System.out.println(one.count() + "%%%%%%%%");

  // 求最大值.new Function2<Double, Double, Double>()

  // 函数的3个参数,第一个和第二个参数对应call函数里面的第一个参数和第二个参数。第3个参数代表call函数的返回值类型

  Double max = one.rdd().reduce(new Function2<Double, Double, Double>() {

   @Override

   public Double call(Double i1, Double i2) throws Exception {

    return Math.max(i1, i2);

   }

  });

  System.out.println(max);

  System.exit(0);

 }

}

“怎么用Spark求数据的最大值”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注亿速云网站,小编将为大家输出更多高质量的实用文章!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI