博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
用Spark求最大值
阅读量:7012 次
发布时间:2019-06-28

本文共 2487 字,大约阅读时间需要 8 分钟。

hot3.png

 

                                                  Spark求最大值

1: 以前用过hadoop从文件中读取数据求过最大值。现在用Spark来求最大值。由于spark的资料比较少所以搞了半天才弄完。我亲自测试在local状态下14750778条数据用了10秒。

2:下载spark-0.9.1-bin-hadoop1并解压到F:\BigData (Spark可以再Windows上运行) 打开目录F:\BigData\spark-0.9.1-bin-hadoop1\assembly\target\scala-2.10把里面的spark-assembly_2.10-0.9.1-hadoop1.0.4.jar放到新建的工程里面就可以了。

准备数据:新建一个data文件在里面输入如下内容:

1,1,5.0

1,2,1.0

1,3,5.0

1,4,1.0

2,1,5.0

2,2,1.0

2,3,5.0

2,4,1.0

3,1,1.0

3,2,5.0

3,3,1.0

3,4,5.0

4,1,1.0

4,2,5.0

4,3,1.0

4,4,5.0

1,1,5.0

1,2,1.0

1,3,5.0

1,4,1.0

2,1,5.0

2,2,1.0

2,3,5.0

2,4,1.0

3,1,1.0

3,2,5.0

3,3,1.0

3,4,5.0

4,1,1.0

4,2,5.0

4,3,1.0

4,4,5.0

1,1,5.0

1,2,1.0

1,3,5.0

1,4,1.0

2,1,5.0

2,2,1.0

数据之间用逗号分隔

打开eclipse新建一个javaProject.

在任意包中书写如下内容

package com.spark.test;

import java.util.Arrays;

import java.util.regex.Pattern;

import org.apache.spark.api.java.JavaDoubleRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.DoubleFunction;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

public final class Max {

 private static final Pattern SPACE = Pattern.compile(",");

 public static void main(String[] args) throws Exception {

  // spark安装目录

  String spark_home = "F:\\BigData\\spark-0.9.1-bin-hadoop1";

  // "local" 代表了本地运行模式

  JavaSparkContext ctx = new JavaSparkContext("local", "JavaWordCount",

    spark_home, JavaSparkContext.jarOfClass(JavaWordCount.class));

  // 加载文件

  JavaRDD<String> lines = ctx

    .textFile(

      "E:\\workspace\\spark\\src\\com\\spark\\resource\\test.data",

      1);

  // flatMap函数是把每一行根据分隔符把它变成多行。比如1,2,3 用逗号分隔用了flatMap后变成

  // 1

  // 2

  // 3 .这一行的主要作用是把所有的数据放到JavaRDD里面

  JavaRDD<String> words = lines

    .flatMap(new FlatMapFunction<String, String>() {

     @Override

     public Iterable<String> call(String s) {

      return Arrays.asList(SPACE.split(s));

     }

    });

  // 把JavaRDD<String>类型变成JavaDoubleRDD类型的

  JavaDoubleRDD one = words.map(new DoubleFunction<String>() {

   @Override

   public Double call(String s) throws Exception {

    if (s.trim().length() == 0) {

     s = "0";

    }

    return Double.parseDouble(s);

   }

  });

  // 统计有多少条数据

  System.out.println(one.count() + "%%%%%%%%");

  // 求最大值.new Function2<Double, Double, Double>()

  // 函数的3个参数,第一个和第二个参数对应call函数里面的第一个参数和第二个参数。第3个参数代表call函数的返回值类型

  Double max = one.rdd().reduce(new Function2<Double, Double, Double>() {

   @Override

   public Double call(Double i1, Double i2) throws Exception {

    return Math.max(i1, i2);

   }

  });

  System.out.println(max);

  System.exit(0);

 }

}

转载于:https://my.oschina.net/chiyong/blog/279749

你可能感兴趣的文章
MySQL主从同步机制和同步延时问题追查
查看>>
409. Longest Palindrome
查看>>
LeetCode 319. Bulb Switcher
查看>>
前端知识点——图片
查看>>
学汉语、来云栖、海外布道阿里云……这位印度架构师不一般
查看>>
240. Search a 2D Matrix II
查看>>
Leaflet-Develop-Guide
查看>>
Iterator图解
查看>>
Linux环境升级node版本
查看>>
磨刀霍霍:爬爬爬爬爬爬虫爬起来~
查看>>
【跃迁之路】【688天】程序员高效学习方法论探索系列(实验阶段445-2019.1.7)...
查看>>
OA管理系统 - SpringBoot + AmazeUi
查看>>
URI 上传中文符
查看>>
Euler 今日问世!国内首个工业级的图深度学习开源框架,阿里妈妈造
查看>>
是时候了解下Travis CI是什么了
查看>>
什么是数据库范式,是否应该严格遵守范式,什么情况下应该不遵守范式?
查看>>
LogParser v0.8.0 发布:一个用于定期增量式解析 Scrapy 爬虫日志的 Python 库
查看>>
MacOS安装git
查看>>
NEO改进协议提案6(NEP-6)
查看>>
iOS补位动画、沙漏效果、移动UITableViewCell、模拟贪吃蛇、拖拽进度等源码
查看>>