用Spark求最大值-白红宇

用Spark求最大值

阅读量：7012 次

发布时间：2019-06-28

本文共 2487 字，大约阅读时间需要 8 分钟。

Spark求最大值

1：以前用过hadoop从文件中读取数据求过最大值。现在用Spark来求最大值。由于spark的资料比较少所以搞了半天才弄完。我亲自测试在local状态下14750778条数据用了10秒。

2：下载spark-0.9.1-bin-hadoop1并解压到F:\BigData (Spark可以再Windows上运行) 打开目录F:\BigData\spark-0.9.1-bin-hadoop1\assembly\target\scala-2.10把里面的spark-assembly_2.10-0.9.1-hadoop1.0.4.jar放到新建的工程里面就可以了。

准备数据:新建一个data文件在里面输入如下内容：

1,1,5.0

1,2,1.0

1,3,5.0

1,4,1.0

2,1,5.0

2,2,1.0

2,3,5.0

2,4,1.0

3,1,1.0

3,2,5.0

3,3,1.0

3,4,5.0

4,1,1.0

4,2,5.0

4,3,1.0

4,4,5.0

1,1,5.0

1,2,1.0

1,3,5.0

1,4,1.0

2,1,5.0

2,2,1.0

2,3,5.0

2,4,1.0

3,1,1.0

3,2,5.0

3,3,1.0

3,4,5.0

4,1,1.0

4,2,5.0

4,3,1.0

4,4,5.0

1,1,5.0

1,2,1.0

1,3,5.0

1,4,1.0

2,1,5.0

2,2,1.0

数据之间用逗号分隔

打开eclipse新建一个javaProject.

在任意包中书写如下内容

package com.spark.test;

import java.util.Arrays;

import java.util.regex.Pattern;

import org.apache.spark.api.java.JavaDoubleRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.DoubleFunction;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

public final class Max {

private static final Pattern SPACE = Pattern.compile(",");

public static void main(String[] args) throws Exception {

// spark安装目录

String spark_home = "F:\\BigData\\spark-0.9.1-bin-hadoop1";

// "local" 代表了本地运行模式

JavaSparkContext ctx = new JavaSparkContext("local", "JavaWordCount",

spark_home, JavaSparkContext.jarOfClass(JavaWordCount.class));

// 加载文件

JavaRDD<String> lines = ctx

.textFile(

"E:\\workspace\\spark\\src\\com\\spark\\resource\\test.data",

1);

// flatMap函数是把每一行根据分隔符把它变成多行。比如1,2,3 用逗号分隔用了flatMap后变成

// 1

// 2

// 3 .这一行的主要作用是把所有的数据放到JavaRDD里面

JavaRDD<String> words = lines

.flatMap(new FlatMapFunction<String, String>() {

@Override

public Iterable<String> call(String s) {

return Arrays.asList(SPACE.split(s));

}

});

// 把JavaRDD<String>类型变成JavaDoubleRDD类型的

JavaDoubleRDD one = words.map(new DoubleFunction<String>() {

@Override

public Double call(String s) throws Exception {

if (s.trim().length() == 0) {

s = "0";

}

return Double.parseDouble(s);

}

});

// 统计有多少条数据

System.out.println(one.count() + "%%%%%%%%");

// 求最大值.new Function2<Double, Double, Double>()

// 函数的3个参数，第一个和第二个参数对应call函数里面的第一个参数和第二个参数。第3个参数代表call函数的返回值类型

Double max = one.rdd().reduce(new Function2<Double, Double, Double>() {

@Override

public Double call(Double i1, Double i2) throws Exception {

return Math.max(i1, i2);

}

});

System.out.println(max);

System.exit(0);

}

转载于:https://my.oschina.net/chiyong/blog/279749

你可能感兴趣的文章

MySQL主从同步机制和同步延时问题追查

查看>>

409. Longest Palindrome

查看>>

LeetCode 319. Bulb Switcher

查看>>

前端知识点——图片

查看>>

学汉语、来云栖、海外布道阿里云……这位印度架构师不一般

查看>>

240. Search a 2D Matrix II

查看>>

Leaflet-Develop-Guide

【跃迁之路】【688天】程序员高效学习方法论探索系列（实验阶段445-2019.1.7）...

查看>>

OA管理系统 - SpringBoot + AmazeUi

查看>>

URI 上传中文符

查看>>

Euler 今日问世！国内首个工业级的图深度学习开源框架，阿里妈妈造

查看>>

是时候了解下Travis CI是什么了

查看>>

什么是数据库范式，是否应该严格遵守范式，什么情况下应该不遵守范式？

查看>>

LogParser v0.8.0 发布：一个用于定期增量式解析 Scrapy 爬虫日志的 Python 库

iOS补位动画、沙漏效果、移动UITableViewCell、模拟贪吃蛇、拖拽进度等源码

查看>>