Fork me on GitHub
不卑不亢不慌不忙

life is struggle


  • 首页

  • 分类

  • 归档

  • 标签

  • 收集

  • 关于

  • 公益404

  • 搜索

Spark入门 第二章 第四节 Spark集群环境的搭建

发表于 2017-02-18 | 分类于 笔记 | 阅读次数

Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 最大的特点就是快,可比 Hadoop MapReduce 的处理速度快 100 倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群,而是使用三台电脑来搭建一个小型分布式集群环境安装。
本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群,同样适用于搭建Spark1.6.2集群。

阅读全文 »

Spark入门 第二章 第三节 使用开发工具Intellij idea编写Spark应用程序(Scala+Maven)

发表于 2017-02-15 | 分类于 笔记 | 阅读次数

对Scala代码进行打包编译时,可以采用Maven,也可以采用sbt,相对而言,业界更多使用sbt。这里介绍IntelliJ IDEA和Maven的组合使用方法。IntelliJ IDEA和SBT的组合使用方法,请参考“使用Intellij Idea编写Spark应用程序(Scala+SBT)”。

阅读全文 »

Spark入门 第二章 第二节 第一个Spark应用程序:WordCount

发表于 2017-02-10 | 分类于 笔记 | 阅读次数

前面已经学习了Spark安装,完成了实验环境的搭建,并且学习了Spark运行架构和RDD设计原理,同时,我们还学习了Scala编程的基本语法,有了这些基础知识作为铺垫,现在我们可以没有障碍地开始编写一个简单的Spark应用程序了——词频统计。

阅读全文 »

Spark入门 第二章 第一节 Spark的安装和使用

发表于 2017-02-07 | 分类于 笔记 | 阅读次数

Spark可以独立安装使用,也可以和Hadoop一起安装使用。本教程中,我们采用和Hadoop一起安装使用,这样,就可以让Spark使用HDFS存取数据。需要说明的是,当安装好Spark以后,里面就自带了scala环境,不需要额外安装scala,因此,“Spark安装”这个部分的教程,假设读者的计算机上,没有安装Scala,也没有安装Java(当然了,如果已经安装Java和Scala,也没有关系,依然可以继续按照本教程进行安装),也就是说,你的计算机目前只有Linux系统,其他的软件和环境都没有安装(没有Java,没有Scala,没有Hadoop,没有Spark),需要从零开始安装所有大数据相关软件。下面,需要你在自己的Linux系统上(笔者采用的Linux系统是Ubuntu16.04),首先安装Java和Hadoop,然后再安装Spark(Spark安装好以后,里面就默认包含了Scala解释器)。本教程的具体运行环境如下:
Ubuntu16.04以上
Hadoop 2.7.1以上
Java JDK 1.7以上
Spark 2.1.0

阅读全文 »

Spark入门 第一章 第四节 Spark的部署模式

发表于 2017-02-05 | 分类于 笔记 | 阅读次数

本节首先介绍Spark支持的三种典型集群部署方式,即standalone、Spark on Mesos和Spark on YARN;然后,介绍在企业中是如何具体部署和应用Spark框架的,在企业实际应用环境中,针对不同的应用场景,可以采用不同的部署应用方式,或者采用Spark完全替代原有的Hadoop架构,或者采用Spark和Hadoop一起部署的方式。

阅读全文 »
1…111213…20
Melodylican

Melodylican

life is struggle

98 日志
9 分类
78 标签
RSS
GitHub Twitter 微博
Creative Commons
友情链接
  • 阿里中间件技术团队
  • 阮一峰
  • 简单之美
© 2012 - 2019 Powered By Melodylican
个人专属
博客