Spark入门第二章第四节 Spark集群环境的搭建

发表于 2017-02-18 | 分类于笔记 | 阅读次数

Apache Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark 最大的特点就是快，可比 Hadoop MapReduce 的处理速度快 100 倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。
本教程采用Spark2.0以上版本（比如Spark2.0.2、Spark2.1.0等）搭建集群，同样适用于搭建Spark1.6.2集群。

阅读全文 »

Spark入门第二章第三节使用开发工具Intellij idea编写Spark应用程序(Scala+Maven)

发表于 2017-02-15 | 分类于笔记 | 阅读次数

对Scala代码进行打包编译时，可以采用Maven，也可以采用sbt，相对而言，业界更多使用sbt。这里介绍IntelliJ IDEA和Maven的组合使用方法。IntelliJ IDEA和SBT的组合使用方法，请参考“使用Intellij Idea编写Spark应用程序（Scala+SBT）”。

阅读全文 »

Spark入门第二章第二节第一个Spark应用程序：WordCount

发表于 2017-02-10 | 分类于笔记 | 阅读次数

前面已经学习了Spark安装，完成了实验环境的搭建，并且学习了Spark运行架构和RDD设计原理，同时，我们还学习了Scala编程的基本语法，有了这些基础知识作为铺垫，现在我们可以没有障碍地开始编写一个简单的Spark应用程序了——词频统计。

阅读全文 »

Spark入门第二章第一节 Spark的安装和使用

发表于 2017-02-07 | 分类于笔记 | 阅读次数

Spark可以独立安装使用，也可以和Hadoop一起安装使用。本教程中，我们采用和Hadoop一起安装使用，这样，就可以让Spark使用HDFS存取数据。需要说明的是，当安装好Spark以后，里面就自带了scala环境，不需要额外安装scala，因此，“Spark安装”这个部分的教程，假设读者的计算机上，没有安装Scala，也没有安装Java（当然了，如果已经安装Java和Scala，也没有关系，依然可以继续按照本教程进行安装），也就是说，你的计算机目前只有Linux系统，其他的软件和环境都没有安装（没有Java，没有Scala，没有Hadoop，没有Spark），需要从零开始安装所有大数据相关软件。下面，需要你在自己的Linux系统上（笔者采用的Linux系统是Ubuntu16.04），首先安装Java和Hadoop，然后再安装Spark（Spark安装好以后，里面就默认包含了Scala解释器）。本教程的具体运行环境如下：
Ubuntu16.04以上
Hadoop 2.7.1以上
Java JDK 1.7以上
Spark 2.1.0

阅读全文 »

Spark入门第一章第四节 Spark的部署模式

发表于 2017-02-05 | 分类于笔记 | 阅读次数

本节首先介绍Spark支持的三种典型集群部署方式，即standalone、Spark on Mesos和Spark on YARN；然后，介绍在企业中是如何具体部署和应用Spark框架的，在企业实际应用环境中，针对不同的应用场景，可以采用不同的部署应用方式，或者采用Spark完全替代原有的Hadoop架构，或者采用Spark和Hadoop一起部署的方式。

阅读全文 »