Spark入门第五章第三节 Spark - Spark Dstream操作

发表于 2017-03-20 | 分类于笔记 | 阅读次数

DStream是Spark Streaming的编程模型，DStream的操作包括输入、转换和输出。

阅读全文 »

Spark入门第五章第二节 Spark - Spark Sreaming简介

发表于 2017-03-19 | 分类于笔记 | 阅读次数

Spark Streaming是构建在Spark上的实时计算框架，它扩展了Spark处理大规模流式数据的能力。Spark Streaming可结合批处理和交互查询，适合一些需要对历史数据和实时数据进行结合分析的应用场景。

阅读全文 »

Spark入门第五章第一节 Spark - Spark流计算简介

发表于 2017-03-18 | 分类于笔记 | 阅读次数

数据总体上可以分为静态数据和流数据。对静态数据和流数据的处理，对应着两种截然不同的计算模式：批量计算和实时计算。批量计算以“静态数据”为对象，可以在很充裕的时间内对海量数据进行批量处理，计算得到有价值的信息。Hadoop就是典型的批处理模型，由HDFS和HBase存放大量的静态数据，由MapReduce负责对海量数据执行批量计算。流数据必须采用实时计算，实时计算最重要的一个需求是能够实时得到计算结果，一般要求响应时间为秒级。当只需要处理少量数据时，实时计算并不是问题；但是，在大数据时代，不仅数据格式复杂、来源众多，而且数据量巨大，这就对实时计算提出了很大的挑战。因此，针对流数据的实时计算——流计算，应运而生。

阅读全文 »