Fork me on GitHub
不卑不亢不慌不忙

life is struggle


  • 首页

  • 分类

  • 归档

  • 标签

  • 收集

  • 关于

  • 公益404

  • 搜索

Spark入门 第五章 第三节 Spark - Spark Dstream操作

发表于 2017-03-20 | 分类于 笔记 | 阅读次数

DStream是Spark Streaming的编程模型,DStream的操作包括输入、转换和输出。

阅读全文 »

Spark入门 第五章 第二节 Spark - Spark Sreaming简介

发表于 2017-03-19 | 分类于 笔记 | 阅读次数

Spark Streaming是构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。Spark Streaming可结合批处理和交互查询,适合一些需要对历史数据和实时数据进行结合分析的应用场景。

阅读全文 »

Spark入门 第五章 第一节 Spark - Spark流计算简介

发表于 2017-03-18 | 分类于 笔记 | 阅读次数

数据总体上可以分为静态数据和流数据。对静态数据和流数据的处理,对应着两种截然不同的计算模式:批量计算和实时计算。批量计算以“静态数据”为对象,可以在很充裕的时间内对海量数据进行批量处理,计算得到有价值的信息。Hadoop就是典型的批处理模型,由HDFS和HBase存放大量的静态数据,由MapReduce负责对海量数据执行批量计算。流数据必须采用实时计算,实时计算最重要的一个需求是能够实时得到计算结果,一般要求响应时间为秒级。当只需要处理少量数据时,实时计算并不是问题;但是,在大数据时代,不仅数据格式复杂、来源众多,而且数据量巨大,这就对实时计算提出了很大的挑战。因此,针对流数据的实时计算——流计算,应运而生。

阅读全文 »

Spark入门 第四章 第六节 Spark - 通过JDBC连接数据库(DataFrame)

发表于 2017-03-12 | 分类于 笔记 | 阅读次数

这里以关系数据库MySQL为例。首先,请参考厦门大学数据库实验室博客教程(Ubuntu安装MySQL),在Linux系统中安装好MySQL数据库。这里假设你已经成功安装了MySQL数据库。下面我们要新建一个测试Spark程序的数据库,数据库名称是“spark”,表的名称是“student”。

阅读全文 »

Spark入门 第四章 第七节 Spark - 读写Hive数据(DataFrame)

发表于 2017-03-12 | 分类于 笔记 | 阅读次数

该节内容待补充完整

注:此博客参考自 厦门大学林子雨老师博客 仅供博主自身复习用
1…8910…20
Melodylican

Melodylican

life is struggle

98 日志
9 分类
78 标签
RSS
GitHub Twitter 微博
Creative Commons
友情链接
  • 阿里中间件技术团队
  • 阮一峰
  • 简单之美
© 2012 - 2019 Powered By Melodylican
个人专属
博客