Spark入门第一章第三节 RDD的设计与运行原理

发表于 2017-02-04 | 分类于笔记 | 阅读次数

Spark的核心是建立在统一的抽象RDD之上，使得Spark的各个组件可以无缝进行集成，在同一个应用程序中完成大数据计算任务。RDD的设计理念源自AMP实验室发表的论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》。

阅读全文 »

Spark入门第一章第二节 Spark运行架构

发表于 2017-02-01 | 分类于笔记 | 阅读次数

基本概念

在具体讲解Spark运行架构之前，需要先了解几个重要的概念：

RDD：是弹性分布式数据集（Resilient Distributed Dataset）的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型；
DAG：是Directed Acyclic Graph（有向无环图）的简称，反映RDD之间的依赖关系；
Executor：是运行在工作节点（Worker Node）上的一个进程，负责运行任务，并为应用程序存储数据；
应用：用户编写的Spark应用程序；
任务：运行在Executor上的工作单元；
作业：一个作业包含多个RDD及作用于相应RDD上的各种操作；
阶段：是作业的基本调度单位，一个作业会分为多组任务，每组任务被称为“阶段”，或者也被称为“任务集”。

阅读全文 »

使用Java开发高性能网站需要注意的那些事

发表于 2017-01-10 | 分类于笔记 | 阅读次数

阅读全文 »

ZooKeeper经典应用场景

发表于 2017-01-10 | 分类于笔记 | 阅读次数

转载自：http://rdc.taobao.com/team/jm/archives/1232

这篇文章写的非常贴近实际，比官方好！

ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。

值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利用其提供的一系列API接口（或者称为原语集），摸索出来的典型使用方法。因此，也非常欢迎读者分享你在ZK使用上的奇技淫巧。

阅读全文 »

浅谈协程

发表于 2016-12-25 | 分类于笔记 | 阅读次数

最近在研究网络服务框架方面的东西，发现了一个神奇的东西-协程。

一句话说明什么是线程：协程是一种用户态的轻量级线程。

阅读全文 »