Apache Beam使用简介

发表于 2019-01-15 | 分类于学习笔记 | 阅读次数

创建Pipeline

管道抽象封装了数据处理任务中的所有数据和步骤。通常从构建一个Pipeline对象开始，然后使用该对象作为创建管道数据集PCollections的基础，并对其作Transforms操作。

// Start by defining the options for the pipeline.
PipelineOptions options = PipelineOptionsFactory.create();

// Then create the pipeline.
Pipeline p = Pipeline.create(options);

或者通过命令行参数的方式：
PipelineOptions options =
    PipelineOptionsFactory.fromArgs(args).withValidation().create();
// 参数的传递方式 --<option>=<value>

阅读全文 »

Kafka常用命令

发表于 2018-04-20 | 分类于笔记 | 阅读次数

kafka 资料整理

安装 zookeeper 配置 zookeeper 集群

启动 zookeeper: sudo bin/zkServer.sh {start|start-foreground|stop|restart|status|upgrade|print-cmd}

阅读全文 »

缓存踩过的坑

发表于 2017-12-07 | 分类于笔记 | 阅读次数

今天讲的这个话题，我相信是众多工程师和团队的痛。从我刚开始工作，那时候构建本地缓存，到后续memcache, Redis的出现，到现在各种分布式集群的缓存，例如redis Cluster等产品的出现，缓存越来越发达和复杂了，缓存对我们的系统也越发重要，现在很难相信一个后端服务里没有缓存的存在。在这篇文章里，我会和大家分享一下过去踩到的缓存坑，然后试图给出一些解决方案，大家可以一起讨论，最终拿出更好的方法。由于篇幅有限，所以这里的缓存讨论，只局限于后端服务的缓存，并且不涉及具体的框架，对于H5,iOS和Android等前端缓存的讨论本文暂时不会涉及。

阅读全文 »