Linux日志清理

发表于 2017-10-16 | 分类于笔记 | 阅读次数

linux是一个很能自动产生文件的系统，日志、邮件、备份等。虽然现在硬盘廉价，我们可以有很多硬盘空间供这些文件浪费，让系统定时清理一些不需要的文件很有一种爽快的事情。不用你去每天惦记着是否需要清理日志，不用每天收到硬盘空间不足的报警短信，想好好休息的话，让我们把这个事情交给机器定时去执行吧。

阅读全文 »

架构之路

发表于 2017-10-12 | 分类于笔记 | 阅读次数

安全优化

阿里云的VPN虚拟专有网络以及安全组配置
自建机房的话，要自行配置防火墙安全策略
相关服务访问，比如Mysql、Redis、Solr等如果没有特殊需求尽量使用内网访问并设置鉴权
尽量使用代理服务器，不要对外开放过多的端口
https配合HTTP/2.0也是个不错的选择

阅读全文 »

解决npm install很缓慢的问题

发表于 2017-10-10 | 分类于笔记 | 阅读次数

使用NPM（Node.js包管理工具）安装依赖时速度特别慢，为了安装Express，执行命令后两个多小时都没安装成功，最后只能取消安装，笔者20M带宽，应该不是我网络的原因，后来在网上找了好久才找到一种最佳解决办法，在安装时可以手动指定从哪个镜像服务器获取资源，我们可以使用阿里巴巴在国内的镜像服务器，命令如下：

阅读全文 »

Kafka offset的重置

发表于 2017-09-25 | 分类于笔记 | 阅读次数

最近在spark读取kafka消息时，每次读取都会从kafka最新的offset读取。但是如果数据丢失，如果在使用Kafka来分发消息，在数据处理的过程中可能会出现处理程序出异常或者是其它的错误，会造成数据丢失或不一致。这个时候你也许会想要通过kafka把数据从新处理一遍，或者指定kafka的offset读取。kafka默认会在磁盘上保存到7天的数据，你只需要把kafka的某个topic的consumer的offset设置为某个值或者是最小值，就可以使该consumer从你设置的那个点开始消费。这就需要从zk里面修改offset的值。

阅读全文 »

Spark应用案例-关于购物篮的设计

发表于 2017-08-21 | 分类于笔记 | 阅读次数

介绍

购物篮的定义

阅读全文 »