Fork me on GitHub
不卑不亢不慌不忙

life is struggle


  • 首页

  • 分类

  • 归档

  • 标签

  • 收集

  • 关于

  • 公益404

  • 搜索

IT牛人博客收集

发表于 2016-10-10 | 分类于 IT牛人博客 | 阅读次数

IT牛人博客

大数据必学博客

• 厦门大学林子雨简单易懂

团队技术博客

• 腾讯SOSO团队博客
• 腾讯CDC为用户创造优质在线生活体验

阅读全文 »

机器学习理论基础(二)

发表于 2016-10-05 | 分类于 笔记 | 阅读次数

数据分析与机器学习的区别:

1、数据特点:

(1)

  • 数据分析处理交易数据(和钱有关系的);
  • 机器学习处理行为数据(搜索历史、点击历史、浏览历史、评论)。
    (2)数据量
  • 数据分析是少量数据
  • 机器学习是海量数据
阅读全文 »

机器学习理论基础(一)

发表于 2016-09-26 | 分类于 笔记 | 阅读次数

什么是机器学习:

1、利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定场景的决策。
2、对不确定场景的决策的两种方法:
(1)机器学习
(2)数据分析:依赖于数据分析师,即人

从数据中寻找规律:

1、全部数据
2、量化、用模型刻画(拟合)规律

阅读全文 »

Storm 笔记 fieldsGrouping

发表于 2016-06-09 | 分类于 算法 | 阅读次数

Twitter Storm, 数据流分组策略,fieldsGrouping


Storm Grouping

1. shuffleGrouping
将流分组定义为混排。这种混排分组意味着来自Spout的输入将混排,或随机分发给此Bolt中的任务。shuffle grouping对各个task的tuple分配的比较均匀。
2. fieldsGrouping
这种grouping机制保证相同field值的tuple会去同一个task,这对于WordCount来说非常关键,如果同一个单词不去同一个task,那么统计出来的单词次数就不对了。
3. All grouping
广播发送, 对于每一个tuple将会复制到每一个bolt中处理。
4. Global grouping
Stream中的所有的tuple都会发送给同一个bolt任务处理,所有的tuple将会发送给拥有最小task_id的bolt任务处理。
5. None grouping
不关注并行处理负载均衡策略时使用该方式,目前等同于shuffle grouping,另外storm将会把bolt任务和他的上游提供数据的任务安排在同一个线程下。
6. Direct grouping
由tuple的发射单元直接决定tuple将发射给那个bolt,一般情况下是由接收tuple的bolt决定接收哪个bolt发射的Tuple。这是一种比较特别的分组方法,用这种分组意味着消息的发送者指定由消息接收者的哪个task处理这个消息。 只有被声明为Direct Stream的消息流可以声明这种分组方法。而且这种消息tuple必须使用emitDirect方法来发射。消息处理者可以通过TopologyContext来获取处理它的消息的taskid (OutputCollector.emit方法也会返回taskid)

Java面试小结

发表于 2016-05-20 | 分类于 笔记 | 阅读次数

Java面试小结

阅读全文 »
1…141516…20
Melodylican

Melodylican

life is struggle

98 日志
9 分类
78 标签
RSS
GitHub Twitter 微博
Creative Commons
友情链接
  • 阿里中间件技术团队
  • 阮一峰
  • 简单之美
© 2012 - 2019 Powered By Melodylican
个人专属
博客