四个需求
- 需求一:求contentsize的平均值、最小值、最大值
- 需求二:请各个不同返回值的出现的数据 ===> wordCount程序
- 需求三:获取访问次数超过N次的IP地址
- 需求四:获取访问次数最多的前K个endpoint的值 ==> TopN
主程序LogAnalyzer.scala
1 | import org.apache.spark.rdd.RDD |
需要的辅助类一(返回匹配的日志)
1 | import scala.util.matching.Regex |
需要的辅助类二(自定义的一个二元组的比较器,方便进行TopN)
1 |
|