
Spark优化

life is struggle
1 | object LogPVAndUV{ |
spark算子大致上可分三大类算子:
Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据。
Key-Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Key-Value型的数据。
Action算子,这类算子会触发SparkContext提交作业。
Java虚拟机在执行Java程序时会将其所管理的内存区域分成几个不同的部分,这几个部分的生命周期以及作用都各自不同,这些区域分别为:方法区(Method Area)、堆(Heap)、虚拟栈(VM Stack)、本地方法栈(Native Method Stack)、程序计数器(Program Counter Register),下面分别详细介绍一下。