Spark
-
Spark内存管理概览
翻译自Spark官网文档,版本:2.3.0 spark内存管理概览 Spark很大一部分内存用于storage和execution,即存储和执行任务。execution memor…
-
Spark的Job、Stage、Task是按何种规则产生的
上面这张图就可以很清晰的说明这个问题。(图中最小的方块代表一个partition,包裹partition的方块是RDD,忽略颜色)
-
spark RDD 宽依赖与窄依赖
RDD被设计为可以记录依赖关系,关系可以分为两类:窄依赖和宽依赖。 窄依赖:表示父亲 RDD 的一个分区最多被子 RDD 一个分区所依赖。宽依赖:表示父亲 RDD 的一个分区可以被…