弹性分布式数据集 (Resilient Distributed Dataset, RDD) 基础
Spark 对数据的所有操作不外乎创建 RDD,转化已有 RDD 以及调用 RDD 操作进行求值。
RDD 以分区(partition)的形式分布在集群中的多个机器上,每个分区代表了数据集的一个子集。分区定义了 Spark 中数据的并行单位。Spark 框架并行处理多个分区,一个分区内的数据对象则是顺序处理。
Spark 对数据的所有操作不外乎创建 RDD,转化已有 RDD 以及调用 RDD 操作进行求值。
RDD 以分区(partition)的形式分布在集群中的多个机器上,每个分区代表了数据集的一个子集。分区定义了 Spark 中数据的并行单位。Spark 框架并行处理多个分区,一个分区内的数据对象则是顺序处理。