Summary

浏览 1306 扫码分享 2020-01-09 16:18:35

Summary

Summary

Introduction
快速上手
- Spark Shell
- 独立应用程序
- 开始翻滚吧!
编程指南
- 引入 Spark
- 初始化 Spark
- Spark RDDs
  - 并行集合
  - 外部数据集
  - RDD 操作
    - 传递函数到 Spark
    - 使用键值对
    - Transformations
    - Actions
  - RDD持久化
- 共享变量
- 从这里开始
Spark Streaming
- 一个快速的例子
- 基本概念
  - 关联
  - 初始化StreamingContext
  - 离散流
  - 输入DStreams
  - DStream中的转换
  - DStream的输出操作
  - 缓存或持久化
  - Checkpointing
  - 部署应用程序
  - 监控应用程序
- 性能调优
  - 减少批数据的执行时间
  - 设置正确的批容量
  - 内存调优
- 容错语义
Spark SQL
- 开始
- 数据源
  - RDDs
  - parquet文件
  - JSON数据集
  - Hive表
- 性能调优
- 其它SQL接口
- 编写语言集成(Language-Integrated)的相关查询
- Spark SQL数据类型
GraphX编程指南
- 开始
- 属性图
- 图操作符
- Pregel API
- 图构造者
- 顶点和边RDDs
- 图算法
- 例子
部署
- 独立运行Spark
- 在yarn上运行Spark
Spark配置
- RDD 持久化

本文使用 EduBoo.COM 构建

展开/收起文章目录