Spark核心技术与高级应用

大小：38.49M 语言：简体中文

授权：免费软件区域：国产软件时间：2024-12-11

平台：Windows10,Windows8,Windows7,WinVista,Win2003,WinXP,Win2000

推荐指数：

本地下载

应用简介

Spark核心技术与高级应用是Spark领域少有的专注于核心原理与深度应用的著作，由科大讯飞和百分点科技的4位大数据专家撰写。全书不仅细致介绍了Spark的程序开发、编程模型、作业执行解析等基础知识，而且还深度讲解了Spark SQL、Spark ML、Spark Streaming等大量内部模块和周边模块的原理与使用。除此之外，还从管理和性能优化的角度对Spark进行了深入探索，非常适合大数据相关从事者下载参考阅读。

内容介绍

Spark核心技术与高级应用分为四大部分，共计20章：
基础篇（第1～10章），详细说明什么是Spark、Spark的重要扩展、Spark的部署和运行、Spark程序开发、Spark编程模型，以及Spark作业执行解析。通过阅读本篇，读者可以构建更加清晰的Spark基础知识体系，进一步加深对大数据核心技术的理解。
实战篇（第11～14章），本书重点篇章，重点讲解Spark SQL与DataFrame、Spark Streaming、Spark MLlib与Spark ML、GraphX，以及基于以上内容在大数据分析、系统资源统计、LR模型、二级邻居关系图获取方面的实例。通过体察本篇的内容，读者可以掌握如何在实践中应用Spark，优化自身的应用场景，完善相应的解决方案。
高级篇（第15～18章），深入讲解Spark调度管理、存储管理、监控管理、性能调优。本篇的内容，为合理利用资源、有效进行资源监控、保障运行环境的稳定、平台性能调优、推进企业级的大数据平台管理提供了参考依据。
扩展篇（第19～20章），介绍Jobserver和Tachyon在Spark上的使用情况。通过本篇，延续基础、实战、高级等环节，并进一步扩展，更好地管理好Job、更有效地利用内存，为读者拓展出更深入、更全面的思路。

Spark核心技术与高级应用章节目录

前 言基 础 篇第1章 Spark简介 21.1 什么是Spark 21.1.1 概述 31.1.2 Spark大数据处理框架 31.1.3 Spark的特点 41.1.4 Spark应用场景 51.2 Spark的重要扩展 61.2.1 Spark SQL和DataFrame 61.2.2 Spark Streaming 71.2.3 Spark MLlib和ML 81.2.4 GraphX 81.2.5 SparkR 91.3 本章小结 10第2章 Spark部署和运行 112.1 部署准备 112.1.1 下载Spark 112.1.2 编译Spark版本 122.1.3 集群部署概述 142.2 Spark部署 152.2.1 Local模式部署 162.2.2 Standalone模式部署 162.2.3 YARN模式部署 182.3 运行Spark应用程序 192.3.1 Local模式运行Spark应用程序 192.3.2 Standalone模式运行Spark应用程序 202.3.3 YARN模式运行Spark 222.3.4 应用程序提交和参数传递 232.4 本章小结 26第3章 Spark程序开发 273.1 使用Spark Shell编写程序 273.1.1 启动Spark Shell 283.1.2 加载text文件 283.1.3 简单RDD操作 283.1.4 简单RDD操作应用 293.1.5 RDD缓存 303.2 构建Spark的开发环境 303.2.1 准备环境 303.2.2 构建Spark的Eclipse开发环境 313.2.3 构建Spark的IntelliJ IDEA开发环境 323.3 独立应用程序编程 403.3.1 创建SparkContext对象 403.3.2 编写简单应用程序 403.3.3 编译并提交应用程序 403.4 本章小结 43第4章 编程模型 444.1 RDD介绍 444.1.1 RDD特征 454.1.2 RDD依赖 454.2 创建RDD 474.2.1 集合（数组）创建RDD 474.2.2 存储创建RDD 484.3 RDD操作 494.3.1 转换操作 504.3.2 执行操作 524.3.3 控制操作 544.4 共享变量 564.4.1 广播变量 574.4.2 累加器 574.5 本章小结 58第5章 作业执行解析 595.1 基本概念 595.1.1 Spark组件 595.1.2 RDD视图 605.1.3 DAG图 615.2 作业执行流程 625.2.1 基于Standalone模式的Spark架构 625.2.2 基于YARN模式的Spark架构 645.2.3 作业事件流和调度分析 655.3 运行时环境 675.3.1 构建应用程序运行时环境 685.3.2 应用程序转换成DAG 685.3.3 调度执行DAG图 705.4 应用程序运行实例 715.5 本章小结 72第6章 Spark SQL与DataFrame 736.1 概述 736.1.1 Spark SQL 发展 746.1.2 Spark SQL 架构 746.1.3 Spark SQL 特点 766.1.4 Spark SQL 性能 766.2 DataFrame 776.2.1 DataFrame和RDD的区别 786.2.2 创建DataFrame 786.2.3 DataFrame 操作 806.2.4 RDD转化为DataFrame 826.3 数据源 846.3.1 加载保存操作 846.3.2 Parquet 文件 856.3.3 JSON 数据集 886.3.4 Hive 表 896.3.5 通过JDBC 连接数据库 916.3.6 多数据源整合查询的小例子 926.4 分布式的SQL Engine 936.4.1 运行Thrift JDBC/ODBC 服务 936.4.2 运行 Spark SQL CLI 946.5 性能调优 946.5.1 缓存数据 946.5.2 调优参数 946.5.3 增加并行度 956.6 数据类型 956.7 本章小结 96第7章 深入了解Spark Streaming 977.1 基础知识 977.1.1 Spark Streaming工作原理 987.1.2 DStream编程模型 997.2 DStream操作 1007.2.1 Input DStream 1007.2.2 DStream转换操作 1027.2.3 DStream状态操作 1047.2.4 DStream输出操作 1067.2.5 缓存及持久化 1077.2.6 检查点 1087.3 性能调优 1097.3.1 优化运行时间 1097.3.2 设置合适的批次大小 1117.3.3 优化内存使用 1117.4 容错处理 1127.4.1 文件输入源 1127.4.2 基于Receiver的输入源 1127.4.3 输出操作 1137.5 一个例子 1137.6 本章小结 115第8章 Spark MLlib与机器学习 1168.1 机器学习概述 1168.1.1 机器学习分类 1178.1.2 机器学习算法 1178.2 Spark MLlib介绍 1188.3 Spark MLlib库 1198.3.1 MLlib数据类型 1208.3.2 MLlib的算法库与实例 1238.4 ML库 1428.4.1 主要概念 1438.4.2 算法库与实例 1458.5 本章小结 147第9章 GraphX图计算框架与应用 1489.1 概述 1489.2 Spark GraphX架构 1499.3 GraphX编程 1509.3.1 GraphX的图操作 1529.3.2 常用图算法 1619.4 应用场景 1649.4.1 图谱体检平台 1649.4.2 多图合并工具 1659.4.3 能量传播模型 1659.5 本章小结 166第10章 SparkR（R on Spark） 16710.1 概述 16710.1.1 SparkR介绍 16810.1.2 SparkR的工作原理 16810.1.3 R语言介绍 16910.1.4 R语言与其他语言的通信 17010.2 安装SparkR 17010.2.1 安装R语言与rJava 17110.2.2 SparkR的安装 17110.3 SparkR的运行与应用示例 17210.3.1 运行SparkR 17210.3.2 SparkR示例程序 17310.3.3 R的DataFrame操作方法 17510.3.4 SparkR的DataFrame 18310.4 本章小结 186实 战 篇第11章 大数据分析系统 18811.1 背景 18811.2 数据格式 18911.3 应用架构 18911.4 业务实现 19011.4.1 流量、性能的实时分析 19011.4.2 流量、性能的统计分析 19211.4.3 业务关联分析 19311.4.4 离线报表分析 19511.5 本章小结 199第12章 系统资源分析平台 20012.1 业务背景 20012.1.1 业务介绍 20112.1.2 实现目标 20112.2 应用架构 20112.2.1 总体架构 20212.2.2 模块架构 20212.3 代码实现 20312.3.1 Kafka集群 20312.3.2 数据采集 20712.3.3 离线数据处理 20712.3.4 数据表现 20712.4 结果验证 21312.5 本章小结 214第13章 在Spark上训练LR模型 21513.1 逻辑回归简介 21513.2 数据格式 21613.3 MLlib中LR模型源码介绍 21713.3.1 逻辑回归分类器 21713.3.2 优化方法 21913.3.3 算法效果评估 22113.4 实现案例 22313.4.1 训练模型 22313.4.2 计算AUC 22313.5 本章小结 224第14章 获取二级邻居关系图 22514.1 理解PageRank 22514.1.1 初步理解PageRank 22514.1.2 深入理解PageRank 22714.2 PageRank算法基于Spark的实现 22814.3 基于PageRank的二级邻居获取 23214.3.1 系统设计 23214.3.2 系统实现 23214.3.3 代码提交命令 23514.4 本章小结 236高 级 篇第15章 调度管理 23815.1 调度概述 23815.1.1 应用程序间的调度 23915.1.2 应用程序中的调度 24115.2 调度器 24215.2.1 调度池 24315.2.2 Job调度流程 24315.2.3 调度模块 24515.2.4 Job的生与死 24915.3 本章小结 253第16章 存储管理 25416.1 硬件环境 25416.1.1 存储系统 25416.1.2 本地磁盘 25516.1.3 内存 25516.1.4 网络和CPU 25516.2 Storage模块 25616.2.1 通信层 25616.2.2 存储层 25816.3 Shuff?le数据持久化 26116.4 本章小结 263第17章 监控管理 26417.1 Web界面 26417.2 Spark UI历史监控 26617.2.1 使用spark-server的原因 26617.2.2 配置spark-server 26617.3 监控工具 26917.3.1 Metrics工具 26917.3.2 其他工具 27117.4 本章小结 272第18章 性能调优 27318.1 文件的优化 27318.1.1 输入采用大文件 27318.1.2 lzo压缩处理 27418.1.3 Cache压缩 27518.2 序列化数据 27718.3 缓存 27818.4 共享变量 27818.4.1 广播变量 27918.4.2 累加器 27918.5 流水线优化 28018.6 本章小结 280扩 展 篇第19章 Spark-jobserver实践 28219.1 Spark-jobserver是什么 28219.2 编译、部署及体验 28319.2.1 编译及部署 28319.2.2 体验 28619.3 Spark-jobserver程序实战 28819.3.1 创建步骤 28819.3.2 一些常见的问题 28919.4 使用场景：用户属性分布计算 28919.4.1 项目需求 29019.4.2 计算架构 29019.4.3 使用NamedRDD 29119.5 本章小结 291第20章 Spark Tachyon实战 29220.1 Tachyon文件系统 29220.1.1 文件系统概述 29320.1.2 HDFS和Tachyon 29420.1.3 Tachyon设计原理 29420.1.4 Tachyon特性 29520.2 Tachyon入门 29520.2.1 Tachyon 部署 29520.2.2 Tachyon API 29720.2.3 在Spark上使用Tachyon 29820.3  容错机制 29920.4 本章小结 300