精品为您呈现,快乐和您分享!

移动端

收藏本站

网站首页 > 电脑应用 > 教育教学 > 电子阅读
apache spark 源码剖析

apache spark 源码剖析

大小:30.99M 语言:简体中文

授权:免费软件 区域:国产软件 时间:2024-12-11

平台:Windows10,Windows8,Windows7,WinVista,Win2003,WinXP,Win2000

推荐指数:

应用简介

apache spark 源码剖析是一本Spark代码源码学习书籍,由许鹏编著,本书全面、系统地介绍了Spark源码,深入浅出,细致入微。先提供给读者一系列分析源码的实用技巧,并给出一个合理的阅读顺序,并且始终抓住资源分配、消息传递、容错处理等基本问题,抽丝拨茧,让读者一步步寻找答案,所有问题迎刃而解,使读者知其然更知其所以然,从而掌握学习Spark代码。

内容介绍

《apache spark 源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。本书第1章和第2章简要介绍了大数据分析技术的产生背景和演进过程;第3~5章详细分析了Spark Core中的作业规划、提交及任务执行等内容,对于要深刻把握Spark实现机理的读者来说,这几章值得反复阅读;第6~9章就Spark提供的高级Lib库进行了简要的分析,分析的思路是解决的主要问题是什么、解决的方案是如何产生的,以及方案是如何通过代码来具体实现的。

apache spark 源码剖析章节目录

第一部分 Spark概述第1章 初识Spark1.1 大数据和Spark1.1.1 大数据的由来1.1.2 大数据的分析1.1.3 Hadoop1.1.4 Spark简介1.2 与Spark的第一次亲密接触1.2.1 环境准备1.2.2 下载安装Spark1.2.3 Spark下的WordCount第二部分 Spark核心概念第2章 Spark整体框架2.1 编程模型2.1.1 RDD2.1.2 Operation2.2 运行框架2.2.1 作业提交2.2.2 集群的节点构成2.2.3 容错处理2.2.4 为什么是Scala2.3 源码阅读环境准备2.3.1 源码下载及编译2.3.2 源码目录结构2.3.3 源码阅读工具2.3.4 本章小结第3章 SparkContext初始化3.1 spark-shell3.2 SparkContext的初始化综述3.3 Spark Repl综述3.3.1 Scala Repl执行过程3.3.2 Spark Repl第4章 Spark作业提交4.1 作业提交4.2 作业执行4.2.1 依赖性分析及Stage划分4.2.2 Actor Model和Akka4.2.3 任务的创建和分发4.2.4 任务执行4.2.5 Checkpoint和Cache4.2.6 WebUI和Metrics4.3 存储机制4.3.1 Shuffle结果的写入和读取4.3.2 Memory Store4.3.3 存储子模块启动过程分析4.3.4 数据写入过程分析4.3.5 数据读取过程分析4.3.6 TachyonStore第5章 部署方式分析5.1 部署模型5.2 单机模式local5.3 伪集群部署local-cluster5.4 原生集群Standalone Cluster5.4.1 启动Master5.4.2 启动Worker5.4.3 运行spark-shell5.4.4 容错性分析5.5 Spark On YARN5.5.1 YARN的编程模型5.5.2 YARN中的作业提交5.5.3 Spark On YARN实现详解5.5.4 SparkPi on YARN第三部分 Spark Lib第6章 Spark Streaming6.1 Spark Streaming整体架构6.1.1 DStream6.1.2 编程接口6.1.3 Streaming WordCount6.2 Spark Streaming执行过程6.2.1 StreamingContext初始化过程6.2.2 数据接收6.2.3 数据处理6.2.4 BlockRDD6.3 窗口操作6.4 容错性分析6.5 Spark Streaming vs. Storm6.5.1 Storm简介6.5.2 Storm和Spark Streaming对比6.6 应用举例6.6.1 搭建Kafka Cluster6.6.2 KafkaWordCount第7章 SQL7.1 SQL语句的通用执行过程分析7.2 SQL On Spark的实现分析7.2.1 SqlParser7.2.2 Analyzer7.2.3 Optimizer7.2.4 SparkPlan7.3 Parquet 文件和JSON数据集7.4 Hive简介7.4.1 Hive 架构7.4.2 HiveQL On MapReduce执行过程分析7.5 HiveQL On Spark详解7.5.1 Hive On Spark环境搭建7.5.2 编译支持Hadoop 2.x的Spark7.5.3 运行Hive On Spark测试用例第8章 GraphX8.1 GraphX简介8.1.1 主要特点8.1.2 版本演化8.1.3 应用场景8.2 分布式图计算处理技术介绍8.2.1 属性图8.2.2 图数据的存储与分割8.3 Pregel计算模型8.3.1 BSP8.3.2 像顶点一样思考8.4 GraphX图计算框架实现分析8.4.1 基本概念8.4.2 图的加载与构建8.4.3 图数据存储与分割8.4.4 操作接口8.4.5 Pregel在GraphX中的源码实现8.5 PageRank8.5.1 什么是PageRank8.5.2 PageRank核心思想第9章 MLLib9.1 线性回归9.1.1 数据和估计9.1.2 线性回归参数求解方法9.1.3 正则化9.2 线性回归的代码实现9.2.1 简单示例9.2.2 入口函数train9.2.3 最优化算法optimizer9.2.4 权重更新update9.2.5 结果预测predict9.3 分类算法9.3.1 逻辑回归9.3.2 支持向量机9.4 拟牛顿法9.4.1 数学原理9.4.2 代码实现9.5 MLLib与其他应用模块间的整合第四部分 附录附录A Spark源码调试附录B 源码阅读技巧

使用说明

1、下载并解压,得出pdf文件
2、如果打不开本文件,请务必下载pdf阅读器
3、安装后,在打开解压得出的pdf文件
4、双击进行阅读

应用截图