apache kylin权威指南

大小：15.22M 语言：简体中文

授权：免费软件区域：国产软件时间：2024-12-11

平台：Windows10,Windows8,Windows7,WinVista,Win2003,WinXP,Win2000

推荐指数：

本地下载

应用简介

Apache Kylin是个由中国人主导的Apache项目，apache kylin权威指南则是国内一本由该团队开发的原创图书，全书总共12章，介绍了Apache Kylin的历史、技术原理和产品定位，同时详细解读了Apache Kylin的核心概念，增量构建，流式构建，查询和可视化，Cube优化，应用案例分析，运维管理等内容，帮助用户更深入了解apache kylin，适用于所有的读者使用，欢迎免费下载。

Apache Kylin简介

Apache Kylin是Hadoop大数据平台上的一个开源OLAP引擎。它采用多维立方体预计算技术，可以将大数据的SQL查询速度提升到亚秒级别。相对于之前的分钟乃至小时级别的查询速度，亚秒级别速度是百倍到千倍的提升，该引擎为超大规模数据集上的交互式大数据分析打开了大门。

Apache Kylin也是中国人主导的、唯一的Apache顶级开源项目，在开源社区有世界级的影响力。

内容简介

《apache kylin权威指南》第1章介绍ApacheKylin的历史、技术原理和产品定位，帮助用户了解何时和为何使用Kylin。第2章通过一个具体的案例快速入门，讲解Kylin核心概念、Cube建模和SQL连接查询这些基本使用。第3、4章讲解增量构建和进一步的流式构建，是大多数案例典型配置。第5、6章是针对查询和可视化、Cube调优的两个专门章节，适合较高级的用户。第7章是一系列有行业特点的具体案例分析，贯穿之前的所有概念。第8、9章讲ApacheKylin的扩展和企业级高级功能，技术性较强，会有较多的代码示例。第10章讲运维管理，从安装配置、监控维护到常见的问题和修复。全书后两章谈ApacheKylin开源社区和项目发展规划。

作者简介

《apache kylin权威指南》由李扬为首的麒麟技术团队撰写。团队是Apache Kylin的主创团队，是了解麒麟技术的一个团队。

李扬是大数据架构师和工程师，专注大数据分析技术。他是Apache Kylin管理委员会成员，也是Kyligence Inc.（一家专业提供大数据商务智能服务的创业公司）创始人之一。李扬是Apache Kylin主创团队的架构师和技术负责人，在eBay期间从2014年开始开发Kylin项目。之前，李扬在IBM工作8年，在摩根士丹利工作2年。在IBM期间，他是“杰出技术贡献奖”的获奖者，曾担任InfoSphere BigInsights的技术负责人，负责Hadoop开源产品架构。在摩根士丹利期间，李扬担任副总裁，负责全球监管报表基础架构。

apache kylin权威指南章节目录

推荐序一推荐序二推荐序三推荐序四前言第1章 Apache Kylin概述1.1 背景和历史1.2 Apache Kylin的使命1.2.1 为什么要使用Apache Kylin1.2.2 Apache Kylin怎样解决关键问题1.3 Apache Kylin的工作原理1.3.1 维度和度量简介1.3.2 Cube和Cuboid1.3.3 工作原理1.4 Apache Kylin的技术架构1.5 Apache Kylin的主要特点1.5.1 标准SQL接口1.5.2 支持超大数据集1.5.3 亚秒级响应1.5.4 可伸缩性和高吞吐率1.5.5 BI及可视化工具集成1.6 与其他开源产品比较1.7 小结第2章 快速入门2.1 核心概念2.1.1 数据仓库、OLAP与BI2.1.2 维度和度量2.1.3 事实表和维度表2.1.4 Cube、Cuboid和Cube Segment2.2 在Hive中准备数据2.2.1 星形模型2.2.2 维度表的设计2.2.3 Hive表分区2.2.4 了解维度的基数2.2.5 Sample Data2.3 设计Cube2.3.1 导入Hive表定义2.3.2 创建数据模型2.3.3 创建Cube2.4 构建Cube2.4.1 全量构建和增量构建2.4.2 历史数据刷新2.4.3 合并2.5 查询Cube2.6 SQL参考2.7 小结第3章 增量构建3.1 为什么要增量构建3.2 设计增量Cube3.2.1 设计增量Cube的前提3.2.2 增量Cube的创建3.3 触发增量构建3.3.1 Web GUI触发3.3.2 构建相关的Rest API3.4 管理Cube碎片3.4.1 合并Segment3.4.2 自动合并3.4.3 保留Segment3.4.4 数据持续更新3.5 小结第4章 流式构建4.1 为什么要流式构建4.2 准备流式数据4.2.1 数据格式4.2.2 消息队列4.2.3 创建Schema4.3 设计流式Cube4.3.1 创建Model4.3.2 创建Cube4.4 流式构建原理4.5 触发流式构建4.5.1 单次触发4.5.2 自动化多次触发4.5.3 出错处理4.6 小结第5章 查询和可视化5.1 Web GUI5.1.1 查询5.1.2 显示结果5.2 Rest API5.2.1 查询认证5.2.2 查询请求参数5.2.3 查询返回结果5.3 ODBC5.4 JDBC5.4.1 获得驱动包5.4.2 认证5.4.3 URL格式5.4.4 获取元数据信息5.5 通过Tableau访问Kylin5.5.1 连接Kylin数据源5.5.2 设计数据模型5.5.3 通过Live方式连接5.5.4 自定义SQL5.5.5 可视化5.5.6 发布到Tableau Server5.6 Zeppelin集成5.6.1 Zeppelin架构简介5.6.2 KylinInterpreter的工作原理5.6.3 如何使用Zeppelin访问Kylin5.7 小结第6章 Cube优化6.1 Cuboid剪枝优化6.1.1 维度的诅咒6.1.2 检查Cuboid数量6.1.3 检查Cube大小6.1.4 空间与时间的平衡6.2 剪枝优化的工具6.2.1 使用衍生维度6.2.2 使用聚合组6.3 并发粒度优化6.4 Rowkeys优化6.4.1 编码6.4.2 按维度分片6.4.3 调整Rowkeys顺序6.5 其他优化6.5.1 降低度量精度6.5.2 及时清理无用的Segment6.6 小结第7章 应用案例分析7.1 基本多维分析7.1.1 数据集7.1.2 数据导入7.1.3 创建数据模型7.1.4 创建Cube7.1.5 构建Cube7.1.6 SQL查询7.2 流式分析7.2.1 Kafka数据源7.2.2 创建数据表7.2.3 创建数据模型7.2.4 创建Cube7.2.5 构建Cube7.2.6 SQL查询7.3 小结第8章 扩展Apache Kylin8.1 可扩展式架构8.1.1 工作原理8.1.2 三大主要接口8.2 计算引擎扩展8.2.1 EngineFactory8.2.2 MRBatchCubingEngine28.2.3 BatchCubingJobBuilder28.2.4 IMRInput8.2.5 IMROutput28.3 数据源扩展8.4 存储扩展8.5 聚合类型扩展8.5.1 聚合的JSON定义8.5.2 聚合类型工厂8.5.3 聚合类型的实现8.6 维度编码扩展8.6.1 维度编码的JSON定义8.6.2 维度编码工厂8.6.3 维度编码的实现8.7 小结第9章 Apache Kylin的企业级功能9.1 身份验证9.1.1 自定义验证9.1.2 LDAP验证9.1.3 单点登录9.2 授权9.3 小结第10章 运维管理10.1 安装和配置10.1.1 必备条件10.1.2 快速启动Apache Kylin10.1.3 配置Apache Kylin10.1.4 企业部署10.2 监控和诊断10.2.1 日志10.2.2 任务报警10.2.3 诊断工具10.3 日常维护10.3.1 基本运维10.3.2 元数据备份10.3.3 元数据恢复10.3.4 系统升级10.3.5 垃圾清理10.4 常见问题和修复10.5 获得社区帮助10.5.1 邮件列表10.5.2 JIRA10.6 小结第11章 参与开源11.1 Apache Kylin的开源历程11.2 为什么参与开源11.3 Apache开源社区简介11.3.1 简介11.3.2 组织构成与运作模式11.3.3 项目角色11.3.4 孵化项目及顶级项目11.4 如何贡献到开源社区11.4.1 什么是贡献11.4.2 如何贡献11.5 礼仪与文化11.6 如何参与Apache Kylin11.7 小结第12章 Apache Kylin的未来12.1 大规模流式构建12.2 拥抱Spark技术栈12.3 更快的存储和查询12.4 前端展现及与BI工具的整合12.5 高级OLAP函数12.6 展望