Hadoop大数据挖掘从入门到进阶实战（视频教学版）.epub-书籍-知识库

Hadoop大数据挖掘从入门到进阶实战（视频教学版）.epub

我曾经拥有最美笑容的少年

发布于 2025-3-26 1930 0

我用夸克网盘分享了「Hadoop大数据挖掘从入门到进阶实战（视频教学版）.epub」，点击链接即可保存。打开「夸克APP」在线查看，支持多种文档格式转换。

Hadoop大数据挖掘从入门到进阶实战（视频教学版）作者: 邓杰出版社: 机械工业出版社出版年: 2018-6 定价: 99元装帧: 平装 ISBN: 9787111600107

内容简介

本书采用“理论+实战”的形式编写，全面介绍了Hadoop大数据挖掘的相关知识。本书秉承循序渐进、易于理解、学以致用和便于查询的讲授理念，讲解时结合了大量实例和作者多年积累的一线开发经验。本书作者拥有丰富的视频制作与在线教学经验，曾经与极客学院合作开设过在线视频教学课程。为了帮助读者高效、直观地学习本书内容，作者特意为本书录制了配套教学视频，这些教学视频和本书配套源代码文件读者都可以免费获取。本书共分为13章，涵盖的主要内容有：集群及开发环境搭建；快速构建一个Hadoop项目并线上运行；Hadoop套件实战；Hive编程——使用SQL提交MapReduce任务到Hadoop集群；游戏玩家的用户行为分析——特征提取；Hadoop平台管理与维护；Hadoop异常处理解决方案；初识Hadoop核心源码；Hadoop通信机制和内部协议；Hadoop分布式文件系统剖析；ELK实战案例——游戏应用实时日志分析平台；Kafka实战案例——实时处理游戏用户数据；Hadoop拓展——Kafka剖析。本书通俗易懂，案例丰富，实用性强，不但适合初学者系统学习Hadoop的各种基础语法和开发技巧，而且也适合有开发经验的程序员进阶提高。另外，本书还适合社会培训机构和相关院校作为教材或者教学参考书。

作者简介

邓杰博客园资深博主，资深大数据全栈开发者，极客学院大数据讲师，开源爱好者。善于开发大数据监控系统辅助日常工作，提升工作效率。主导开发了大数据自助类平台系统。开发并在GitHub上发布了Kafka系统监控管理工具Kafka Eagle，深受业内开发者的赞誉。作为极客学院特邀讲师，制作了多个技术视频，讲授Hadoop和Kafka等相关技术课程，广受学员好评。

图书目录

前言第1章集群及开发环境搭建 1 1.1环境准备 1 1.1.1基础软件下载 1 1.1.2准备Linux操作系统 2 1.2安装Hadoop 4 1.2.1基础环境配置 4 1.2.2Zookeeper部署 7 1.2.3Hadoop部署 9 1.2.4效果验证 21 1.2.5集群架构详解 24 1.3Hadoop版HelloWorld 25 1.3.1HadoopShell介绍 25 1.3.2WordCount初体验 27 1.4开发环境 28 1.4.1搭建本地开发环境 28 1.4.2运行及调试预览 31 1.5小结 34 第2章实战：快速构建一个Hadoop项目并线上运行 35 2.1构建一个简单的项目工程 35 2.1.1构建JavaProject结构工程 35 2.1.2构建Maven结构工程 36 2.2操作分布式文件系统（HDFS） 39 2.2.1基本的应用接口操作 39 2.2.2在高可用平台上的使用方法 42 2.3利用IDE提交MapReduce作业 43 2.3.1在单点上的操作 43 2.3.2在高可用平台上的操作 46 2.4编译应用程序并打包 51 2.4.1编译JavaProject工程并打包 51 2.4.2编译Maven工程并打包 55 2.5部署与调度 58 2.5.1部署应用 58 2.5.2调度任务 59 2.6小结 60 第3章Hadoop套件实战 61 3.1Sqoop——数据传输工具 61 3.1.1背景概述 61 3.1.2安装及基本使用 62 3.1.3实战：在关系型数据库与分布式文件系统之间传输数据 64 3.2Flume——日志收集工具 66 3.2.1背景概述 67 3.2.2安装与基本使用 67 3.2.3实战：收集系统日志并上传到分布式文件系统（HDFS）上 72 3.3HBase——分布式数据库 74 3.3.1背景概述 74 3.3.2存储架构介绍 75 3.3.3安装与基本使用 75 3.3.4实战：对HBase业务表进行增、删、改、查操作 79 3.4Zeppelin——数据集分析工具 85 3.4.1背景概述 85 3.4.2安装与基本使用 85 3.4.3实战：使用解释器操作不同的数据处理引擎 88 3.5Drill——低延时SQL查询引擎 92 3.5.1背景概述 93 3.5.2安装与基本使用 93 3.5.3实战：对分布式文件系统（HDFS）使用SQL进行查询 95 3.5.4实战：使用SQL查询HBase数据库 99 3.5.5实战：对数据仓库（Hive）使用类实时统计、查询操作 101 3.6Spark——实时流数据计算 104 3.6.1背景概述 104 3.6.2安装部署及使用 105 3.6.3实战：对接Kafka消息数据，消费、计算及落地 108 3.7小结 114 第4章Hive编程——使用SQL提交MapReduce任务到Hadoop集群 115 4.1环境准备与Hive初识 115 4.1.1背景介绍 115 4.1.2基础环境准备 116 4.1.3Hive结构初识 116 4.1.4Hive与关系型数据库（RDBMS） 118 4.2安装与配置Hive 118 4.2.1Hive集群基础架构 119 4.2.2利用HAProxy实现HiveServer负载均衡 120 4.2.3安装分布式Hive集群 123 4.3可编程方式 126 4.3.1数据类型 126 4.3.2存储格式 128 4.3.3基础命令 129 4.3.4Java编程语言操作数据仓库（Hive） 131 4.3.5实践HiveStreaming 134 4.4运维和监控 138 4.4.1基础命令 138 4.4.2监控工具HiveCube 140 4.5小结 143 第5章游戏玩家的用户行为分析——特征提取 144 5.1项目应用概述 144 5.1.1场景介绍 144 5.1.2平台架构与数据采集 145 5.1.3准备系统环境和软件 147 5.2分析与设计 148 5.2.1整体分析 148 5.2.2指标与数据源分析 149 5.2.3整体设计 151 5.3技术选型 153 5.3.1套件选取简述 154 5.3.2套件使用简述 154 5.4编码实践 157 5.4.1实现代码 157 5.4.2统计结果处理 163 5.4.3应用调度 169 5.5小结 174 第6章Hadoop平台管理与维护 175 6.1Hadoop分布式文件系统（HDFS） 175 6.1.1HDFS特性 175 6.1.2基础命令详解 176 6.1.3解读NameNodeStandby 179 6.2Hadoop平台监控 182 6.2.1Hadoop日志 183 6.2.2常用分布式监控工具 187 6.3平台维护 196 6.3.1安全模式 196 6.3.2节点管理 198 6.3.3HDFS快照 200 6.4小结 203 第7章Hadoop异常处理解决方案 204 7.1定位异常 204 7.1.1跟踪日志 204 7.1.2分析异常信息 208 7.1.3阅读开发业务代码 209 7.2解决问题的方式 210 7.2.1搜索关键字 211 7.2.2查看HadoopJIRA 212 7.2.3阅读相关源码 213 7.3实战案例分析 216 7.3.1案例分析1：启动HBase失败 216 7.3.2案例分析2：HBase表查询失败 219 7.3.3案例分析3：Spark的临时数据不自动清理 222 7.4小结 223 第8章初识Hadoop核心源码 224 8.1基础准备与源码编译 224 8.1.1准备环境 224 8.1.2加载源码 228 8.1.3编译源码 230 8.2初识Hadoop2 233 8.2.1Hadoop的起源 233 8.2.2Hadoop2源码结构图 234 8.2.3Hadoop模块包 235 8.3MapReduce框架剖析 236 8.3.1第一代MapReduce框架 236 8.3.2第二代MapReduce框架 238 8.3.3两代MapReduce框架的区别 239 8.3.4第二代MapReduce框架的重构思路 240 8.4序列化 241 8.4.1序列化的由来 242 8.4.2Hadoop序列化 243 8.4.3Writable实现类 245 8.5小结 247 第9章Hadoop通信机制和内部协议 248 9.1HadoopRPC概述 248 9.1.1通信模型 248 9.1.2HadoopRPC特点 250 9.2HadoopRPC的分析与使用 251 9.2.1基础结构 251 9.2.2使用示例 257 9.2.3其他开源RPC框架 264 9.3通信协议 266 9.3.1MapReduce通信协议 266 9.3.2RPC协议的实现 273 9.4小结 277 第10章Hadoop分布式文件系统剖析 278 10.1HDFS介绍 278 10.1.1HDFS概述 278 10.1.2其他分布式文件系统 282 10.2HDFS架构剖析 283 10.2.1设计特点 283 10.2.2命令空间和节点 285 10.2.3数据备份剖析 289 10.3数据迁移实战 292 10.3.1HDFS跨集群迁移 292 10.3.2HBase集群跨集群数据迁移 297 10.4小结 301 第11章ELK实战案例——游戏应用实时日志分析平台 302 11.1Logstash——实时日志采集、分析和传输 302 11.1.1Logstash介绍 302 11.1.2Logstash安装 306 11.1.3实战操作 308 11.2Elasticsearch——分布式存储及搜索引擎 309 11.2.1应用场景 309 11.2.2基本概念 310 11.2.3集群部署 312 11.2.4实战操作 317 11.3Kibana——可视化管理系统 323 11.3.1Kibana特性 324 11.3.2Kibana安装 324 11.3.3实战操作 328 11.4实时日志分析平台案例 331 11.4.1案例概述 331 11.4.2平台体系架构与剖析 332 11.4.3实战操作 334 11.5小结 339 第12章Kafka实战案例——实时处理游戏用户数据 340 12.1应用概述 340 12.1.1Kafka回顾 340 12.1.2项目简述 347 12.1.3Kafka工程准备 348 12.2项目的分析与设计 349 12.2.1项目背景和价值概述 349 12.2.2生产模块 350 12.2.3消费模块 352 12.2.4体系架构 352 12.3项目的编码实践 354 12.3.1生产模块 354 12.3.2消费模块 356 12.3.3数据持久化 362 12.3.4应用调度 364 12.4小结 369 第13章Hadoop拓展——Kafka剖析 370 13.1Kafka开发与维护 370 13.1.1接口 370 13.1.2新旧API编写 372 13.1.3Kafka常用命令 380 13.2运维监控 383 13.2.1监控指标 384 13.2.2Kafka开源监控工具——KafkaEagle 384 13.3Kafka源码分析 391 13.3.1源码工程环境构建 391 13.3.2分布式选举算法剖析 394 13.3.3KafkaOffset解读 398 13.3.4存储机制和副本 398 13.4小结 402