0 0 0

Hadoop数据分析.pdf

谁为竹马披星戴月
1月前 330
我用夸克网盘分享了「 Hadoop数据分析.pdf」,点击链接即可保存。打开「夸克APP」在线查看,支持多种文档格式转换。
作者: [美] Benjamin Bengfort/[美] Jenny Kim 出版社: 人民邮电出版社 译者: 王纯超 出版年: 2018-4 页数: 228 定价: 69.00元 装帧: 平装 丛书: 图灵程序设计丛书 ISBN: 9787115479648

内容简介

通过提供分布式数据存储和并行计算框架,Hadoop已经从一个集群计算的抽象演化成了一个大数据的操作系统。本书旨在通过以可读且直观的方式提供集群计算和分析的概览,为数据科学家深入了解特定主题领域铺平道路,从数据科学家的视角介绍Hadoop集群计算和分析。本书分为两大部分,第一部分从非常高的层次介绍分布式计算,讨论如何在集群上运行计算;第二部分则重点关注数据科学家应该了解的工具和技术,意在为各种分析和大规模数据管理提供动力。

作者简介

Benjamin Bengfort 数据科学家,目前正在马里兰大学攻读博士学位,方向为机器学习和分布式计算;熟悉自然语言处理、Python数据科学、Hadoop和Spark分析等。 Jenny Kim 经验丰富的大数据工程师,不仅进行商业软件的开发,在学术界也有所建树,在海量数据、机器学习以及生产和研究环境的Hadoop实施方面有深入研究。目前就职于Cloudera的Hue团队。

网友热评

Yyy: 不是侧重于实践的书,更偏向原理,对于系统了解大数据环境的工作模式还是有帮助的。就是这个领域新技术太多,书中所述是不够用的。 JyLii: 理论上这个系列相关的书都应该读一遍,但是好多啊?

图书目录

前言  ix 第一部分 分布式计算入门 第1章 数据产品时代  2 1.1 什么是数据产品  2 1.2 使用Hadoop构建大规模数据产品  4 1.2.1 利用大型数据集  4 1.2.2 数据产品中的Hadoop  5 1.3 数据科学流水线和Hadoop生态系统  6 1.4 小结  8 第2章 大数据操作系统  9 2.1 基本概念  10 2.2 Hadoop架构  11 2.2.1 Hadoop集群  12 2.2.2 HDFS  14 2.2.3 YARN  15 2.3 使用分布式文件系统  16 2.3.1 基本的文件系统操作  16 2.3.2 HDFS文件权限  18 2.3.3 其他HDFS接口  19 2.4 使用分布式计算  20 2.4.1 MapReduce:函数式编程模型  20 2.4.2 MapReduce:集群上的实现  22 2.4.3 不止一个MapReduce:作业链  27 2.5 向YARN提交MapReduce作业  28 2.6 小结  30 第3章 Python框架和HadoopStreaming  31 3.1 HadoopStreaming  32 3.1.1 使用Streaming在CSV数据上运行计算  34 3.1.2 执行Streaming作业  38 3.2 Python的MapReduce框架  39 3.2.1 短语计数  42 3.2.2 其他框架  45 3.3 MapReduce进阶  46 3.3.1 combiner  46 3.3.2 partitioner  47 3.3.3 作业链  47 3.4 小结  50 第4章 Spark内存计算  52 4.1 Spark基础  53 4.1.1 Spark栈  54 4.1.2 RDD  55 4.1.3 使用RDD编程  56 4.2 基于PySpark的交互性Spark  59 4.3 编写Spark应用程序  61 4.4 小结  67 第5章 分布式分析和模式  69 5.1 键计算  70 5.1.1 复合键  71 5.1.2 键空间模式  74 5.1.3 pair与stripe  78 5.2 设计模式  80 5.2.1 概要  81 5.2.2 索引  85 5.2.3 过滤  90 5.3 迈向最后一英里分析  95 5.3.1 模型拟合  96 5.3.2 模型验证  97 5.4 小结  98 第二部分 大数据科学的工作流和工具 第6章 数据挖掘和数据仓  102 6.1 Hive结构化数据查询  103 6.1.1 Hive命令行接口(CLI)  103 6.1.2 Hive查询语言  104 6.1.3 Hive数据分析  108 6.2 HBase  113 6.2.1 NoSQL与列式数据库  114 6.2.2 HBase实时分析  116 6.3 小结  122 第7章 数据采集  123 7.1 使用Sqoop导入关系数据  124 7.1.1 从MySQL导入HDFS  124 7.1.2 从MySQL导入Hive  126 7.1.3 从MySQL导入HBase  128 7.2 使用Flume获取流式数据  130 7.2.1 Flume数据流  130 7.2.2 使用Flume获取产品印象数据  133 7.3 小结  136 第8章 使用高级API进行分析  137 8.1 Pig  137 8.1.1 PigLatin  138 8.1.2 数据类型  142 8.1.3 关系运算符  142 8.1.4 用户定义函数  143 8.1.5 Pig小结  144 8.2 Spark高级API  144 8.2.1 SparkSQL  146 8.2.2 DataFrame  148 8.3 小结  153 第9章 机器学习  154 9.1 使用Spark进行可扩展的机器学习  154 9.1.1 协同过滤  156 9.1.2 分类  161 9.1.3 聚类  163 9.2 小结  166 第10章 总结:分布式数据科学实战  167 10.1 数据产品生命周期  168 10.1.1 数据湖泊  169 10.1.2 数据采集  171 10.1.3 计算数据存储  172 10.2 机器学习生命周期  173 10.3 小结  175 附录A 创建Hadoop伪分布式开发环境  176 附录B 安装Hadoop生态系统产品  184 术语表  193 关于作者  211 关于封面  211

Hadoop数据分析.pdf"网盘下载"

版权说明

1、本站不保存、不存储任何实质资源,以上二维码指向为网盘资源链接,其内容归对应版权方所有
2、如有侵犯版权的情况,请点击下面举报/反馈按钮反馈或发送邮件[email protected]投诉说明情况
3、我们核实后将第一时间删除相关页面内容,谢谢理解和配合

这些人下载过 (12)
  • 鸠吟
  • 身后的狗什么品种都有
  • 其实都一样
  • 小裙摆
  • 旧约寻梅
  • 重拾热情
  • 时光乱了年华
  • 深刻
  • 杰森萌叔
  • 南篱旧事
  • 有鬼
  • 你身边太挤我宁愿退离你
最新回复 (0)

    暂无评论

请先登录后发表评论!

返回
请先登录后发表评论!