0 0 0

HAWQ数据仓库与数据挖掘实战.epub

我用你的心酿成酒
1月前 280
我用夸克网盘分享了「HAWQ数据仓库与数据挖掘实战.epub」,点击链接即可保存。打开「夸克APP」在线查看,支持多种文档格式转换。
HAWQ数据仓库与数据挖掘实战 作者: 王雪迎 出版社: 清华大学出版社 出版年: 2018-4 页数: 578 定价: 98.00元 装帧: 平装 ISBN: 9787302498025

内容简介

Apache HAWQ是一个SQL-on-Hadoop产品,它非常适合用于Hadoop平台上快速构建数据仓库系统。HAWQ具有大规模并行处理、完善的SQL兼容性、支持存储过程和事务、出色的性能表现等特性,还可与开源数据挖掘库MADlib轻松整合,从而使用SQL就能进行数据挖掘与机器学习。 《HAWQ数据仓库与数据挖掘实战》内容分技术解析、实战演练与数据挖掘三个部分共27章。技术解析部分说明HAWQ的基础架构与功能特性,包括安装、连接、对象与资源管理、查询优化、备份恢复、高可用性等。实战演练部分用一个完整的示例,说明如何使用HAWQ取代传统数据仓库,包括ETL处理、自动调度系统、维度表与事实表技术、OLAP与数据的图形化表示等。数据挖掘部分用实例说明HAWQ与MADlib整合,实现降维、协同过滤、关联规则、回归、聚类、分类等常见数据挖掘与机器学习方法。 《HAWQ数据仓库与数据挖掘实战》适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训机构相关专业的师生教学参考。

作者简介

王雪迎 ,毕业于中国地质大学计算机专业,高级工程师,从事数据库、数据仓库相关技术工作20年。先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任DBA、数据架构师等职位。著有图书《Hadoop数据仓库实践》。

网友热评

大而全,可作为HAWQ的一本入门手册。

图书目录

一部分HAWQ技术解析 一章HAWQ概述3 1.1SQL-on-Hadoop3 1.1.1对SQL-on-Hadoop的期待3 1.1.2SQL-on-Hadoop的实现方式4 1.2HAWQ简介6 1.2.1历史与现状7 1.2.2功能特性7 1.3HAWQ系统架构9 1.3.1系统架构10 1.3.2内部架构11 1.4为什么选择HAWQ12 1.4.1常用SQL-on-Hadoop产品的不足12 1.4.2HAWQ的可行性13 1.4.3适合DBA的解决方案18 1.5小结18 第2章HAWQ安装部署19 2.1安装规划19 2.1.1选择安装介质19 2.1.2选择HAWQ版本20 2.1.3确认Ambari与HDP的版本兼容性20 2.2安装前准备21 2.2.1确认*小系统需求21 2.2.2准备系统安装环境22 2.2.3建立本地Repository24 2.3安装Ambari25 2.4安装HDP集群27 2.5安装HAWQ29 2.6启动与停止HAWQ34 2.6.1基本概念34 2.6.2操作环境34 2.6.3基本操作36 2.7小结40 第3章连接管理41 3.1配置客户端身份认证41 3.2管理角色与权限45 3.2.1HAWQ中的角色与权限45 3.2.2管理角色及其成员46 3.2.3管理对象权限48 3.2.4口令加密49 3.3psql连接HAWQ50 3.4Kettle连接HAWQ52 3.5连接常见问题55 3.6小结56 第4章数据库对象管理57 4.1创建和管理数据库57 4.2创建和管理表空间61 4.3创建和管理模式65 4.4创建和管理表72 4.4.1创建表72 4.4.2删除表74 4.4.3查看表对应的HDFS文件74 4.5创建和管理视图76 4.6管理其他对象77 4.7小结78 第5章分区表79 5.1HAWQ中的分区表79 5.2确定分区策略80 5.3创建分区表81 5.3.1范围分区与列表分区81 5.3.2多级分区86 5.3.3对已存在的非分区表进行分区86 5.4分区消除87 5.5分区表维护91 5.6小结98 第6章存储管理99 6.1数据存储选项99 6.2数据分布策略103 6.2.1数据分布策略概述103 6.2.2选择数据分布策略104 6.2.3数据分布用法108 6.3从已有的表创建新表111 6.4小结117 第7章资源管理118 7.1HAWQ资源管理概述118 7.1.1全局资源管理118 7.1.2HAWQ资源队列119 7.1.3资源管理器配置原则119 7.2配置独立资源管理器120 7.3整合YARN123 7.4管理资源队列129 7.5查询资源管理器状态134 7.6小结137 第8章数据管理138 8.1基本数据操作138 8.2数据装载与卸载141 8.2.1gpfdist协议及其外部表141 8.2.2基于Web的外部表148 8.2.3使用外部表装载数据151 8.2.4外部表错误处理151 8.2.5使用hawqload装载数据152 8.2.6使用COPY复制数据155 8.2.7卸载数据157 8.2.8hawqregister159 8.2.9格式化数据文件159 8.3数据库统计163 8.3.1系*计163 8.3.2统计配置166 8.4PXF168 8.4.1安装配置PXF168 8.4.2PXFprofile168 8.4.3访问HDFS文件170 8.4.4访问Hive数据174 8.4.5访问JSON数据186 8.4.6向HDFS中写入数据190 8.5小结194 第9章过程语言195 9.1HAWQ内建SQL语言195 9.2PL/pgSQL函数197 9.3给HAWQ内部函数起别名198 9.4表函数198 9.5参数个数可变的函数201 9.6多态类型202 9.7UDF管理205 9.8UDF实例——递归树形遍历207 9.9小结214 *0章查询优化215 10.1HAWQ的查询处理流程215 10.2GPORCA查询优化器217 10.2.1GPORCA的改进218 10.2.2启用GPORCA224 10.2.3使用GPORCA需要考虑的问题225 10.2.4GPORCA的限制227 10.3性能优化228 10.4查询剖析232 10.5小结238 *1章高可用性239 11.1备份与恢复239 11.1.1备份方法239 11.1.2备份与恢复示例242 11.2高可用性247 11.2.1HAWQ高可用简介247 11.2.2Master节点镜像248 11.2.3HAWQ文件空间与HDFS高可用251 11.2.4HAWQ容错服务260 11.3小结262 第二部分HAWQ实战演练 *2章建立数据仓库示例模型265 12.1业务场景265 12.2数据仓库架构267 12.3实验环境268 12.4HAWQ相关配置269 12.5创建示例数据库273 12.5.1在hdp4上的MySQL中创建源库对象并生成测试数据273 12.5.2创建目标库对象275 12.5.3装载日期维度数据283 12.6小结284 *3章初始ETL285 13.1用Sqoop初始数据抽取285 13.1.1覆盖导入286 13.1.2增量导入286 13.1.3建立初始抽取脚本287 13.2向HAWQ初始装载数据288 13.2.1数据源映射288 13.2.2确定SCD处理方法288 13.2.3实现代理键289 13.2.4建立初始装载脚本289 13.3建立初始ETL脚本291 13.4小结293 *4章定期ETL294 14.1变化数据捕获294 14.2创建维度表版本视图296 14.3创建时间戳表297 14.4用Sqoop定期数据抽取298 14.5建立定期装载HAWQ函数298 14.6建立定期ETL脚本303 14.7测试303 14.7.1准备测试数据303 14.7.2执行定期ETL脚本304 14.7.3确认ETL过程正确执行305 14.8动态分区滚动307 14.9准实时数据抽取309 14.10小结317 *5章自动调度执行ETL作业318 15.1Oozie简介318 15.2建立工作流前的准备320 15.3用Oozie建立定期ETL工作流324 15.4Falcon简介328 15.5用Falconprocess调度Oozie工作流329 15.6小结332 *6章维度表技术333 16.1增加列333 16.2维度子集342 16.3角色扮演维度348 16.4层次维度354 16.4.1固定深度的层次355 16.4.2多路径层次357 16.4.3参差不齐的层次359 16.5退化维度361 16.6杂项维度366 16.7维度合并374 16.8分段维度380 16.9小结386 *7章事实表技术387 17.1周期快照388 17.2累积快照394 17.3无事实的事实表404 17.4迟到的事实409 17.5累积度量416 17.6小结422 *8章联机分析处理423 18.1联机分析处理简介423 18.1.1概念423 18.1.2分类424 18.1.3性能426 18.2联机分析处理实例427 18.2.1销售订单427 18.2.2行列转置433 18.3交互查询与图形化显示440 18.3.1Zeppelin简介440 18.3.2使用Zeppelin执行HAWQ查询441 18.4小结448 第三部分HAWQ数据挖掘 *9章整合HAWQ与MADlib451 19.1MADlib简介452 19.2安装与卸载MADlib455 19.3MADlib基础458 19.3.1向量458 19.3.2矩阵469 19.4小结484 第20章奇异值分解485 20.1奇异值分解简介485 20.2MADlib奇异值分解函数486 20.3奇异值分解实现*算法489 20.4小结501 第21章主成分分析502 21.1主成分分析简介502 21.2MADlib的PCA相关函数504 21.3PCA应用示例509 21.4小结513 第22章关联规则方法514 22.1关联规则简介514 22.2Apriori算法517 22.2.1Apriori算法基本思想517 22.2.2Apriori算法步骤518 22.3MADlib的Apriori算法函数518 22.4Apriori应用示例519 22.5小结524 第23章聚类方法525 23.1聚类方法简介525 23.2k-means方法526 23.2.1基本思想527 23.2.2原理与步骤527 23.2.3k-means算法527 23.3MADlib的k-means相关函数529 23.4k-means应用示例532 23.5小结537 第24章回归方法538 24.1回归方法简介538 24.2Logistic回归539 24.3MADlib的Logistic回归相关函数539 24.4Logistic回归示例542 24.5小结546 第25章分类方法547 25.1分类方法简介547 25.2决策树549 25.2.1决策树的基本概念549 25.2.2决策树的构建步骤549 25.3MADlib的决策树相关函数551 25.4决策树示例555 25.5小结561 第26章图算法562 26.1图算法简介562 26.2单源*短路径565 26.3MADlib的单源*短路径相关函数566 26.4单源*短路径示例567 26.5小结569 第27章模型验证570 27.1交叉验证简介570 27.2MADlib的交叉验证相关函数573 27.3交叉验证示例575 27.4小结578

HAWQ数据仓库与数据挖掘实战.epub"网盘下载"

版权说明

1、本站不保存、不存储任何实质资源,以上二维码指向为网盘资源链接,其内容归对应版权方所有
2、如有侵犯版权的情况,请点击下面举报/反馈按钮反馈或发送邮件[email protected]投诉说明情况
3、我们核实后将第一时间删除相关页面内容,谢谢理解和配合

这些人下载过 (12)
  • 私会
  • 没有梦想、何必远方
  • 穷二代
  • 夜止月明
  • 网混子
  • 幻影行
  • 醉了c
  • 黑夜的深
  • 逗比的胖儿
  • 师太、啵一个
  • 猫的美瞳会发光
  • 他是年少时的梦
最新回复 (0)

    暂无评论

请先登录后发表评论!

返回
请先登录后发表评论!