0 0 0

ODPS权威指南——阿里大数据平台应用开发实践.epub

莪在伱裑逅請囘头
1月前 310
我用夸克网盘分享了「ODPS权威指南——阿里大数据平台应用开发实践.epub」,点击链接即可保存。打开「夸克APP」在线查看,支持多种文档格式转换。
ODPS权威指南 作者: 李妹芳 出版社: 人民邮电出版社 出品方: 异步图书 副标题: 阿里大数据平台应用开发实践 出版年: 2014-12 页数: 360 定价: 69元 装帧: 平装 ISBN: 9787115372413

内容简介

ODPS(Open Data Processing Service)是阿里巴巴自主研发的海量数据处理和分析的服务平台,主要应用于数据分析、海量数据统计、数据挖掘、机器学习和商业智能等领域。目前,ODPS不仅在阿里内部得到广泛应用,享有很好的口碑,正逐步走向第三方开放市场。 本书是学习和掌握ODPS的权威指南,作者来自阿里ODPS团队。全书共13章,主要内容包括:ODPS入门、整体架构、数据通道、MapReduce编程、SQL查询分析、安全,以及基于真实数据的各种场景分析实战。本书基于很多范例解析,通过在各种应用场景下的示例来说明如何通过ODPS完成各种需求,以期引导读者从零开始轻松掌握和使用ODPS。同时,本书不局限于示例分析,也致力于提供更多关于大数据处理的编程思想和经验分享。书中所有示例代码都可以在作者提供的网站上免费下载。 本书是学习和掌握ODPS的权威指南,作者来自阿里ODPS团队。 本书包括以下重要内容: ODPS概览及其基本知识; 如何高效地使用ODPS SQL; MapReduce编程和进阶应用; ODPS机器学习算法; ODPS权限、资源和数据管理; 深入了解ODPS体系结构和高级机制。 书中所有示例代码都可以通过https://github.com/duckrun/odps_book免费下载。 本书适合想要了解和使用ODPS的读者阅读学习,对于从事大数据存储和应用以及分布式计算的专业人士来说,也是很好的参考资料。

作者简介

李妹芳,阿里数据平台事业部工程师,曾译有《Linux系统编程》、《数据之美》、《数据可视化之美》等书,她喜欢儿童文学,她的微博是http://weibo.com/duckrun。

网友热评

pwlazy: 基本上还算一本不错的入门,虽然细节方面谈的不多,底层也不够深入,但毕竟是少有的ODPS书籍,且覆盖面很全,例子也还行 wltan: 感觉内容组织非常混乱,看完一遍下来讲的是什么完全没印象;部分章节内容已经落伍,已经通过sql实现的功能为何还要讲如何用hadoop MR实现?每章讲一点就开始讲工具怎么安装,分析代码。应用场景太多,不是每个读者都需要,集中放在最后两三章内容就够了。真正odps自己的东西讲的太少。

图书目录

前言7 第1章ODPS概述9 1.1引言9 1.2初识ODPS9 1.2.1背景和挑战9 1.2.2为什么做ODPS10 1.2.3ODPS是什么10 1.2.4ODPS做什么11 1.3基本概念11 1.3.1账号(Account)12 1.3.2项目空间(Project)13 1.3.3表(Table)13 1.3.4分区(Partition)14 1.3.5任务(Task)、作业(Job)和作业实例(Instance)14 1.3.6资源(Resource)14 1.4应用开发模式15 1.4.1RESTfulAPI15 1.4.2ODPSSDK18 1.4.3ODPSCLT18 1.4.4管理控制台18 1.4.5IDE18 1.5一些典型场景19 1.5.1阿里金融数据仓库19 1.5.2CNZZ数据仓库19 1.5.3支付宝账号影响力圈19 1.5.4阿里金融水文衍生算法19 1.5.5阿里妈妈广告CTR预估20 1.6现状和前景20 1.7小结21 第2章ODPS入门22 2.1准备工作22 2.1.1创建云账号22 2.1.2开通ODPS服务24 2.2使用管理控制台24 2.3配置ODPS客户端26 2.3.1下载和配置CLT26 2.3.2准备dual表28 2.3.3CLT运行模式30 2.3.4下载和配置dship30 2.3.5通过dship上传下载数据31 2.4网站日志分析实例32 2.4.1场景和数据说明32 2.4.2需求分析33 2.4.3数据准备33 2.4.4创建表并添加分区34 2.4.5数据解析和导入35 2.4.6数据加工39 2.4.7数据分析43 2.4.8自动化运行47 2.4.9应用数据集市49 2.4.10结果导出51 2.4.11结果展现51 2.4.12删除数据53 2.5小结53 第3章收集海量数据54 3.1DSHIP工具54 3.2收集WEB日志56 3.2.1场景和需求说明56 3.2.2问题分析和设计56 3.2.3实现说明57 3.2.4进一步探讨59 3.2.5为什么这么难61 3.3MYSQL数据同步到ODPS61 3.3.1场景和需求说明61 3.3.2问题分析和实现61 3.3.3进一步探讨63 3.4下载结果表63 3.5小结63 第4章使用SQL处理海量数据64 4.1ODPSSQL是什么64 4.2入门示例64 4.2.1场景说明64 4.2.2简单的DDL操作64 4.2.3生成数据68 4.2.4单表查询69 4.2.5多表连接JOIN71 4.2.6高级查询79 4.2.7多表关联UNIONALL87 4.2.8多路输出(MULTI-INSERT)88 4.3网站日志分析88 4.3.1准备数据和表89 4.3.2维度表89 4.3.3访问路径分析96 4.3.4TopK查询97 4.3.5IP黑名单98 4.4天猫品牌预测103 4.4.1主题说明和前期准备103 4.4.2理解数据104 4.4.3两个简单的实践106 4.4.4问题分析和算法设计108 4.4.5生成特征109 4.4.6抽取正负样本111 4.4.7生成模型114 4.4.8验证模型115 4.4.9预测结果118 4.4.10进一步探讨118 4.5小结118 第5章SQL进阶120 5.1UDF是什么120 5.2入门示例120 5.3实际应用案例122 5.3.1URL解码122 5.3.2简单的LBS应用123 5.3.3网站访问日志UserAgent解析125 5.4SQL实现原理129 5.4.1词法分析130 5.4.2语法分析130 5.4.3逻辑分析130 5.4.4物理分析136 5.5SQL调优137 5.5.1数据倾斜137 5.5.2一些优化建议140 5.5.3一些注意事项141 5.6小结141 第6章通过TUNNEL迁移数据142 6.1ODPSTUNNEL是什么142 6.2入门示例142 6.2.1下载和配置142 6.2.2准备数据142 6.2.3上传数据143 6.2.4下载数据148 6.3TUNNEL原理149 6.3.1数据如何传输149 6.3.2客户端和服务端如何交互150 6.3.3如何实现高并发151 6.4从HADOOP迁移到ODPS151 6.4.1问题分析151 6.4.2客户端实现和分析152 6.4.3Mapper实现和分析155 6.4.4编译和运行157 6.4.5进一步探讨159 6.5一些注意点159 6.6小结160 第7章使用MAPREDUCE处理数据161 7.1MAPREDUCE编程模型161 7.2MAPREDUCE应用场景163 7.3初识ODPSMAPREDUCE164 7.4入门示例165 7.4.1准备工作165 7.4.2问题分析165 7.4.3代码实现和分析166 7.4.4运行和输出分析169 7.4.5扩展:使用Combiner?171 7.5TOPK查询173 7.5.1场景和数据说明174 7.5.2问题分析174 7.5.3具体实现分析175 7.5.4运行和结果输出179 7.5.5扩展:忽略StopWords180 7.5.6扩展:数据和任务统计182 7.5.7扩展:MR2模型184 7.6SQL和MAPREDUCE,用哪个?186 7.7小结186 第8章MAPREDUCE进阶187 8.1再谈SHUFFLE&SORT187 8.2好友推荐188 8.2.1场景和数据说明188 8.2.2问题定义和分析189 8.2.3代码实现190 8.3LBS应用探讨:周边定位193 8.3.1场景和数据说明193 8.3.2问题定义和分析194 8.3.3代码实现和分析195 8.3.4运行和测试199 8.4MAPREDUCE调试200 8.4.1带bug的代码200 8.4.2通过本地模式调试201 8.4.3通过Counter调试201 8.4.4通过log调试202 8.5一些注意点203 8.6小结204 第9章机器学习算法205 9.1初识ODPS算法205 9.2入门示例205 9.2.1通过CLT统计分析205 9.2.2通过XLab统计分析207 9.3几个经典的算法209 9.3.1逻辑回归209 9.3.2随机森林210 9.4天猫品牌预测211 9.4.1逻辑回归211 9.4.2随机森林218 9.4.3脚本实现和自动化228 9.4.4进一步探讨231 9.5小结232 第10章使用SDK访问ODPS服务233 10.1主要的PACKAGE和接口233 10.1.1主要的Package233 10.1.2核心接口233 10.2入门示例233 10.3基于ECLIPSE插件开发235 10.4小结236 第11章ODPS账号、资源和数据管理237 11.1权限管理237 11.1.1账号授权237 11.1.2角色(Role)授权240 11.1.3ACL授权特点241 11.1.4简单的Policy授权242 11.1.5RolePolicy243 11.1.6ACL授权和Policy授权小结245 11.2资源管理245 11.2.1Project内的资源管理246 11.2.2跨Project的资源共享246 11.3数据管理247 11.3.1表生命周期248 11.3.2数据归并(Merge)249 11.3.3数据保护(ProjectProtection)249 11.4小结251 第12章深入了解ODPS253 12.1体系架构253 12.1.1客户端254 12.1.2接入层254 12.1.3逻辑层254 12.1.4存储/计算层255 12.2执行流程256 12.2.1提交作业256 12.2.2运行作业256 12.2.3查询作业状态256 12.2.4执行逻辑图256 12.3底层数据存储257 12.3.1CFILE是什么257 12.3.2CFILE逻辑结构257 12.4内聚式框架258 12.4.1元数据258 12.4.2运维管理258 12.4.3多控制集群和多计算集群259 12.5跨集群复制260 12.5.1数据迁移260 12.5.2跨集群同步261 12.6小结264 第13章探索ODPS之美265 13.1R语言数据探索265 13.1.1安装和配置265 13.1.2一些基本操作265 13.1.3分析建模265 13.2实时流计算267 13.3图计算模型268 13.4准实时SQL269 13.5机器学习平台270 附录一ODPS消息认证机制271 后记274

ODPS权威指南——阿里大数据平台应用开发实践.epub"网盘下载"

版权说明

1、本站不保存、不存储任何实质资源,以上二维码指向为网盘资源链接,其内容归对应版权方所有
2、如有侵犯版权的情况,请点击下面举报/反馈按钮反馈或发送邮件[email protected]投诉说明情况
3、我们核实后将第一时间删除相关页面内容,谢谢理解和配合

这些人下载过 (12)
  • 把音书
  • 你的辅助
  • 风间白鹿
  • fairy(仙女)
  • 待我成熟时把你操翻
  • 小怪兽的棉花糖
  • 夜序章
  • 听见你哭泣
  • 相思故
  • 睡眠深处
  • 静谧之森
  • 甩洋葱
最新回复 (0)

    暂无评论

请先登录后发表评论!

返回
请先登录后发表评论!