0 0 0

Spark GraphX实战.epub

星漫游
1月前 350
我用夸克网盘分享了「Spark GraphX实战.epub」,点击链接即可保存。打开「夸克APP」在线查看,支持多种文档格式转换。
Spark GraphX实战 作者: 【美】Michael S. Malak/【美】Robin East 出版社: 电子工业出版社 译者: 时金魁/黄光远 出版年: 2017-4 页数: 300 定价: 79 装帧: 平装 ISBN: 9787121310430

内容简介

《Spark GraphX实战》是一本Spark GraphX入门书籍。前5章为基础内容,即使读者对Spark、GraphX、Scala不熟悉,也能快速上手;后5章为图计算进阶,主要是图算法和机器学习算法的相关内容。专门讲图计算的书很少,《Spark GraphX实战》在第2、3、4章介绍了图的基础知识、GraphX基础知识、GraphX内置的图算法。第6章到第10章,主要介绍了GraphX之外的图算法、机器学习、图工具、GraphX监控和优化、GraphX的能力增强等实用技能。第9章和第10章主要介绍性能调优和监控,主要面向生产环境,有不少可以借鉴的技巧。 《Spark GraphX实战》面向对图计算感兴趣的读者,旨在帮助读者掌握Spark GraphX的相关知识及其应用。

作者简介

Michael Malak一直从事软件开发工作,自 2013年年初以来他一直用 Spark为财富 200强的公司做开发工作,经常进行演示和分享,特别是在科罗拉多州他住的丹佛 /博尔德地区。他的个人技术博客的地址是 http://technicaltidbit.com。 Robin East在一些大型企业曾担任过 15年以上的顾问,在金融、政府、医疗保健和公共事业领域提供大数据和智能解决方案。他是 Worldpay的数据科学家,帮助公司实现把数据用于核心业务上。可以在这里看到他在 Spark、GraphX和机器学习方面的作品: https://mlspeed.wordpress.com。

网友热评

hoterran: graphx 入门。 还是喜欢 pregel 多一点, 书翻译的不错很流畅。 cordarndmyhead: 不错的入门书,对Scala的简单阐释也清晰易读 ㄓ杰傲不遜ㄛ: 市面上讲graphx的书很少,这书还是不错的。 通过看这本书,写了一个小项目,感兴趣的可以看看。 GitHub地址:https://github.com/weijie-he/jinyong

图书目录

序言XI 致谢XIII 关于本书XIV 关于封面插图XVIII 第1部分 Spark和图 1 两项重要的技术:Spark和图3 1.1 Spark:超越HadoopMapReduce4 1.1.1 模糊的大数据定义6 1.1.2 Hadoop:Spark之前的世界6 1.1.3 Spark:内存中的MapReduce处理7 1.2 图:挖掘关系中的含义9 1.2.1 图的应用11 1.2.2 图数据的类型12 1.2.3 普通的关系型数据库在图方面的不足14 1.3 把快如闪电的图处理放到一起:SparkGraphX14 1.3.1 图的属性:增加丰富性15 1.3.2 图的分区:当图变为大数据集时17 1.3.3 GraphX允许选择:图并行还是数据并行19 1.3.4 GraphX支持的各种数据处理方式19 1.3.5 GraphX与其他图系统21 1.3.6 图存储:分布式文件存储与图数据库23 1.4 小结23 2 GraphX快速入门24 2.1 准备开始并准备数据24 2.2 用SparkShell做GraphX交互式查询26 2.3 PageRank算法示例29 2.4 小结31 3 基础知识32 3.1 Scala—Spark的原生编程语言33 3.1.1 Scala的理念:简洁和表现力33 3.1.2 函数式编程34 3.1.3 类型推断38 3.1.4 类的声明39 3.1.5 map和reduce41 3.1.6 一切皆是“函数”42 3.1.7 与Java的互操作性44 3.2 Spark44 3.2.1 分布式内存数据:RDD44 3.2.2 延迟求值47 3.2.3 集群要求和术语解释49 3.2.4 序列化50 3.2.5 常用的RDD操作50 3.2.6 Spark和SBT初步54 3.3 图术语解释55 3.3.1 基础55 3.3.2 RDF图和属性图58 3.3.3 邻接矩阵59 3.3.4 图查询系统59 3.4 小结60 第2部分 连接顶点 4 GraphX基础65 4.1 顶点对象与边对象65 4.2 mapping操作71 4.2.1 简单的图转换71 4.2.2 Map/Reduce73 4.2.3 迭代的Map/Reduce77 4.3 序列化/反序列化79 4.3.1 读/写二进制格式的数据79 4.3.2 JSON格式81 4.3.3 Gephi可视化软件的GEXF格式85 4.4 图生成86 4.4.1 确定的图86 4.4.2 随机图88 4.5 PregelAPI90 4.6 小结96 5 内置图算法97 5.1 找出重要的图节点:网页排名98 5.1.1 PageRank算法解释98 5.1.2 在GraphX中使用PageRank99 5.1.3 个性化的PageRank102 5.2 衡量连通性:三角形数103 5.2.1 三角形关系的用法103 5.2.2 Slashdot朋友和反对者的用户关系示例104 5.3 查找最少的跳跃:最短路径106 5.4 找到孤岛人群:连通组件107 5.4.1 预测社交圈子108 5.5 受欢迎的回馈:增强连通组件114 5.6 社区发现算法:标签传播115 5.7 小结117 6 其他有用的图算法118 6.1 你自己的GPS:有权值的最短路径119 6.2 旅行推销员问题:贪心算法124 6.3 路径规划工具:最小生成树127 6.3.1 基于Word2Vec的推导分类法和最小生成树131 6.4 小结135 7 机器学习136 7.1 监督、无监督、半监督学习137 7.2 影片推荐:SVDPlusPlus.139 7.2.1 公式解释146 7.3 在MLlib中使用GraphX146 7.3.1 主题聚类:隐含狄利克雷分布147 7.3.2 垃圾信息检测:LogisticRegressionWithSGD156 7.3.3 使用幂迭代聚类进行图像分割(计算机视觉)160 7.4 穷人(简化版)的训练数据:基于图的半监督学习165 7.4.1 K近邻图构建168 7.4.2 半监督学习标签传播算法175 7.5 小结180 第3部分 更多内容 8 缺失的算法183 8.1 缺失的基本图操作184 8.1.1 通用意义上的子图184 8.1.2 图合并185 8.2 读取RDF图文件189 8.2.1 顶点匹配以及图构建189 8.2.2 使用IndexedRDD和RDDHashMap来提升性能191 8.3 穷人(简化版)的图同构:找到Wikipedia缺失的信息197 8.4 全局聚类系数:连通性比较202 8.5 小结205 9 性能和监控207 9.1 监控Spark应用208 9.1.1 Spark如何运行应用208 9.1.2 用Spark监控来了解你的应用的运行时信息211 9.1.3 historyserver221 9.2 Spark配置223 9.2.1 充分利用全部CPU资源226 9.3 Spark性能调优227 9.3.1 用缓存和持久化来加速Spark227 9.3.2 checkpointing230 9.3.3 通过序列化降低内存压力232 9.4 图分区233 9.5 小结235 10 更多语言以及工具237 10.1 在GraphX中使用除Scala外的其他语言238 10.1.1 在GraphX中使用Java7238 10.1.2 在GraphX中使用Java8245 10.1.3 未来GraphX是否会支持Python或者R245 10.2 其他可视化工具:ApacheZeppelin和d3.js245 10.3 类似一个数据库:SparkJobServer248 10.3.1 示例:查询Slashdot好友的分离程度250 10.3.2 更多使用SparkJobServer的例子253 10.4 通过GraphFrames在Spark的图上使用SQL254 10.4.1 GraphFrames和GraphX的互操作性255 10.4.2 使用SQL进行便捷、高性能的操作257 10.4.3 使用Cypher语言的子集来进行顶点搜索258 10.4.4 稍微复杂一些的YAGO图同构搜索260 10.5 小结264 附录A 安装Spark266 附录B Gephi可视化软件271 附录C 更多资源275 附录D 本书中的Scala小贴士278

Spark

版权说明

1、本站不保存、不存储任何实质资源,以上二维码指向为网盘资源链接,其内容归对应版权方所有
2、如有侵犯版权的情况,请点击下面举报/反馈按钮反馈或发送邮件[email protected]投诉说明情况
3、我们核实后将第一时间删除相关页面内容,谢谢理解和配合

这些人下载过 (12)
  • 男霸
  • 前路
  • 荆棘原野
  • Retrn亡
  • 孤独旧友
  • 十年太久
  • 那些年1起追过的女孩
  • Allure倾城
  • 嫉妒心害人深
  • 瑾然
  • 履念旧人
  • ‌永州之野
最新回复 (0)

    暂无评论

请先登录后发表评论!

返回
请先登录后发表评论!