Spark大数据处理 : 原理, 算法与实例 = Big data processing with spark

معرفی کتاب «Spark大数据处理 : 原理, 算法与实例 = Big data processing with spark» نوشتهٔ 刘军; 林文辉; 方澄، منتشرشده توسط نشر 清华大学出版社 در سال 2016. این کتاب در فرمت pdf، زبان zh ارائه شده است. «Spark大数据处理 : 原理, 算法与实例 = Big data processing with spark» در دستهٔ بدون دسته‌بندی قرار دارد.

刘军, 男,1976年生人,博士,副教授,硕士生导师,北京邮电大学数据科学中心主任。2003年至2007年任职于IBM中国研究院,担任高级研究员及部门经理,建立IBM中国研究院电信融合网络管理研究方向,主持研发Websphere及Tivoli电信产品线中多项关键技术,期间发表多篇国际会议及刊物论文,并申请获得多项美国专利。2007年至2012年创办欢城(北京)科技有限公司,开创中国无端网络游戏产业,并担任中国软件协会网页游戏专业委员会委员。公司产品多次荣获国内互联网业界奖项,2008年获中国互联网协会“运营价值Webgame”奖项。2012年至今在北京邮电大学信息与通信工程学院任教,研究方向为电信及互联网大数据分析、高速数据流挖掘算法,并牵头组建北京邮电大学数据科学中心。开设研究生课程“海量数据处理中的云计算”,发表大数据分析相关SCI/EI检索论文十余篇,并独著《Hadoop大数据处理》一书,该书被哈尔滨工业大学、中南大学等多所高校的相关课程作为教材使用。林文辉,男,博士,高级工程师,航天信息股份有限公司研究院大数据技术总监。自2009年至今在航天信息研究院担任云平台事业部经理。承担过多个国家重大课题项目,包括国有资本金项目、科技部粮食信息化安全项目、国资委信息化建设等。主要研究方向:税务和公安行业大数据应用、云计算、云安全。封面 1 扉页 2 内容简介 3 版权页 3 前言 4 目录 6 第1章从Hadoop到Spark 9 1.1 Hadoop——大数据时代的火种 9 1.2 Hadoop的局限性 20 1.3 大数据技术新星——Spark 29 第2章体验Spark 36 2.1 安装和使用Spark 36 2.2 编写和运行Spark程序 43 2.3 Spark Web UI 53 第3章 Spark原理 58 3.1 Spark工作原理 58 3.2 Spark架构及运行机制 62 第4章 RDD算子 82 4.1 创建算子 82 4.2 变换算子 88 4.3 行动算子 116 4.4 缓存算子 127 第5章 Spark算法设计 131 5.1 过滤 131 5.2 去重计数 133 5.3 相关计数 135 5.4 相关系数 138 5.5 数据联结 143 5.6 Top-K 147 5.7 K-means 150 5.8 关联规则挖掘 154 5.9 kNN 160 5.10 朴素贝叶斯分类 163 第6章善用Spark 169 6.1 合理分配资源 169 6.2 控制并行度 176 6.3 利用持久化 181 6.4 选择恰当的算子 185 6.5 利用共享变量 189 6.6 利用序列化技术 194 6.7 关注数据本地性 196 6.8 内存优化策略 199 6.9 集成外部工具 203 正文结束 205 参考文献 206 本书以时下最为流行的Hadoop所存在的缺陷为出发点, 介绍了下一代大数据处理核心技术Spark的优势和必要性, 并以最简洁的指引步骤展示了如何在10分钟内建立一个Spark大数据处理环境.在此基础上, 本书以图文并茂和丰富的示例代码讲解的形式系统性地揭示了Spark的运行原理, 算子使用, 算法设计和优化手段.本书共六章, 涉及的主题主要包括大数据处理技术从Hadoop发展到Spark的必然性, 快速体验Spark的指引, Spark架构和原理等

دانلود کتاب Spark大数据处理 : 原理, 算法与实例 = Big data processing with spark