Spark数据分析：基于Python语言_试读_书评_源码_高清pdf下载

400次阅读

Spark数据分析：基于Python语言，由机械工业出版社在2019-04-01月出版发行，本书编译以及作者信息为： [澳] 杰夫瑞·艾文（Jeffrey Aven）著，王道远译译，这是第1次发行，国际标准书号为：9787111622727，品牌为机工出版, 这本书采用平装开本为16开，纸张采为胶版纸，全书共有248页，字数万字，值得推荐。

本书重点关注Spark项目的基本知识，从Spark核心开始，然后拓展到各种Spark扩展、Spark相关项目、Spark子项目，以及Spark所处的丰富的生态系统里各种别的开源技术，比如Hadoop、Kafka、Cassandra等。

暂无.

译者序
前言
引言
第一部分Spark基础
第1章大数据、Hadoop、Spark介绍 2
1.1大数据、分布式计算、Hadoop简介 2
1.1.1大数据与Hadoop简史 2
1.1.2Hadoop简介 3
1.2Spark简介 8
1.2.1Spark背景 9
1.2.2Spark的用途 9
1.2.3Spark编程接口 9
1.2.4Spark程序的提交类型 10
1.2.5Spark应用程序的输入/输出类型 11
1.2.6Spark中的RDD 11
1.2.7Spark与Hadoop 11
1.3Python函数式编程 12
1.3.1Python函数式编程中的数据结构 12
1.3.2Python对象序列化 15
1.3.3Python函数式编程基础 17
1.4本章小结 19
第2章部署Spark 20
2.1Spark部署模式 20
2.1.1本地模式 21
2.1.2Spark独立集群 21
2.1.3基于YARN运行Spark 22
2.1.4基于Mesos运行Spark 22
2.2准备安装Spark 23
2.3获取Spark 23
2.4在Linux或Mac OS X上安装Spark 25
2.5在Windows上安装Spark 26
2.6探索Spark安装目录 28
2.7部署多节点的Spark独立集群 29
2.8在云上部署Spark 30
2.8.1AWS 30
2.8.2GCP 32
2.8.3Databricks 32
2.9本章小结 34
第3章理解Spark集群架构 35
3.1Spark应用中的术语 35
3.1.1Spark驱动器 36
3.1.2Spark工作节点与执行器 38
3.1.3Spark主进程与集群管理器 40
3.2使用独立集群的Spark应用 41
3.3在YARN上运行Spark应用 42
3.3.1ResourceManager作为集群管理器 42
3.3.2ApplicationMaster作为Spark主进程 42
3.4在YARN上运行Spark应用的部署模式 42
3.4.1客户端模式 42
3.4.2集群模式 43
3.4.3回顾本地模式 45
3.5本章小结 45
第4章Spark编程基础 46
4.1RDD简介 46
4.2加载数据到RDD 48
4.2.1从文件创建RDD 48
4.2.2从文本文件创建RDD 49
4.2.3从对象文件创建RDD 52
4.2.4从数据源创建RDD 52
4.2.5从JSON文件创建RDD 54
4.2.6通过编程创建RDD 56
4.3RDD操作 57
4.3.1RDD核心概念 57
4.3.2基本的RDD转化操作 61
4.3.3基本的RDD行动操作 65
4.3.4键值对RDD的转化操作 69
4.3.5MapReduce与单词计数练习 75
4.3.6连接操作 78
4.3.7在Spark中连接数据集 82
4.3.8集合操作 85
4.3.9数值型RDD的操作 87
4.4本章小结 89
第二部分基础拓展
第5章Spark核心API高级编程 92
5.1Spark中的共享变量 92
5.1.1广播变量 92
5.1.2累加器 96
5.1.3练习：使用广播变量和累加器 99
5.2Spark中的数据分区 100
5.2.1分区概述 100
5.2.2掌控分区 101
5.2.3重分区函数 102
5.2.4针对分区的API方法 104
5.3RDD的存储选项 106
5.3.1回顾RDD谱系 106
5.3.2RDD存储选项 107
5.3.3RDD缓存 109
5.3.4持久化RDD 109
5.3.5选择何时持久化或缓存RDD 112
5.3.6保存RDD检查点 112
5.3.7练习：保存RDD检查点 114
5.4使用外部程序处理RDD 115
5.5使用Spark进行数据采样 117
5.6理解Spark应用与集群配置 118
5.6.1Spark环境变量 118
5.6.2Spark配置属性 121
5.7Spark优化 124
5.7.1早过滤，勤过滤 124
5.7.2优化满足结合律的操作 124
5.7.3理解函数和闭包的影响 126
5.7.4收集数据的注意事项 127
5.7.5使用配置参数调节和优化应用 127
5.7.6避免低效的分区 128
5.7.7应用性能问题诊断 130
5.8本章小结 133
第6章使用Spark进行SQL与NoSQL编程 134
6.1Spark SQL简介 134
6.1.1Hive简介 134
6.1.2Spark SQL架构 138
6.1.3DataFrame入门 141
6.1.4使用DataFrame 150
6.1.5DataFrame缓存、持久化与重新分区 157
6.1.6保存DataFrame输出 158
6.1.7访问Spark SQL 161
6.1.8练习：使用Spark SQL 163
6.2在Spark中使用NoSQL系统 165
6.2.1NoSQL简介 165
6.2.2在Spark中使用HBase 166
6.2.3练习：在Spark中使用HBase 169
6.2.4在Spark中使用Cassandra 170
6.2.5在Spark中使用DynamoDB 172
6.2.6其他NoSQL平台 174
6.3本章小结 174
第7章使用Spark处理流数据与消息 175
7.1Spark Streaming简介 175
7.1.1Spark Streaming架构 176
7.1.2DStream简介 177
7.1.3练习：Spark Streaming入门 183
7.1.4状态操作 184
7.1.5滑动窗口操作 185
7.2结构化流处理 188
7.2.1结构化流处理数据源 188
7.2.2结构化流处理的数据输出池 189
7.2.3输出模式 190
7.2.4结构化流处理操作 190
7.3在Spark中使用消息系统 192
7.3.1Apache Kafka 192
7.3.2KafkaUtils 195
7.3.3练习：在Spark中使用Kafka 196
7.3.4亚马逊Kinesis 199
7.4本章小结 203
第8章Spark数据与机器学习简介 204
8.1Spark与R语言 204
8.1.1R语言简介 204
8.1.2通过R语言使用Spark 210
8.1.3练习：在RStudio中使用SparkR 215
8.

Spark在这场由大数据与开源软件掀起的颠覆性革命中处于核心位置。不论是尝试Spark的意向还是实际用例的数量都在以几何级数增长，而且毫无衰退的迹象。本书将手把手引导你在大数据分析领域中收获事业上的成功。
本书重点
本书重点关注Spark项目的基本知识，从Spark核心技术开始，然后拓展到各种Spark扩展技术、Spark相关项目及子项目，以及Spark所处的丰富的生态系统里各种别的开源技术，比如Hadoop、Kafka、Cassandra等。
本书所介绍的Spark基本概念（包括运行环境、集群架构、应用架构等）与编程语言无关且非常基础，而大多数示例程序和练习是用Python实现的。Spark的Python API（PySpark）为数据分析师、数据工程师、数据家等提供了易用的编程环境，让开发者能在获得Python语言的灵活性和可扩展性的同时，获得Spark的分布式处理能力和伸缩性。
本书所涉及的范围非常广泛，涵盖了从基本的Spark核心编程到Spark SQL、Spark Streaming、机器学习等方方面面的内容。本书对于每个主题都给出了良好的介绍和概览，足以让你以Spark项目为基础构建出针对任何特定领域或学科的平台。
目标读者
本书是为有志进入大数据领域或已经入门想要进一步巩固大数据领域知识的数据分析师和工程师而写的。当前市场非常需要具备大数据技能、懂得大数据领域优秀处理框架Spark的工程师。本书的目标是针对这一不断增长的市场需求培训读者，使得读者获得雇主急需的技能。
对于阅读本书来说，有Python使用经验是有帮助的，没有的话也没关系，毕竟Python对于任何有编程经验的人来说都非常直观易懂。读者最好对数据分析和数据处理有一定了解。这本书尤其适合有兴趣进入大数据领域的数据仓库技术人员阅读。
如何使用本书
本书分为两大部分共8章。第一部分“Spark基础”包括4章，会使读者深刻理解Spark是什么，如何部署Spark，如何使用Spark进行基本的数据处理操作。
第1章概要介绍大数据生态圈，包括Spark项目的起源和演进过程。讨论Spark项目的关键属性，包括Spark是什么，用起来如何，以及Spark与Hadoop项目之间的关系。
第2章展示如何部署一个Spark集群，包括Spark集群的各种部署模式，以及调用Spark的各种方法。
第3章讨论Spark集群和应用是如何运作的，让读者深刻理解Spark是如何工作的。
第4章介绍使用弹性分布式数据集（RDD）进行Spark初级编程的基础知识。
第二部分“基础拓展”包括后4章的内容，扩展到Spark的core模块以外，包括SQL和NoSQL系统、流处理应用、数据与机器学习中Spark的使用。
第5章讲解用来扩展、加速和优化常规Spark例程的高级元件，包括各种共享变量和RDD存储，以及分区的概念及其实现。
第6章讨论Spark与SQL的整合，还有Spark与非关系型数据库的整合。
第7章介绍Spark的Streaming子项目，以及Streaming中最基本的DStream对象。该章还涵盖Spark对于Apache Kafka这样的常用消息系统的使用。
第8章介绍通过R语言使用Spark建立预测模型，以及Spark中用来实现机器学习的子项目MLlib。
本书代码
本书中各个练习的示例数据和源代码可以从http://sparkusingpython.com下载。也可以从https://github.com/sparktraining/spark_using_python查看或者下载。

暂无.

Spark数据分析：基于Python语言最新最全的试读、书评、目录、简介信息由Python中文网整理提供。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python图书推荐

2022-10-24

# Python书籍

复制链接

赏

Spark数据分析：基于Python语言_试读_书评_源码_高清pdf下载

此书内容摘要

关于此书作者

编辑们的推荐

Spark数据分析：基于Python语言图书的目录

部分内容试读

关于此书评价

书摘内容

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置