Python数据处理这本书,是由人民邮电出版社在2017-06-01月出版的,本书著作者是 杰奎琳·凯泽尔(Jacqueline,Kazil)凯瑟琳·贾缪尔()凯瑟琳·贾缪尔(Katharine,Jarmul) 著,张亮,吕家明 译,此次本版是第1次印刷发行, 国际标准书号(ISBN):9787115459190,品牌为人民邮电出版社, 这本书的包装是16开平装,所用纸张为胶版纸,全书共有378页字数万字, 是一本非常不错的Python编程书籍。
此书内容摘要
本书采用基于项目的方法,介绍用Python完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括:Python基础知识,如何从CSV、Excel、XML、JSON和PDF文件中提取数据,如何获取与存储数据,各种数据清洗与分析技术,数据可视化方法,如何从网站和API中提取数据。
关于此书作者
Jacqueline Kazil,数据家,zi深软件开发者。活跃于Python软件基金会、PyLadies等社区。曾参与美国总统创新伙伴项目,是美国政府技术组织18F的联合创始人。曾担任《华盛顿邮报》数据记者。
Katharine Jarmul,zi深Python开发者,PyLadies联合创始人。喜欢数据分析和获取、网页抓取、教人学习Python以及Unix,期望通过教育和培训来促进Python和其他开源语言的多元化。
编辑们的推荐
用传统的电子表格来处理数据不仅效率低下,而且无法处理某些格式的数据,对于混乱或庞大的数据集更是束手无策。本书将教你如何利用语法简单、容易上手的Python轻松处理数据。作者通过循序渐进的练习,详细介绍如何有效地获取、清洗、分析与呈现数据,如何将数据处理过程自动化,如何安排文件编辑与清洗任务,如何处理更大的数据集,以及如何利用获取的数据来创作引人入胜的故事。学完本书,你的数据处理和分析能力将更上一层楼。
* 快速了解Python基本语法、数据类型和语言概念
* 概述数据的获取与存储方式
* 清洗数据并格式化,以消除数据集中的重复值与错误
* 学习何时对数据进行标准化,何时对数据清理进行测试并将其脚本化
* 使用Scrapy写网络爬虫
* 利用新的Python库和技术对数据集进行探索与分析
* 使用Python解决方案将整个数据处理过程自动化
Python数据处理图书的目录
前言 xiii
第1章 Python 简介1
1.1为什么选择Python4
1.2开始使用Python4
1.2.1Python 版本选择5
1.2.2安装Python6
1.2.3测试Python9
1.2.4安装pip11
1.2.5安装代码编辑器12
1.2.6安装IPython(可选)13
1.3小结13
第2章 Python 基础14
2.1基本数据类型15
2.1.1字符串15
2.1.2整数和浮点数15
2.2数据容器18
2.2.1变量18
2.2.2列表21
2.2.3字典22
2.3各种数据类型的用途23
2.3.1字符串方法:字符串能做什么24
2.3.2数值方法:数字能做什么25
2.3.3列表方法:列表能做什么26
2.3.4字典方法:字典能做什么27
2.4有用的工具:type、dir 和help28
2.4.1type28
2.4.2dir28
2.4.3help30
2.5综合运用31
2.6代码的含义32
2.7小结33
第3章 供机器读取的数据34
3.1CSV 数据35
3.1.1如何导入CSV 数据36
3.1.2将代码保存到文件中并在命令行中运行39
3.2JSON 数据41
3.3XML 数据44
3.4小结56
第4章 处理Excel 文件58
4.1安装Python 包58
4.2解析Excel 文件59
4.3开始解析60
4.4小结71
第5章 处理PDF 文件,以及用Python 解决问题73
5.1尽量不要用PDF73
5.2解析PDF 的编程方法74
5.2.1利用slate 库打开并读取PDF75
5.2.2将PDF 转换成文本77
5.3利用pdfminer 解析PDF78
5.4学习解决问题的方法92
5.4.1练习:使用表格提取,换用另一个库94
5.4.2练习:手动清洗数据98
5.4.3练习:试用另一种工具98
5.5不常见的文件类型101
5.6小结101
第6章 数据获取与存储103
6.1并非所有数据生而平等103
6.2真实性核查104
6.3数据可读性、数据清洁度和数据寿命105
6.4寻找数据105
6.4.1打电话105
6.4.2美国政府数据106
6.4.3全球政府和城市开放数据107
6.4.4组织数据和非政府组织数据109
6.4.5教育数据和大学数据109
6.4.6医学数据和数据109
6.4.7众包数据和API110
6.5案例研究:数据调查实例111
6.5.1埃博拉病毒危机111
6.5.2列车安全111
6.5.3足球运动员的薪水112
6.5.4童工112
6.6数据存储113
6.7数据库简介113
6.7.1关系型数据库:MySQL 和PostgreSQL114
6.7.2非关系型数据库:NoSQL116
6.7.3用Python 创建本地数据库117
6.8使用简单文件118
6.8.1云存储和Python118
6.8.2本地存储和Python119
6.9其他数据存储方式119
6.10小结119
第7章 数据清洗:研究、匹配与格式化121
7.1为什么要清洗数据121
7.2数据清洗基础知识122
7.2.1找出需要清洗的数据123
7.2.2数据格式化131
7.2.3找出离群值和不良数据135
7.2.4找出重复值140
7.2.5模糊匹配143
7.2.6正则表达式匹配146
7.2.7如何处理重复记录150
7.3小结151
第8章 数据清洗:标准化和脚本化153
8.1数据归一化和标准化153
8.2数据存储154
8.3找到适合项目的数据清洗方法156
8.4数据清洗脚本化157
8.5用新数据测试170
8.6小结172
第9章 数据探索和分析173
9.1探索数据173
9.1.1导入数据174
9.1.2探索表函数179
9.1.3联结多个数据集182
9.1.4识别相关性186
9.1.5找出离群值187
9.1.6创建分组189
9.1.7深入探索192
9.2分析数据193
9.2.1分离和聚焦数据194
9.2.2你的数据在讲什么196
9.2.3描述结论196
9.2.4将结论写成文档197
9.3小结197
第10章 展示数据199
10.1避免讲故事陷阱199
10.1.1怎样讲故事200
10.1.2了解听众200
10.2可视化数据201
10.2.1图表201
10.2.2时间相关数据207
10.2.3地图208
10.2.4交互式元素211
10.2.5文字212
10.2.6图片、视频和插画212
10.3展示工具213
10.4发布数据213
10.4.1使用可用站点213
10.4.2开源平台:创建一个新网站215
10.4.3Jupyter(曾名IPython notebook)216
10.5小结219
第11章 网页抓取:获取并存储网络数据221
11.1抓取什么和如何抓取221
11.2分析网页223
11.2.1检视:标记结构224
11.2.2网络/ 时间线:页面是如何加载的230
11.2.3控制台:同JavaScript 交互232
11.2.4页面的深入分析236
11.3得到页面:如何通过互联网发出请求237
11.4使用Beautiful Soup 读取网页238
11.5使用lxml 读取网页241
11.6小结249
第12章 高级网页抓取:屏幕抓取器与爬虫251
12.1基于浏览器的解析251
12.1.1使用Selenium 进行屏幕读取252
12.1.2使用Ghost.py 进行屏幕读取260
12.2爬取网页266
12.2.1使用Scrapy 创建一个爬虫266
12.2.2使用Scrapy 爬取整个网站273
12.3网络:互联网的工作原理,以及为什么它会让脚本崩溃281
12.4变化的互联网(或脚本为什么崩溃)283
12.5几句忠告284
12.6小结284
第13章 应用编程接口286
13.1API 特性287
13.1.1REST API 与流式API287
13.1.2频率限制287
13.1.3分级数据卷288
13.1.4API key 和token289
13.2一次简单的Twitter REST API 数据拉取290
13.3使用Twitter REST API 进行高级数据收集292
13.4使用Twitter 流式API 进行高级数据收集295
13.5小结297
第14章 自动化和规模化298
14.1为什么要自动化298
14.2自动化步骤299
14.3什么会出错301
14.4在哪里自动化302
14.5自动化的特殊工具303
14.5.1使用本地文件、参数及配置文件303
14.5.2在数据处理中使用云308
14.5.3使用并行处理310
14.5.4使用分布式处理312
14.6简单的自动化313
14.6.1CronJobs314
14.6.2Web 接口316
14.6.3Jupyter notebook316
14.7大规模自动化317
14.7.1Celery:基于队列的自动化317
14.7.2Ansible:操作自动化318
14.8监控自动化程序319
14.8.1Python 日志320
14.8.2添加自动化信息322
14.8.3上传和其他报告326
14.8.4日志和监控服务327
14.9没有万无一失的系统328
14.10小结328
第15章 结论330
15.1数据处理者的职责330
15.2数据处理之上331
15.2.1成为一名更优秀的数据分析师331
15.2.2成为一名更优秀的开发者331
15.2.3成为一名更优秀的视觉化讲故事者332
15.2.4成为一名更优秀的系统架构师332
15.3下一步做什么332
附录A编程语言对比334
附录B初学者的Python 学习资源336
附录C学习命令行338
附录D高级Python 设置349
附录EPython 陷阱361
附录FIPython 指南370
附录G使用亚马逊网络服务374
关于作者378
关于封面378
部分内容试读
暂无.
关于此书评价
暂无.
书摘内容
暂无.
Python数据处理最新最全的试读、书评、目录、简介信息由Python中文网整理提供。
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试