如何用python爬取数据

1,252次阅读

没有评论

1.基本方法

其实用python爬取网页很简单，只有简单的几句话

这样就可以获得到页面的内容。接下来再用正则匹配去匹配所需要的内容就行了。但是，真正要做起来，就会有各种各样的细节问题。

2.登录

这是一个需要登录认证的网站。也不太难，只要导入cookielib和urllib库就行。

这样就装载进一个cookie，用urlOpener去open登录以后就可以记住信息。

3.断线重连

如果只是做到上面的程度，不对open进行包装的话，只要网络状况有些起伏，就直接抛出异常，退出整个程序，是个很不好的程序。这个时候，只要对异常进行处理，多试几次就行了：

4.正则匹配

其实正则匹配并不算是一个特别好的方法，因为它的容错性很不好，网页要完全统一。如果有稍微的不统一，就会失败。后来看到说有根据xpath来进行选取的，下次可以尝试一下。

写正则其实是有一定技巧的：非贪婪匹配。比如这样一个标签：hello，要取出a来，如果写成这样的表达式，就不行了：hello。因为*进行了贪婪匹配。这是要用.?：hello。

跨行匹配。实现跨行有一种思路是运用DOTALL标志位，这样.就会匹配到换行。但是这样一来，整个匹配过程就会变得很慢。本来的匹配是以行为单位的。整个过程最多就是O(nc2)，n是行数，c是平均列数。现在极有可能变为O((nc)2)。我的实现方案是运用n来匹配换行，这样可以明确指出匹配最多跨跃多少行。比如：abcs*ns*def，就指出查找的是隔一行的。(.n)?就可以指定是匹配尽可能少的行。

这里其实还要注意一个点。有的行末是带有r的。也就是说一行是以rn结尾的。当初不知道这一点，正则就调试了很久。现在直接用s，表示行末空格和r。

无捕获分组。为了不对捕获的分组造成影响，上面的(.n)可以改为(?:.n)，这样捕获分组时，就会忽略它。

单括号要进行转义。因为单括号在正则里是用来表示分组的，所以为了匹配单括号就进行转义。正则字符串最好用的是带有r前缀的字符串，如果不是的话，则要对再进行转义。

快速正则。写了那么多模式，也总结出一规律出来。先把要匹配的字符相关的段落拿出来。要匹配的东西用(.?)代替。把换行n替换为字符串sns*，再去掉行首行末的空格。整个过程在vim中可以很快就写好。

5.Excel操作

这次的数据是放进Excel的。搜索Excel，可以得出几个方案来，一个是用xlrt/xlwt库，这个不管电脑上是否安装了Excel，都可以运行，但只能是xls格式的。还有一个是直接包装了com，需要电脑上安装了软件才行。这里采用的是前一种。

基本的读写没有问题。但是数据量一大起来，就有问题了。内存不够。程序一跑起来，内存占用就一点一点往上涨。后面再查了一下，知道要用flush_row_data。但是还是会出错。一看内存占用，没有什么问题，一直很平稳。但最后还是会出现memory error。这真是见鬼了。又是反复地查，反复地运行。一点结果都没有。要命的是bug只在数据量大起来才出现，而等数据量大起来往往要好几个小时，这debug的成本实在是太高了。一个偶然的机会，突然发现内存占用，虽然总体平稳，但是会规律性的出现小的高涨，而这规律性，会不会和flush_row_data，有关。一直疑惑的是data被flush到了哪里。原来xlwt的作法是很蛋疼的作法。把数据存在内存里，或者flush到一个temp，到save的时候，再一次性写入。而问题正出在这一次性写入，内存猛涨。那我要flush_row_data何用？为什么不一开始就flush进要写入的地方。

行数限制。这个是xls格式本身决定的，最多行数只能是65536。而且数据一大，文件打开也不方便。

结合以上两点，最终采取了这么一个策略，如果行数是1000的倍数，进行一次flush，如果行数超过65536，新开一个sheet，如果超过3个sheet，则新建一个文件。为了方便，把xlwt包装了一下：

6.转换网页特殊字符

由于网页也有自己独特的转义字符，在进行正则匹配的时候就有些麻烦。在官方文档中查到一个用字典替换的方案，私以为不错，拿来做了一些扩充。其中有一些是为保持正则的正确性。

7.总结

最终的程序要跑很久，其中网络通信时间占了大部分。是不是可以考虑用多线程重构一下？

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-27

# Python爬虫

复制链接

赏

如何用python爬取数据

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置