python写爬虫之【概览：爬到的数据是啥样】

1,017次阅读

没有评论

前记：

刚刚试了一下，尽管Selenium对PhantomJS的支持已经被deprecated(弃用，藐视，抨击)。

但是，我还是可以用此方法爬取数据。先简单讲解一下我之前写的一个小程序，回头再探索最新的爬虫框架。

我写的这个程序功能是这样的：爬取北邮人招生网页上，各年份中北邮在不同省份各个专业的招生人数，对应的最高分，最低分和平均分。

爬下来的数据格式是.xls。

每一个.xls是保存的某一个年份里（如2018年，待会也用2018年做实例）n个省份的招生情况，即有n个sheet。

每一个是sheet里是北邮在该省的具体招生情况，如下：

python写爬虫之【概览：爬到的数据是啥样】

以上是我们爬得的rawdata。

具体的爬取过程，可以参照：

如何分析网页并使用python爬取网页数据

想要挖掘出这些数据的信息，可以参照：

使用Python处理csv数据的常规做法

更多学习资料，请关注下面的公众号：不定期分享

深度学习网络总结

机器学习算法及其应用场景

算法与数据结构（leetcode 题解）

cuda编程与并行优化

其他读书分享如：《战国策》，《智囊全集》

宇宙常识科普与星座辨别

等等

python写爬虫之【概览：爬到的数据是啥样】

来自 <https://mp.csdn.net/mdeditor/102913743>

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-27

# Python爬虫

复制链接

赏

python写爬虫之【概览：爬到的数据是啥样】

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

Socks5代理配置教程及注意事项

HTTP代理服务器的设置及应用实例

海外静态IP的代理选择与配置

什么是Socks5代理IP及其优势

国外代理服务器的优势及选择建议

HTTP代理设置详解：一步步配置指南

如何找到可靠的免费代理服务器

动态与静态代理IP的区别解析

什么是代理服务器IP：如何选择合适的

静态代理IP怎么填写：步骤与示例