Python爬虫爬取数据

802次阅读

没有评论

我是Python小白，我会用比较通俗易懂的方法告诉你如何去爬取数据。

一开始，我们需要pycharm（也就是我们编代码的工具），其次我们需要打开我们需要爬取数据的网页，我以鞋子为例。

那么，接下来就开始吧

首先，我们打开某东，搜索鞋子。

Python爬虫爬取数据

随便点进去一个，找到他的评价

右击空白处，点检查，

Python爬虫爬取数据

出现以下界面时，我们点Network，

Python爬虫爬取数据

然后刷新我们找到的京东鞋子界面，就可以看到他出来很多东西，如下图所示

Python爬虫爬取数据

这时候，我们打开评论，随便找到一个评论，复制一下，然后找到有一个放大镜一样的东西那，点开，然后粘贴我们刚才复制的评论。

Python爬虫爬取数据

就可以看到这些东西

Python爬虫爬取数据

我们点开，发现右边Name里面有这些东西，我们直接复制这个URL。

Python爬虫爬取数据

好了，我们找到了关键的东西。那么接下来我们来编写代码

首先，第一行是import requests

第二行就是resp=requests.get(‘URL’）[此处URL就是你自己找的]

第三行就是print(resp.text)。

其实拥有这三行代码就可以了，但是呢，我们是在pycharm中爬取的数据，京东只有在浏览器访问时才会允许我们，我们用pycharm访问时，不会给我们，

如下如所示

Python爬虫爬取数据

为了解决这个问题呢，我们可以让我们的python程序伪装成浏览器，我们需要添加一个东西，请求头，

首先，我们随便打开一个浏览器，右击空白部位，点击检查。

Python爬虫爬取数据

点进去后我们点击网络，然后刷新一下这个网页。 Python爬虫爬取数据

我们随便点开一项，看标头里面有一个User-Agent，我们直接复制。

Python爬虫爬取数据

然后我们再来补充一行代码

headers={‘User-Agent’：Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36 Edg/94.0.992.50’}//此处这个是我找的，你们找的是什么就粘贴什么。

get函数里面最后加一个headers=headers。

——————————————————————————————-

下面是代码模板

import requests headers={'user-agent': '你自己找的user-agent'} resp=requests.get('你自己想要爬取数据的网页URL',headers=headers) print(resp.text)

—————————————————————————————-

下面是我找的一个（可以直接复制粘贴）

import requests headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/30'} resp=requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=10335871588&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1',headers=headers) print(resp.text)

结果就是这个，我随便截了一小部分。 Python爬虫爬取数据

总结起来，只有三点，第一点，写好代码模型，第二点，找到URL，第三点，找到User-agent。

最后，给初学者一个用python创建.txt文档的代码

fp=open('D:/yyds.txt','a+') print('helloworld',file=fp) fp.close()

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-27

# Python爬虫

复制链接

赏

Python爬虫爬取数据

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置