python爬虫如何采集知乎信息汇总

552次阅读

python爬虫如何采集知乎信息汇总

在没有学习python之前，对于数据的提取只局限于复制、粘贴之后的保存，一步步的人工操作还是很慢的。现在的小编已经能够写代码去从网页上获取自己想要的内容了，学习成果方面还是有显著的变化。不知道小伙伴们是不是都会呢？本篇小编就以知乎的数据采集为例，让大家也练练手。

打开知乎首页–>登陆–>搜索到一个大V，用谷歌浏览器分析点击关注了哪些人后的请求，通过分析：查找他关注的人的请求链接：

https://www.zhihu.com/api/v4/members/excited-vczh/followees?include=data%5B

python爬虫如何采集知乎信息汇总

通过观察尝试分析后可知：offset=40是偏移量，通过改变这个值可以实现分页的效果。

知乎是做了反爬虫的措施的，所以我们要想爬取知乎信息，还必须要设置请求头，下面我们来分析请求头：

python爬虫如何采集知乎信息汇总

图片中红箭头所指就是请求必须需要的值，

authorization：是身份认证信息，每个用户登录后都会产生各自的身份认证信息。

User-Agent：是验证请求是来自正常的浏览器访问

最终代码如下：

import requests
import pandas as pd
import time
headers={
    'authorization':'',#此处填写你自己的身份验证信息
    'User-Agent':''#此处填写你自己浏览器的User-Agent
}
user_data = []
def get_user_data(page):
    for i in range(page):#翻页
        url = 'https://www.zhihu.com/api/v4/members/excited-vczh/followees?include=data%5B*%5D.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics&offset={}&limit=20'.format(i*20)
        response = requests.get(url, headers=headers).json()['data']
        user_data.extend(response) #把response数据添加进user_data
        print('正在爬取第%s页' % str(i+1))
        time.sleep(1) #设置爬取网页的时间间隔为1秒
 
if __name__ == '__main__':
    get_user_data(10)
    df = pd.DataFrame.from_dict(user_data)#以字典保存数据
    df.to_csv('zhihu.csv',encoding='utf_8_sig')#保存到用户名为zhihu的csv文件中，encoding='utf_8_sig'参数是为了解决中文乱码的问题
    print(df)

运行代码后，我们就可以看到收集的一堆用户信息的汇总了，当然其中不乏一些小伙伴们崇拜的python大神公开的信息哦。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python基础教程

2021-05-25

复制链接

赏

python爬虫如何采集知乎信息汇总

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

国外代理服务器的优势及选择建议

什么是代理服务器IP：如何选择合适的

静态代理IP怎么填写：步骤与示例

什么是Socks5代理IP及其优势

如何找到可靠的免费代理服务器

海外静态IP的代理选择与配置

动态与静态代理IP的区别解析

Socks5代理配置教程及注意事项