python爬虫采集后如何输出内容

992次阅读

python爬虫采集后如何输出内容

每次去快递点拿包裹的时候，一排排的货架分类摆好，小编自己也可以根据取件号码找到物品。同样的，我们获取了大量的数据如果不及时的把它们分类整理，很快下次就理不清头绪了。有没有什么方法可以在我们用python爬虫采集知乎后整理成表格的形式，这样也方便查看？接下来起看看吧。

数据包括回答的问题标题，回答的url，回答的内容文本，获赞数，发布时间及数据采集时间。

爬虫的功能分为以下4个部分：

采用 selenium 启动无头浏览器
爬取用户回答列表页的标题与url
爬取每个回答的内容、发布时间与获赞数
把爬取到的数据用表格文件保存

代码如下：

"""采用 python selenium 无头浏览器，爬取单个用户的所有回答数据并保存为表格文件。"""
 
from time import sleep
from datetime import datetime
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import pandas as pd
 
def start_driver():
    chrome_options = Options()
    chrome_options.add_argument("--headless")
    chrome_options.add_argument("--disable-gpu")
    driver = webdriver.Chrome(options=chrome_options)
    return driver
 
def get_answers_url(driver,url):
    driver.get(url)
    sleep(2)
    rlts = driver.find_elements_by_xpath('//*[@id="Profile-answers"]/div[2]//div/div/h2/div/a')   
    answers = [[rlt.text,rlt.get_attribute("href")] for rlt in rlts]
    return answers
 
def get_answers_text(driver,url):
    driver.get(url)
    sleep(2)
    rlt = driver.find_element_by_class_name('RichContent-inner')
    content = rlt.text
    rlt = driver.find_element_by_class_name("ContentItem-time")
    date = rlt.find_element_by_xpath(".//a/span").get_attribute("data-tooltip")
    rlt = driver.find_element_by_class_name("ContentItem-actions")
    upvote = rlt.find_element_by_xpath(".//span/button").get_attribute("aria-label")
    return [content,date,upvote]
 
driver = start_driver()
url = "https://www.zhihu.com/people/haili-9-70/answers"
answers = get_answers_url(driver,url)
answers_dict = {}
for i in range(len(answers)):
    answers_dict[i] = {}
    answers_dict[i]["title"] = answers[i][0]
    answers_dict[i]["url"] = answers[i][1]
    answers_dict[i]["content"] = get_answers_text(driver,answers[i][1])[0]
    answers_dict[i]["date"] = get_answers_text(driver,answers[i][1])[1]
    answers_dict[i]["upvote"] = get_answers_text(driver,answers[i][1])[2]
    answers_dict[i]["timestamp"] = str(datetime.now())[:-7]
 
df = pd.DataFrame(answers_dict).T
file = "./zhihu_answers_" + str(datetime.now().date()) + ".csv"
df.to_csv(file)

这个脚本适合备份自己的回答数据。

效果展示：

python爬虫采集后如何输出内容

看完上面的成果展示，是不是非常一目了然~标题、来源、回答之类的我们都可以清晰的阅读。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2021-05-25

复制链接

赏

python爬虫采集后如何输出内容

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

如何找到可靠的免费代理服务器

动态与静态代理IP的区别解析

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

海外静态IP的代理选择与配置

在线代理服务器的使用与推荐

HTTP代理设置详解：一步步配置指南

国外代理服务器的优势及选择建议

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例