python爬虫采集后如何输出内容

769次阅读
没有评论

python爬虫采集后如何输出内容

每次去快递点拿包裹的时候,一排排的货架分类摆好,小编自己也可以根据取件号码找到物品。同样的,我们获取了大量的数据如果不及时的把它们分类整理,很快下次就理不清头绪了。有没有什么方法可以在我们用python爬虫采集知乎后整理成表格的形式,这样也方便查看?接下来起看看吧。

 

数据包括回答的问题标题,回答的url,回答的内容文本,获赞数,发布时间及数据采集时间。

爬虫的功能分为以下4个部分:

  • 采用 selenium 启动无头浏览器
  • 爬取用户回答列表页的标题与url
  • 爬取每个回答的内容、发布时间与获赞数
  • 把爬取到的数据用表格文件保存

代码如下:

"""采用 python selenium 无头浏览器,爬取单个用户的所有回答数据并保存为表格文件。"""
 
from time import sleep
from datetime import datetime
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import pandas as pd
 
def start_driver():
    chrome_options = Options()
    chrome_options.add_argument("--headless")
    chrome_options.add_argument("--disable-gpu")
    driver = webdriver.Chrome(options=chrome_options)
    return driver
 
def get_answers_url(driver,url):
    driver.get(url)
    sleep(2)
    rlts = driver.find_elements_by_xpath('//*[@id="Profile-answers"]/div[2]//div/div/h2/div/a')   
    answers = [[rlt.text,rlt.get_attribute("href")] for rlt in rlts]
    return answers
 
def get_answers_text(driver,url):
    driver.get(url)
    sleep(2)
    rlt = driver.find_element_by_class_name('RichContent-inner')
    content = rlt.text
    rlt = driver.find_element_by_class_name("ContentItem-time")
    date = rlt.find_element_by_xpath(".//a/span").get_attribute("data-tooltip")
    rlt = driver.find_element_by_class_name("ContentItem-actions")
    upvote = rlt.find_element_by_xpath(".//span/button").get_attribute("aria-label")
    return [content,date,upvote]
 
driver = start_driver()
url = "https://www.zhihu.com/people/haili-9-70/answers"
answers = get_answers_url(driver,url)
answers_dict = {}
for i in range(len(answers)):
    answers_dict[i] = {}
    answers_dict[i]["title"] = answers[i][0]
    answers_dict[i]["url"] = answers[i][1]
    answers_dict[i]["content"] = get_answers_text(driver,answers[i][1])[0]
    answers_dict[i]["date"] = get_answers_text(driver,answers[i][1])[1]
    answers_dict[i]["upvote"] = get_answers_text(driver,answers[i][1])[2]
    answers_dict[i]["timestamp"] = str(datetime.now())[:-7]
 
df = pd.DataFrame(answers_dict).T
file = "./zhihu_answers_" + str(datetime.now().date()) + ".csv"
df.to_csv(file)

这个脚本适合备份自己的回答数据。

效果展示:

python爬虫采集后如何输出内容

 

看完上面的成果展示,是不是非常一目了然~标题、来源、回答之类的我们都可以清晰的阅读。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:wuyou2021-05-25发表,共计2129字。
新手QQ群:570568346,欢迎进群讨论 Python51学习