爬虫中使用selenium实现对斗鱼直播的各个房间标题、主播id，直播内容类型和热度信息的爬取

1,677次阅读

没有评论

每日分享：

千万不要因为别人的否定就开始自我否定，人生本来就是一个主观的过程，别人是否喜欢你，其实是对方世界的事，所以面对别人的不喜欢，不要自卑不要刻意讨好，你要专注的做自己

思路分析：

url（网页的url）
创建driver对象
发送get请求
parse data（分析处理数据）
save data（保存数据）
翻页

在一个循环中反复执行4、5、6操作，如果到最后一页则跳出循环。

再说一些我写代码遇到的一些问题：

用xpath可以找到你想找的元素，但如果要对其进行点击操作，需要先下滑页面至页面内有该元素之后才可以点击
关于斗鱼中每个房间的封面图片的爬取，花了很多时间尝试，感觉应该设置有反爬，直接爬取，爬到了三张图片，后来设置了休眠时间，爬到图片多了几张，20s爬一张也只爬了不到十张。（因为自己也是初学者，还没有学习反爬、反反爬，所以就放弃了）
下滑操作前的time.sleep(1)是一定要写的（休眠时间自己设定），当时我是在这卡了很长的时间，因为发现网页并不下滑，所以也导致“下一页“这个元素点击失败。如果不设置休眠一秒，仔细看会发现，并不是页面不下滑，是页面下滑了之后又回到了顶部，可能这是一种反爬吧。
建议下一页的xpath自己用一个靠谱的方法写，比如用内容查找；当时直接复制的标签的xpath，翻页到第四页就出错了，原因可能是xpath未找到
源码注释比较详细
如果全部爬取（我当时是200多页），爬取时间会挺长的

源码如下：

from selenium import webdriver
import time


class Dou_yu(object):

    def __init__(self):
        self.url = 'https://www.douyu.com/directory/all'
        self.driver = webdriver.Chrome()

    def parse_data(self):
        # 建议加上这个休眠，不然可能会因为网速问题，导致页面未加载完毕，爬取失败
        time.sleep(3)
        # 每一页的所有房间存入列表
        room_list = self.driver.find_elements('xpath', '//*[@id="listAll"]/section[2]/div[2]/ul/li/div')
        # 120个，证明没出错
        # print(len(room_list))
        # 创建列表，暂时存放爬取的信息
        data_list = []
        for room in room_list:
            # 将爬取的各个信息放入字典
            tmp = {}
            tmp['title'] = room.find_element('xpath', './a/div[2]/div[1]/h3').get_attribute('textContent')
            tmp['type'] = room.find_element('xpath', './a/div[2]/div[1]/span').get_attribute('textContent')
            tmp['owner'] = room.find_element('xpath', './a/div[2]/div[2]/h2/div').get_attribute('textContent')
            tmp['popularity'] = room.find_element('xpath', './a/div[2]/div[2]/span').get_attribute('textContent')
            data_list.append(tmp)
            # tmp['picture'] = room.find_element('xpath', './a/div[1]/div[1]/picture/img').get_attribute('src')
            # print(tmp)
        return data_list

    def save_data(self, data_list):
        # 先转换为str，方便写入文件
        data_list = str(data_list)
        with open('斗鱼.txt', 'a', encoding='utf-8')as f:
            f.write(data_list+'\n')

    def run(self):
        self.driver.get(self.url)
        # url
        # 创建driver
        # 发送get
        # parse-data
        while True:
            data_list = self.parse_data()
            # save-data
            self.save_data(data_list)
            # 翻页
            # 这个time.sleep(1)是一定要写的（休眠时间自己设定），当时我是在这卡了很长的时间，因为发现网页并不下滑，所以也导致“下一页“这个元素点击失败。如果不设置休眠一秒，仔细看会发现，并不是页面不下滑，是页面下滑了之后又回到了顶部，可能这是一种反爬吧。
            time.sleep(1)
            # 直接设置一个比较大的值，下滑到底部
            js = 'scrollTo(0,10000)'
            # 执行js代码
            self.driver.execute_script(js)
            # 仔细观察斗鱼直播的第一页和最后一页，他们所属的li标签内的aria-disabled值不一样，不是尾页为faule，尾页为true，到尾页后跳出循环
            if self.driver.find_element('xpath', '//li[@title="下一页"]').get_attribute('aria-disabled') == 'true':
                break
            # 找到下一页按钮并点击
            self.driver.find_element('xpath', '//span[contains(text(),"下一页")]').click()


if __name__ == '__main__':
    dou_yu = Dou_yu()
    dou_yu.run()

部分结果如下：

爬虫中使用selenium实现对斗鱼直播的各个房间标题、主播id，直播内容类型和热度信息的爬取

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-19

# Python爬虫

复制链接

赏

爬虫中使用selenium实现对斗鱼直播的各个房间标题、主播id，直播内容类型和热度信息的爬取

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

什么是Socks5代理IP及其优势

国外代理服务器的优势及选择建议

什么是代理服务器IP：如何选择合适的

HTTP代理设置详解：一步步配置指南

动态与静态代理IP的区别解析

HTTP代理服务器的设置及应用实例

Socks5代理配置教程及注意事项

如何找到可靠的免费代理服务器

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置