直接跟大家叙述本章的中心,我们可以考虑下爬取的思路,像小编已经整合了整个步骤,我们需要先去利用正则表达式对css等进行定位,然后抓取数据,然后在考虑下动态加载页面,在进行提取图片的url页面,然后编写个文本格式,整理链接,最后就可以利用年语言进行文件提取,好啦,现在已经对整个流程整理完成,下面开始整理吧~
1、需要模块:
Anaconda导入模块有:os、json、time、requests
2、爬取图片
3、代码如下:
import requests import os import json import time def main(): url = '图片链接' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) } for i in range(5): page_num = str(i) params = { 'm': 'LiveList', 'do': 'getLiveListByPage', 'gameId': '1663', 'tagAll': '0', 'page': page_num } time.sleep(randint(1,5)) img_lists = getData(url, params, headers) img_content = get_img_content(img_lists) saveData(img_lists, img_content) def getData(url, params, headers): json_text = requests.get(url=url, params=params, headers=headers).text jsonObj = json.loads(json_text) datas = jsonObj['data']['datas'] #print(datas) img_lists = [] for data in datas: img = [] nick = data['nick'] screenshot = data['screenshot'] img.append(nick) img.append(screenshot) img_lists.append(img) return img_lists
大家如果也有去爬取封面的需求,可以跟着小编一起进行操作,好啦,完整的代码爬取内容都在上述给大家做了演示了,可以参考,继续进行自己的代码编写研究了哦~
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试