具体代码如下:
import time from urllib import request # 文章的URL url_list = ['108668971', '108620289', '108605091', '108601340', '108569697'] url = 'https://blog.csdn.net/qq_43618698/article/details/' data = '' # 将GET方法中待发送的数据设置为空 # 请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/85.0.4183.102 Safari/537.36'} count = 0 # 初始化计数器 url_i = 0 # 初始化文章序号 while 1: # 开始后不停止 # 组装GET方法的请求 req = request.Request(url='%s%s%s' % (url + url_list[url_i], '?', data), headers=headers) rec = request.urlopen(req) # rec = urllib.request.urlopen(request) # 发送GET请求,获取博客文章页面资源 page = rec.read() # 读取页面内容到内存中的变量,这句代码可以不要 count += 1 # 计数器加1 url_i += 1 print(str.format("{0:<4}", count), end=" ") # 打印当前循环次数 if count % 20 == 0: # 输出二十个换行 print() if url_i == len(url_list): # 如果访问到最后一篇文章,则重新初始化文章下标 url_i = 0 if count % 5: # 每5次访问为1个循环 time.sleep(1) # 为每次页面访问设置等待时间是必须的, else: time.sleep(55) # 当所有文章访问一遍后,停顿一分钟,然后继续从头循环
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试