爬取任务工作流程:
1.获取网页源代码(requests方法、selium方法)
2.解析网页源代码,并从中提取所需要的信息:正则表达式findall函数
3.将提取到的数据存到文件或者数据库中
4.程序的异常处理、不间断运行以及爬取间隔的设置
1.正则表达式
正则表达式匹配规则的代码应该从pycharm爬取到的代码中复制,直接从网页复制的会爬取不到
re_url = '<a id=".*?" target="_blank" cacheStrategy="qcr:-1" href="(.*?)">' re_url = '<a id=".*?" target="_blank" cachestrategy=""qcr:-1"" href="(.*?)">'
直接在网页复制源代码得来的代码,与pycharm中的代码还是有区别
2.Python中路径的写法
书写文件路径时,通常写两个反斜杠‘\’,因为Python中一个反斜杠有特殊的意义:如n表示换行符。
Python中路径书写方法1:E:\文件夹1:\文件名.文件格式。例如:
file1 = open('E:\文件夹1\test1.txt','a')#a表示文本打开方式为追加
在文件路径的字符串前加一个‘r’
Python中路径书写方法2:
file1 = open(r'D:文件夹1test1.txt','a')#a表示文本打开方式为追加
3.异常处理
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试