python爬虫基础-python爬虫需要什么基础

372次阅读
没有评论

这里我们利用强大的python爬虫来爬取一篇文章。仅仅做一个示范,更高级的用法还要大家自己实践。

好了,这里就不啰嗦了,找到一篇文章的url地址:http://www.duanwenxue.com/article/673911.html

(注意,有一些网站会做一些反爬处理,关于这些网站的爬取会在近期的文章中说明)


这是一篇散文,)

 <meta http-equiv=”Content-Type” content=”text/html; charset=gb2312″ /> 可知网页的编码方式为GB2312

但在解码是要decode(’GB18030‘),

具体说明:

下面开始实现代码:


#

coding=GB18030

import urllib.request

from bs4 import BeautifulSoup

import re


url=”http://www.duanwenxue.com/article/673911.html”

a=urllib.request.urlopen(url)


htmlstr=a.read().decode(‘GB18030’)


soup=BeautifulSoup(htmlstr,’html.parser’)


y=re.compile(r'<p>([\s\S]*?)</p>’)

text=y.findall(str(soup))      #第一次正则表达式筛选所有<p></p>中的内容


x=”

print(len(text))

for i in range(0,len(text)):

    x=x+text[i]


text1=re.sub(“</?\w+[^>]*>”,”,x)  #去掉html标签


text2=text1.replace(“。”,’。\n\n\0\0′)  #让文本更好看

print(text2)


输出结果:

python爬虫基础-python爬虫需要什么基础


神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-11-01发表,共计758字。
新手QQ群:570568346,欢迎进群讨论 Python51学习