python爬虫最最最最简单示例

444次阅读
没有评论

编写网络爬虫需要:
掌握requests
掌握BeautifulSoup
正文内容的抓取
获取网页url的id(函数或者正则表达式)
爬取前的准备
打开cmd窗口,进入python安装目录 下载python,配置环境(可使用anocanda,里面提供了很多python模块)
BeautifulSoup的导入:pip install BeautifulSoup4
requests的导入:pip install requests
pandas的导入:pip install pandas
在导入过程中出现Traceback (most recent call last):
File “地址”, line 367, in _error_catcher
这类in _error_catcher的错误然后百度之后知道需要使用镜像的pip源,下面是一些比较常用的国内镜像包括:
(1)阿里云 http://mirrors.aliyun.com/pypi/simple/
(2)豆瓣http://pypi.douban.com/simple/
(3)清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/
(4)中国技术大学 http://pypi.mirrors.ustc.edu.cn/simple/
(5)华中科技大学http://pypi.hustunique.com/
使用之后豆瓣实在是太慢了 清华大学的非常快
导入方法pip install BeautifulSoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple/
然后开始爬虫的简单示例
python爬虫最最最最简单示例
首先导入两个包,然后获取地址,使用utf-8避免中文乱码
下面是在python中使用requests包中get方法的小例子
#requests.get示例
import requests
res=requests.get(‘http://www.baidu.com/’) res.encoding=‘utf-8’ #这一句是为了避免中文乱码
print(res) #输出结果是<Response [200]>,可知resquests.get返回回复的数量,而不是回复的内容
print(res.text) #因此加上“.text”才是得到网页内容
python爬虫最最最最简单示例
看着实在是太乱了于是需要把HTML的标签去掉这时候就使用到了 BeautifulSoup 首先需要导入包 from bs4 import BeautifulSoup 然后把需要处理的内容放到一个字符串里
python爬虫最最最最简单示例,然后用BeautifulSoup方法处理,doc就是字符串的命名,指定解析器html.parser 。输出的时候也是需要.text才可以显示内容python爬虫最最最最简单示例
BeautifulSoup的其他使用示例如查找指定标签中的内容例如查找div里面的内容
python爬虫最最最最简单示例
把内容定义为header使用select方法,print(header)是直接回传Python的一个list
python爬虫最最最最简单示例这样才是打开回传的list里面的第一个元组的内容

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-10-28发表,共计1217字。
新手QQ群:570568346,欢迎进群讨论 Python51学习