1、爬虫思路:
定义编码形式并引入模块;
请求新闻网站URL,获取其text文本并解析;
通过select选择器定位解析文件指定的元素,返回一个列表并遍历;
获取相关内容。
2、具体实现
第一步:使用UTF-8编码形式定义文件(避免一些编码错误导致中文乱码),并引入相关模块。
# coding:utf-8 # 引入相关模块 import requests from bs4 import BeautifulSoup url = "http://news.qq.com/"
第二步:请求新闻网站URL,获取其text文本
wbdata = requests.get(url).text
第三步:解析获取到的文本
soup = BeautifulSoup(wbdata,'lxml')
第四步:通过select选择器定位解析文件指定的元素,返回一个列表
从解析文件中通过select选择器定位指定的元素,返回一个列表 news_titles = soup.select("div.text > em.f14 > a.linkto")
第五步:遍历返回的列表
for n in news_titles:
第六步:获取新闻标题及信息
# 提取出标题和链接信息 title = n.get_text() link = n.get("href") data = { '标题':title, '链接':link } print(data)
以上就是python爬虫爬取新闻的简单实现,大家可以尝试看看哦~
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试