首先要安装两个库(requests、BeautifulSoup)
爬了中国旅游网的某一条消息
import requests from bs4 import BeautifulSoup url = "http://www.cntour.cn/" page=requests.get(url) soup = BeautifulSoup(page.text,'lxml')
//dom节点位置 data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')
//转化html为节点内容 for i in data: result={ 'title':i.get_text(), 'link':i.get('href') } print (result)
一个非常简单的例子,但是起码能够copy来跑一下,拿点感觉
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试