Python爬虫爬取网页数据

517次阅读

没有评论

本篇文章介绍爬虫爬取某租房信息数据，数据仅用于学习使用无商业用途。

首先在Python Console 控制台中安装requests、parsel模块，requests发送网络请求获取数据，parsel用于对数据源进行解析。

pip install requests

pip install parsel

下面开始实操代码：

import requests import parsel

# file = open("C:\\Users\\AUSU\\Desktop\\租房数据.txt", "a") # for i in range(98): # url = "https://hz.lianjia.com/zufang/pg" + str(i + 2) + "rt200600000002/#contentList" url = "https://nj.lianjia.com/zufang/pg3/#contentList" header = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36" } response = requests.get(url=url, headers=header) selector = parsel.Selector(response.text)

lis = selector.css(".content__list–item–main ") for li in lis: title = li.css(".content__list–item–title a::text").getall() if title: info = str(title).replace("\\n", "").replace(" ", "").replace("[", "").replace("'", "").replace("]", "") location: list = li.css(".content__list–item–des a::text").getall() if location: area = str("-".join(location)) address: list = li.css(".content__list–item–des ::text").getall() if address: addressInfo = str(address).replace("\\n", "").replace(" ", "").replace("[", "").replace("]", "") \ .replace("'-'", "").replace("'", "").replace(",", "") price = li.css(".content__list–item-price em::text").get() result = info + "|" + area + "|" + addressInfo + "|" + price + "元" # file.write(result) # file.write("\n") print(result)

Python爬虫爬取网页数据

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-27

# Python爬虫

复制链接

赏

Python爬虫爬取网页数据

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

HTTP代理服务器的设置及应用实例

海外静态IP的代理选择与配置

动态与静态代理IP的区别解析

什么是代理服务器IP：如何选择合适的

在线代理服务器的使用与推荐

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

HTTP代理设置详解：一步步配置指南

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器