python爬取数据技巧

732次阅读

没有评论

前段时间小编发了一篇有关于Python数据类型的文章，由于只是介绍了数据类型，我觉得远远不够，所以呢我现在写一篇用Python爬取数据的文章来补充。

python爬取数据技巧

首先我会介绍如何使用scrapy抓取二手房数据，然后我会将抓下来的数据进行了一些简单的分析和可视化。最后奉上数据，感兴趣的朋友可以深入分析

Github地址：https://github.com/HunterChao/Crawler

使用scrapy抓取二手房数据，如下所示：

文章目录结构

D:.

│ run.py

│ scrapy.cfg

│

└─LianJia

│ items.py

│ pipelines.py

│ settings.py

│ __init__.py

│

├─spiders

│ lianjia.py

│ __init__.py

lianjia.py是程序的主要运行文件，run.py为程序启动文件。在pycharm下执行run.py即可启动程序。

项目分析：

python爬取数据技巧

链接的构造：我们通过抓取首页可以获得北京市各城区的名称(如：东城、西城、朝阳)及对应的拼音，进一步通过遍历每个城区对应的页码数(Pn)即可构造出各城区的二手房链接。

python爬取数据技巧

信息的抓取：在进入各个城区的二手房页面时，可匹配出每个房源的详细信息。这里需要注意的是，由于我想将各房源的经纬度信息获取以便可视化到地图上，需要找到每个房源的详情页链接，进入该链接，匹配出经纬度相关的字段。(resblockPosition)数据字段：item.py

# -*- coding: utf-8 -*-

import scrapy

class LianjiaItem(scrapy.Item):

# 标签小区户型面积关注人数观看人数发布时间价格均价详情链接经纬度城区

title = scrapy.Field()

community = scrapy.Field()

model = scrapy.Field()

area = scrapy.Field()

focus_num = scrapy.Field()

watch_num = scrapy.Field()

time = scrapy.Field()

price = scrapy.Field()

average_price = scrapy.Field()

link = scrapy.Field()

Latitude = scrapy.Field()

city = scrapy.Field()

主要运行函数：lianjia.py

# -*- coding: utf-8 -*-

import scrapy

import requests

import re

import time

from lxml import etree

from ..items import LianjiaItem

from scrapy_redis.spiders import RedisSpider

class LianjiaSpider(RedisSpider):

name = ‘lianjiaspider‘

redis_key = ‘lianjiaspider:urls‘

start_urls = ‘http://bj.lianjia.com/ershoufang/‘

def start_requests(self):

user_agent = ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22

Safari/537.36 SE 2.X MetaSr 1.0‘

headers = {‘User-Agent‘: user_agent}

yield scrapy.Request(url=self.start_urls, headers=headers, method=‘GET‘, callback=self.parse)

def parse(self, response):

user_agent = ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22

Safari/537.36 SE 2.X MetaSr 1.0‘

headers = {‘User-Agent‘: user_agent}

lists = response.body.decode(‘utf-8‘)

selector = etree.HTML(lists)

area_list = selector.xpath(‘/html/body/div[3]/div[2]/dl[2]/dd/div[1]/div/a‘)

for area in area_list:

try:

area_han = area.xpath(‘text()‘).pop() # 地点

area_pin = area.xpath(‘@href‘).pop().split(‘/‘)[2] # 拼音

area_url = ‘http://bj.lianjia.com/ershoufang/{}/‘.format(area_pin)

print(area_url)

yield scrapy.Request(url=area_url, headers=headers, callback=self.detail_url, meta={"id1":area_han,"id2":area_pin} )

except Exception:

pass

def get_latitude(self,url): # 进入每个房源链接抓经纬度

p = requests.get(url)

contents = etree.HTML(p.content.decode(‘utf-8‘))

latitude = contents.xpath(‘/ html / body / script[19]/text()‘).pop()

time.sleep(3)

regex = ‘‘‘resblockPosition(.+)‘‘‘

items = re.search(regex, latitude)

content = items.group()[:-1] # 经纬度

longitude_latitude = content.split(‘:‘)[1]

return longitude_latitude[1:-1]

def detail_url(self,response):

‘http://bj.lianjia.com/ershoufang/dongcheng/pg2/‘

for i in range(1,101):

url = ‘http://bj.lianjia.com/ershoufang/{}/pg{}/‘.format(response.meta["id2"],str(1))

time.sleep(2)

try:

contents = requests.get(url)

contents = etree.HTML(contents.content.decode(‘utf-8‘))

houselist = contents.xpath(‘/html/body/div[4]/div[1]/ul/li‘)

for house in houselist:

try:

item = LianjiaItem()

item[‘title‘] = house.xpath(‘div[1]/div[1]/a/text()‘).pop()

item[‘community‘] = house.xpath(‘div[1]/div[2]/div/a/text()‘).pop()

item[‘model‘] = house.xpath(‘div[1]/div[2]/div/text()‘).pop().split(‘|‘)[1]

item[‘area‘] = house.xpath(‘div[1]/div[2]/div/text()‘).pop().split(‘|‘)[2]

item[‘focus_num‘] = house.xpath(‘div[1]/div[4]/text()‘).pop().split(‘/‘)[0]

item[‘watch_num‘] = house.xpath(‘div[1]/div[4]/text()‘).pop().split(‘/‘)[1]

item[‘time‘] = house.xpath(‘div[1]/div[4]/text()‘).pop().split(‘/‘)[2]

item[‘price‘] = house.xpath(‘div[1]/div[6]/div[1]/span/text()‘).pop()

item[‘average_price‘] = house.xpath(‘div[1]/div[6]/div[2]/span/text()‘).pop()

item[‘link‘] = house.xpath(‘div[1]/div[1]/a/@href‘).pop()

item[‘city‘] = response.meta["id1"]

self.url_detail = house.xpath(‘div[1]/div[1]/a/@href‘).pop()

item[‘Latitude‘] = self.get_latitude(self.url_detail)

except Exception:

pass

yield item

except Exception:

pass

抓取效果：

python爬取数据技巧

以上就是如何抓取数据了，大家是否成功将数据爬取下来了呢？假如还有不懂的地方或者需要源码，可以加群959997225即可获得！

北京二手房数据：https://pan.baidu.com/share/init?surl=nuCeVrV，密码：rfli

本文来自网络，如有侵权，请联系小编删除！

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-27

# Python爬虫

复制链接

赏

python爬取数据技巧

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

静态代理IP怎么填写：步骤与示例

什么是Socks5代理IP及其优势

海外静态IP的代理选择与配置

动态与静态代理IP的区别解析

在线代理服务器的使用与推荐

HTTP代理设置详解：一步步配置指南

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

HTTP代理服务器的设置及应用实例

什么是代理服务器IP：如何选择合适的