什么是python数据爬虫

1,133次阅读

没有评论

什么是python数据爬虫?不知道大家现在脑袋里有没有一个架框，小编怀着初学者的心情去搜索了一番，明明清晰的脑袋，去搞得一脑子浆糊，有说什么内容的都存在，为了不迷惑大家了，小编根据大部分小伙伴情况，给大家整理以下清晰明了的内容。

一、爬虫工作原理

获取网页——分析网页源代码——提取信息，便是爬虫工作的三部曲。

二、爬虫的基本流程：

用户获取网络数据的方式：

方式1：浏览器提交请求—>下载网页代码—>解析成页面。

方式2：模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中。

包括以下内容：

1、发起请求

2、获取响应内容

3、解析内容

4、保存数据

应用场景

1、互联网平台，偏向销售公司，客户信息的爬取

2、资讯爬取并应用到平台业务中

3、竞品公司重要数据挖掘分析与应用

实战例子

项目原理：打开网址-获取源码-找到图片-匹配下载

 
#coding=utf-8
 
'''
 
Created on 2017年1月28日
 
@author: gaojs
 
'''
 
import urllib,re,os
 
def getHtml():
 
page=urllib.urlopen('').read()#打开网址并且读取
 
return page
 
x=0
 
def getimg(page):
 
imgre=re.compile(r' src="(.*?)" class=')
 
imglist=re.findall(imgre,page)
 
for imgurl in imglist:
 
# print imgurl
 
global x
 
if not os.path.exists('/Users/gaojs/Desktop/pic'):
 
print os.mkdir('/Users/gaojs/Desktop/pic/')
 
else:
 
urllib.urlretrieve(imgurl,'/Users/gaojs/Desktop/pic/'+'%s.jpg'%x)#下载图片到指定位置
 
x+=1
 
print u'正在下载第%s张'%x
 
l=getHtml()
 
getimg(l)

好啦，想必通过以上的内容讲述，大家在脑海中应该有个印象了吧，小伙伴们不仅可以了解到爬虫，还可以知道自己学这块知识以后的应用，做好规划好自己的前景哦~

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python基础教程

2021-06-01

复制链接

赏

什么是python数据爬虫

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置