mac下如何简单粗暴使用Python进行网络爬虫（2）

1,142次阅读

没有评论

mac下

我们的目的就是抓风景桌面的壁纸但这些都是缩略图大图在点击后的详情页里面
我们再次点击一张素略图看看

mac下

基本上每一个缩略图都对应8-9张大图
那么我们的目的很明确了根据每个缩略图找到对应的大图并且下载下来

回到 http://www.win4000.com/zt/fengjing.html 检查元素查看网页源代码

mac下

这个简直太简单了直接用 BeautifulSoup获得每一个缩略图对应的详情

mac下

再来查看对应大图的

mac下

既然每张大图大概有8-9张不等那我们就搞一个循环直接便利

mac下

得到图片url后开始下载

mac下

（注我这里把下载扔到桌面你也可以根据自己的需求更换地址)
到这一步我们算是把图片抓取过来了。

继续扩展一下既然捕捉到了图片那么我们能不能存到数据库里？
当然可以！看如下操作

首先数据库软件我使用

mac下

mac系统下有破解版的破解过程很简单我就不重复了
打开软件
在127.0.0.1点击右键->新建数据库

mac下

id自增 title url 一共三个字段

mac下

我是根据标题来判断当前的图片是否下载成功
如果数据库没有才可以从网络上下载
downPic(img)这个方法就是上面下载的函数方法

完整代码

import requests from bs4 import BeautifulSoup import html5lib import time import pymysql import random import urllib

#抓取网页数据 def getRequestHtml(): response = requests.get('http://www.win4000.com/zt/fengjing.html') soup = BeautifulSoup(response.content,'html5lib') content = soup.find('div', class_='tab_box') li_list = content.findAll('li')

#找到所有 li 标签内容 for li in li_list: url = li.find('a')['href'] getPicDetail(url)

def getPicDetail(url):

for i in range(1, 10): splitUrl = url.replace('.html','_%s.html'%i) print('拼接url :%s'%splitUrl) response = requests.get(splitUrl) soup = BeautifulSoup(response.content, 'html5lib') soupArticle = soup.find('div', class_='pic-meinv')

#判断当前对象是不是为空 if soupArticle: # print(soupArticle) soupImg = soupArticle.find('img') # print(soupImg)

title = soupImg['title'] # 得到标题 splitTitle = '%s%s' % (title, i) img = soupImg['src'] # 得到图片

# 根据数据库里面数据来判断该图片是否下载 insert_table(img, splitTitle) time.sleep(2) # 休眠2秒

else: print('当前链接为空') return

#把爬虫数据插入到数据库 def insert_table(img, splitTitle): # 建立连接 db = pymysql.connect(host='localhost', user='root', password='123', db='pictureData', charset="utf8") # 插入数据 query_sql = 'select * from picture where title=%s' sql = 'insert into picture (title,url) values (%s, %s)' # 使用 cursor() 方法创建一个游标对象 cursor cursor = db.cursor() try: query_value = (splitTitle) #执行sql语句判断是否已经有了 cursor.execute(query_sql,query_value) results = cursor.fetchall() if len(results) == 0: value = (splitTitle, img) cursor.execute(sql,value)

#提交事务 db.commit() print('———《%s》已经插入成功—–'%splitTitle) downPic(img) return True else: print('————–《%s》已经存在————-' % splitTitle) return False except BaseException as e: # 如果发生错误则回滚 db.rollback() print('插入数据时产生了错误') print(e)

finally: # 关闭游标连接 cursor.close() # 关闭数据库连接 db.close()

def downPic(url): print('开始下载图片：%s'%url) message = None createNum = createRandom() #给每个下载图片赋值成不同的名字 file = open('/Users/sike/Desktop/scenery/%s.jpg' % createNum, 'wb') try: getImg = urllib.request.urlopen(url) file.write(getImg.read()) print('下载完成')

except Exception as e: #捕捉异常 message = str(e) print(message) finally: file.closed print('关闭文件系统')

print('\n')

#生成20个随机字符 def createRandom(): chars = 'AaBbCcDdEeFfGgHhIiJjKkLlMmNnOoPpQqRrSsTtUuVvWwXxYyZz0123456789' picName = '' length = len(chars) – 1 for i in range(20): picName += chars[random.randint(0, length)]

return picName

if __name__ == '__main__':

getRequestHtml()

参考资料
Python 爬虫实战（一）：使用 requests 和 BeautifulSoup – SegmentFault 思否
Python 爬虫实战（二）：使用 requests-html – SegmentFault 思否

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-28

# Python爬虫

复制链接

赏

mac下如何简单粗暴使用Python进行网络爬虫（2）

这次我们来爬一个图片网站然后保存到数据库
目标我们选择 http://www.win4000.com/zt/fengjing.html
先打开网站看一下

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

什么是Socks5代理IP及其优势

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

在线代理服务器的使用与推荐

HTTP代理设置详解：一步步配置指南

HTTP代理服务器的设置及应用实例

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

动态与静态代理IP的区别解析

什么是代理服务器IP：如何选择合适的

mac下 如何简单粗暴 使用Python进行网络爬虫（2）

这次 我们来爬一个图片网站 然后保存到数据库 目标 我们选择 http://www.win4000.com/zt/fengjing.html 先打开网站看一下

相关文章：

mac下如何简单粗暴使用Python进行网络爬虫（2）

这次我们来爬一个图片网站然后保存到数据库
目标我们选择 http://www.win4000.com/zt/fengjing.html
先打开网站看一下