python爬虫实战1-python 爬虫实战

565次阅读

首先推荐一个网站：中医世家，这个网站上有很多关于中医的资料，光是提供的中医书籍就有３１７Mb，全都是CHM格式，资料非常全面。

　　正因为这个网站有这么多的好东西，但是我又懒得一本书一本书的下载，所以，我就……用Python直接解析了几个书籍下载页面的地址，把所有的书籍的下载地址都弄到手，顺便还下载了，呵呵呵，省得一个页面一个页面的打开！

#!/usr/bin/env python
#coding=utf-8
#这段代码是用来下载“中医世家”网站上的书籍的，很不好意思了！
import urllib2,urllib,os
from BeautifulSoup import BeautifulSoup
#定义书籍链接列表
mainbooklink = [“http://www.zysj.com.cn/lilunshuji/1index.html”,
“http://www.zysj.com.cn/lilunshuji/5index.html”,
“http://www.zysj.com.cn/lilunshuji/20index.html”,
“http://www.zysj.com.cn/lilunshuji/25index.html”]
bookdir = [u”d://book//中医教材//”,u”d://book//中医著作//”,u”d://book//实用手册//”,
u”d://book//西医备考//”]
chmname = [] #chm电子书中文名字
chmbooklink = [] #对应chm的下载地址
#该函数实现获取一个地址后马上下载该书籍
def getbooklink(url):
#检测url地址——暂时略了！

#获取url地址的网页,并使用BeautifulSoup进行解析
page = urllib2.urlopen(url)
soup = BeautifulSoup(page)

#处理url，取得其前部地址，用以确定下面得到的地址的完全地址
#urllen = len(url)

for i in soup(‘li’):
#print i.a.string.encode(‘gb2312’),i.a[‘href’]
chmfilename = i.a.string
bookfilelink = “http://www.zysj.com.cn”+i.a[‘href’]

page = urllib2.urlopen(bookfilelink)
soup =BeautifulSoup(page)
ti = u”下载电子书：”+chmfilename+”.chm”
for k in soup(‘a’,title = ti):
chmname.append(chmfilename+’.chm’)
downlink = “http://www.zysj.com.cn”+k[‘href’]
chmbooklink.append(downlink)
print chmfilename.encode(‘gb2312′)+’.chm’,downlink
def downbook(filename,url,dirn):
#urllib.urlretrieve(url, filename)
if not os.path.exists(bookdir(dirn)):
os.makedirs(bookdir(dirn))

print “开始下载：”.decode(‘utf-8’).encode(‘gb2312’),filename.encode(‘gb2312’)
filename = bookdir[dirn]+filename
urllib.urlretrieve(url,filename)
print “下载完成！”.decode(‘utf-8’).encode(‘gb2312’)

if __name__==”__main__”:
dirn = 0
for i in mainbooklink:
getbooklink(i)
for j in range(0,len(chmname)):
downbook(chmname[j],chmbooklink[j],dirn)
chmname = []
chmbooklink = []
dirn = dirn+1

“””
这一小段代码是用来学习查找字符串里面出现的某个字符的呃位置，我把所有的位置都取出来了，接下来想怎样就能怎样了！
a =”http://www.zysj.com.cn/lilunshuji/1index.html”
b = 0
c = len(a)
while 1:
b = a.find(‘/’,b,c)
print b
b = b + 1
if b == 0:
break
“””

这段代码中缺了对空格的检测，所以好几部关于中医的字典是没有被解析出来的，只能手工下了，不多！

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-11-01

# Python爬虫

复制链接

赏

python爬虫实战1-python 爬虫实战

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置