python爬虫实战1-python 爬虫实战

337次阅读
没有评论
python爬虫实战1-python

首先推荐一个网站:​​中医世家​​,这个网站上有很多关于中医的资料,光是提供的中医书籍就有317Mb,全都是CHM格式,资料非常全面。

  正因为这个网站有这么多的好东西,但是我又懒得一本书一本书的下载,所以,我就……用Python直接解析了几个书籍下载页面的地址,把所有的书籍的下载地址都弄到手,顺便还下载了,呵呵呵,省得一个页面一个页面的打开!

 

#!/usr/bin/env python
#coding=utf-8
#这段代码是用来下载“中医世家”网站上的书籍的,很不好意思了!
import urllib2,urllib,os
from BeautifulSoup import BeautifulSoup
#定义书籍链接列表
mainbooklink = [“http://www.zysj.com.cn/lilunshuji/1index.html”,
“http://www.zysj.com.cn/lilunshuji/5index.html”,
“http://www.zysj.com.cn/lilunshuji/20index.html”,
“http://www.zysj.com.cn/lilunshuji/25index.html”]
bookdir = [u”d://book//中医教材//”,u”d://book//中医著作//”,u”d://book//实用手册//”,
u”d://book//西医备考//”]
chmname = [] #chm电子书中文名字
chmbooklink = [] #对应chm的下载地址
#该函数实现获取一个地址后马上下载该书籍
def getbooklink(url):
#检测url地址——暂时略了!

#获取url地址的网页,并使用BeautifulSoup进行解析
page = urllib2.urlopen(url)
soup = BeautifulSoup(page)

#处理url,取得其前部地址,用以确定下面得到的地址的完全地址
#urllen = len(url)

for i in soup(‘li’):
#print i.a.string.encode(‘gb2312’),i.a[‘href’]
chmfilename = i.a.string
bookfilelink = “http://www.zysj.com.cn”+i.a[‘href’]

page = urllib2.urlopen(bookfilelink)
soup =BeautifulSoup(page)
ti = u”下载电子书:”+chmfilename+”.chm”
for k in soup(‘a’,title = ti):
chmname.append(chmfilename+’.chm’)
downlink = “http://www.zysj.com.cn”+k[‘href’]
chmbooklink.append(downlink)
print chmfilename.encode(‘gb2312′)+’.chm’,downlink
def downbook(filename,url,dirn):
#urllib.urlretrieve(url, filename)
if not os.path.exists(bookdir(dirn)):
os.makedirs(bookdir(dirn))

print “开始下载:”.decode(‘utf-8’).encode(‘gb2312’),filename.encode(‘gb2312’)
filename = bookdir[dirn]+filename
urllib.urlretrieve(url,filename)
print “下载完成!”.decode(‘utf-8’).encode(‘gb2312’)

if __name__==”__main__”:
dirn = 0
for i in mainbooklink:
getbooklink(i)
for j in range(0,len(chmname)):
downbook(chmname[j],chmbooklink[j],dirn)
chmname = []
chmbooklink = []
dirn = dirn+1

“””
这一小段代码是用来学习查找字符串里面出现的某个字符的呃位置,我把所有的位置都取出来了,接下来想怎样就能怎样了!
a =”http://www.zysj.com.cn/lilunshuji/1index.html”
b = 0
c = len(a)
while 1:
b = a.find(‘/’,b,c)
print b
b = b + 1
if b == 0:
break
“””

这段代码中缺了对空格的检测,所以好几部关于中医的字典是没有被解析出来的,只能手工下了,不多!

 

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-11-01发表,共计1917字。
新手QQ群:570568346,欢迎进群讨论 Python51学习