网络爬虫-Python

1,056次阅读

周末没事自己写了个网络爬虫，先介绍一下它的功能，这是个小程序，主要用来抓取网页上的文章，博客等，首先找到你要抓取的文章，比如韩寒的新浪博客，进入他的文章目录，记下目录的连接比如 http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html，里面每篇文章都有个连接，我们现在需要做的就是根据每个链接进入并把文章复制到你自己的电脑文件里。这就把文章爬下来了哈哈，不说了直接来代码吧

import urllib

import time

url=[”]*50

j = 0

con = urllib.urlopen(‘http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html’).read() #目录链接

i=0

title = con.find(r'<a title=’) #找到第一次出现<a title=的位置

href = con.find(r’href=’,title) #找到<a title=之后出现href=的位置

html = con.find(r’.html’,href) #同上

while title != -1 and href != -1 and html != -1 and i<50: #目录下面大概50篇文章

url[i] = con[href + 6:html +5] #抓取每篇文章的链接

print url[i]

title = con.find(r'<a title=’,html) #循环抓取每篇文章

href = con.find(r’href=’,title)

html = con.find(r’.html’,href)

i= i+1

while j < 50:

content = urllib.urlopen(url[j]).read() #读取每个链接内的内容

#print content

filename = url[j][-26:]

open(filename,’w+’).write(content) #把内容写到你自己定义的文件下

print ‘downloading’ ,url[j]

j = j+1

time.sleep(1) #睡眠时间

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-11-01

# Python爬虫

复制链接

赏

网络爬虫-Python

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置