Python爬虫之利用Github搜索资源的小技巧

618次阅读
没有评论

Python爬虫之利用Github搜索资源的小技巧

这段时间以来,我发现大家都把Github挂在嘴上,但是不少人其实并不会用Github。具体怎么说呢,比方说实现某些简单的功能的时候,自己可能需要花2-3小时去实现,那么大家愿意自己去实现。

具体一些,比方说我以前写一个简单的爬虫采集大众点评的一些数据的时候,我可能需要花时间去了解网站结构然后写爬虫,写下来没个半天不行。但是这种网站你上Github搜索「大众点评爬虫」或者「dazhongdianping」等等关键词。你会发发现有一堆的爬虫项目,你直接拿来稍微改一下就能用了。

这个直接能节省你半天甚至一天的时间,你可以节省这一天的时间用在更有意义的事情上面,比如说做深入的挖掘分析。

我们很多搞技术的人经常会陷入所有事情都要亲自干的这种误区。但记住并不是所有事情都要亲力亲为的,有时候只是浪费时间。比你成功的人通常不会重复造轮子,而是会利用资源。

相关推荐:《Python教程》

在利用Github搜索资源的时候其实也是有一些小技巧的。也不能称之为技巧,但你往下看肯定是让你非常受益的。

1、awesome + xx

awesome这个单词表示的棒极了一类意思,如果你在Github中搜索awesome + xxxg关键词,你就能搜索这个关键词的资源大全,比方说:

awesome python

awesome go

awesome linux

你就会发现关于这些东西的学习资料真的是一大堆一大堆的。无论是书籍资源,库资源,还是学习视频、学习笔记,应有尽有。会了这个技能你再也不用到处求学习资源了。

Python爬虫之利用Github搜索资源的小技巧

2、功能 + 网站

我在上面举了个例子。比方说当你想采集某个网站的时候,你可以在Github里面搜「网站名称 +Scrapy」,如果搜不到可以搜「网站名称+采集」,还可以搜「网站名称+Python」等等。

如果你想做一个仿大众点评的App,那么你在Github上搜「仿大众点评」,你就能快速找到别人做的一个大众点评项目,拿来几乎可以直接用了,想一想这节省了你多少时间?

有时候你找不到,可能仅仅是你关键词弄得不对,记得换一换关键词,比如说英文搜索,拼音搜索,大多时候就能搜到了。

3、接口

大家在开发调用一些数据接口查询的时候,个人开发者一般来说都有一些调用的限制,必须要成为企业或者付费才能调高这些限制。

比如说百度的地图的路线规划API,普通开发者的Key一天只能调用2000次,而且并发只有20次,这个数量肯定不够,但是我们个人开发者又不愿意花钱去搞这件事情,怎么办呢?

Python爬虫之利用Github搜索资源的小技巧

我们看到这个接口调用是这样调用的,只要在最后写上开发者的AK就行了,所以我们把这个网址中不是自定义的内容直接拿到Github里面搜就可以了。全是你想要的东西。

Python爬虫之利用Github搜索资源的小技巧

其实类似的操作很多的,比方说搜数据库的密码。你想想在开发的过程中哪些东西是约定俗成不会变的,你在GitHub中就能搜索到了。当然并没有让你去干坏事撒。

类似的小技巧其实挺多的,Github其实真是一个藏宝的地方,关键是你会不会用。要会发挥想象力,多想多动手,千万不要不想只动手。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:wuyou2019-11-11发表,共计1228字。
新手QQ群:570568346,欢迎进群讨论 Python51学习
评论(没有评论)