本次参加Python从小白逆袭成大神这门课程感受很深,原来对Python语言的了解并不多,只是会偶尔运用其参加一些比赛,比如结合EasyDL等等;第一天学习了python的基础知识: Python 是一种解释型、面向对象、动态数据类型的高级程序设计语言;讲了一些语法以及发展趋势,结合实战例子进行讲解;后面也学习的是Python爬取图片信息以及数据分析,用《青春有你2》举例并完成作业。
百度通过实例进行讲解Python,让我更加明白自己的问题在哪里,并解决自己的误区;我在代码过程中添加了很多对Python的新的理解,对编程这个大集合的更深层的理解。我也慢慢对这些有了自己的见解:网上的任何东西都可以看成资源,一个网站可能就是一段html+css,一张图片可能就是某个地址下的XXX.jpg文件,无数的网络资源存放在互联网上,人们通过地址(URL,统一资源定位符)来访问这些资源,大致过程如下:
用户在浏览器中输入访问地址,浏览器向服务器发送HTTP(或者HTTPS)请求(其中请求资源常用get请求,提交数据常用post请求,post也可做数据请求)。服务器接收到了这些请求之后找到对应的资源返回给浏览器,再经过浏览器的解析,最终呈现在用户面前。
当如今网络资源越来越多,我们已经眼花缭乱,没有办法一条一条去寻找总结,这时候爬虫凸显了自己的价值;其实本质上来说爬虫就是一段程序代码。任何程序语言都可以做爬虫,只是繁简程度不同而已。从定义上来说,爬虫就是模拟用户自动浏览并且保存网络数据的程序,当然,大部分的爬虫都是爬取网页信息(文本,图片,媒体流),大量的用户访问请求可以视为对服务器的攻击,这时候就要采取一些反爬机制来及时阻止人们的不知道是善意的还是恶意的大量访问请求。
网站爬取过程中我们会碰到以下几种情况:1.直接加载资源无处理 2.使用ajax异步加载3.带参数验证的加载4.cookie验证5.登录验证6.js加密
第一种无需解释,第二种是用户访问过程中异步向服务器发送请求会给筛选爬取数据增加难度,第三种是参数验证例例如时间戳,ip等,第四种是追踪验证用户的本地数据,第五种是身份验证,第六种是加载后对数据进行加密操作增加爬取难度。
在今后的学习中,我一定会更加努力,继续学习python,加油!
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试