爬虫技术和其涉及伦理问题讨论
今天的作业主要是探讨三个问题:
1. 爬虫技术涉及到伦理问题有哪些?
2. 作为一个IT技术人员,应怎么看待爬虫技术的使用?
3. 提出自己对爬虫技术在伦理规则方面发展的几点看法。
既然说到爬虫技术的伦理问题,那首先就要介绍一下什么是爬虫技术:
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
简而言之,爬虫技术就是从互联网上爬取需要的信息,需要的数据,这看似是一项非常方便的大数据技术,但是如果我们深思一下,其中涉及了不少的伦理问题,从老师给的链接中,我们可以看到几条信息,“
1、利用爬虫技术,从购物网站爬取店家手机号用于营销;借助软件,通过微信附近的人,进行“站街”钓鱼营销……8月20日,新京报对郑州共赢科技有限公司的“鹰眼智客”大数据营销系统进行曝光。8月23日,当地相关政府工作人员表示,辖区办事处已和警方对接,警方正在对其介入调查。该公司相关负责人称,“将积极配合有关部门调查。””
2、此前,“大数据行业第一股”数据堂(831428.OC)员工贩卖公民信息案轰动全国,这家公司在过去8个月内,日均传输公民个人信息超过1.3亿条,累计传输数据压缩后达4000GB左右。之后,又有巧达科技被爆出贩卖8亿份个人简历……
3、新华每日电讯记者调查发现,近5年,互联网行业中用户生产内容平台(UGC)中数据造假情况长期存在,尤其是网络“爬虫”技术的非法操作不仅侵犯相关平台知识产权和消费者合法权益,还可导致平台上的用户敏感信息泄露。
是的,我们可以看到,本来是为了带给人们方便的技术,已经有很多不法企业或者个人,利用技术的便利,去做一些灰色的,侵犯人们隐私的活动,这些数据被用来贩卖,作假,甚至用来犯罪,所以这些不法分子违规利用爬虫技术,不仅破坏了个人隐私权,损害了公共的利益,甚至损害了他人的数字财产权,这些都是爬虫技术所涉及的伦理问题。
那作为一名IT从业者,我们又该如何看待爬虫技术呢,首先我认为如果不用在灰色地带,爬虫是个非常好的技术,合理的使用爬虫技术,我们确实可以获得更多的数据便捷,方便我们的各方面生活,也让一些事情变得非常方便比如网络数据采集,大数据分析,网页分析等,有了爬虫技术,我们在做上述各个领域时,也变得方便和顺手了起来,但是作为IT从业者我们一定要有自己的道德操守,把握伦理道德观,不去利用技术做有危害社会,危害他人隐私的行为。
其次在爬虫技术的发展上,我希望国家或者有关部门,能严格监管,在目前的中国,数字犯罪领域,相关的法律和监管可能还不是那么的严苛,使得各个不法企业不法个人钻空子,利用漏洞来获取自己的利益,同时希望各个IT企业能有自己的道德操守,滥用技术,将爬虫用成“臭虫”,最后技术问题可能还是需要技术来解决,有明便有暗,可能有些事情我们是永远无法杜绝的,那就要发展技术保护我们的个人隐私,比如“数据加密”“多方安全计算”等研究领域,我们也要多多去投入研究,使得更多的技术可以来保护我们的隐私不受侵犯
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试