python之网络爬虫篇

533次阅读
没有评论
python之网络爬虫篇

背景:

  • 几乎每一个网站都有一个名为robots.txt的文档,例如www.taobao.com/robots.txt,用于判断是否禁止访客获取数据。可以直接在IE或chrome输入https://www.***.***/robots.txt,即可查看其内容。
  • 一般的网页由三部分组成:HTML(相当于人体的骨架),CSS(层叠样式表,定义了网页元素的颜色、样式等),Jscript(脚本语言,表示人的技能,实现与客户交互)
  • 网络爬虫原理:通过requests库的get/post方式,来获取网页内容。
  • 操作:

    (1)在pycharm中安装requests包:File->setting->project interpreter->+,安装requests包

    (2) get方法如下:

    import requests

    url = 'http://www.***.com/'

    html = requests.get(url)

    print(html.text)

    (3)如果用的post方法,因为其返回的往往是动态数据(数据返回格式是jason),需要传递一定的参数(如登录名或查询关键字等),因此需要先用浏览器的“开发者模式”(IE用快捷键F12),查看URL及request methods.

    import requests import json response = requests.post(url, data=payload) content = json.loads(reponse.text) print(content)

    对于json格式数据,可以用beautiful soup库进行分析。json数据格式类似于字典,是由key和data组成的数据对。

    神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

    相关文章:

    版权声明:Python教程2022-10-24发表,共计709字。
    新手QQ群:570568346,欢迎进群讨论 Python51学习