爬行不同的网页时,返回结果会出现乱码现象。例如,在爬行某一中文网页时,有些网页使用GBK/GB2312,有些网页使用UTF8,如果你需要爬行某一网页,了解网页编码非常重要。
说明
HTML页面上有charset标签,但有时它是错误的,因此chardet可以帮助我们。使用chardet可以方便地实现字符串/文件的编码检测。
1、如果安装了Anaconda,可以直接使用chardet。
2、如果只安装了Python,使用安装命令pip install chardet,并导入chardet库。
安装命令
pip install chardet
使用下面这行代码,导入chardet库。
import chardet
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试