爬虫系列(四) 用urllib实现英语翻译

611次阅读

没有评论

这篇文章我们将以百度翻译为例，分析网络请求的过程，然后使用 urllib 编写一个英语翻译的小模块

首先使用 Chrome 浏览器打开百度翻译，然后选择 Chrome 浏览器自带的开发者工具对网站进行抓包分析

爬虫系列(四)

打开 Network 选项卡进行监控，并选择 XHR 作为 Filter 进行过滤

然后，我们在输入框中输入待翻译的文字进行测试，可以看到列表中出现三个数据包

分别是 sug、v2transapi 和 langdetect，下面我们一个一个进行分析

爬虫系列(四)

① 打开 sug 数据包的 Preview 选项卡查看响应结果，太棒了，里面有我们需要的翻译结果

爬虫系列(四)

② 然后，我们可以打开 sug 数据包的 Headers 选项卡分析请求数据，使用程序模拟发送请求，基本信息如下：

General：基本参数
- Request URL : https://fanyi.baidu.com/sug —— 请求网址
- Request Method : POST —— 请求方法，POST 请求方法的请求参数放在 Form Data 中
Request Headers：请求头部
- User-Agent : Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36 —— 用户代理
Form Data：表单数据
- kw : 你好 —— 翻译的内容

③ 下面祭上完整的代码

import urllib.request import urllib.parse import json

def translate(text): # 参数检验 if not text: return 'None' # 请求网址 url = "https://fanyi.baidu.com/sug" # 表单数据 params = { 'kw':text } data = urllib.parse.urlencode(params).encode('utf-8') # 请求头部 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36' } # 构造请求对象 req = urllib.request.Request(url=url,data=data,headers=headers) # 发送请求，获得响应 response = urllib.request.urlopen(req) # 解析数据 content = json.loads(response.read().decode('utf-8')) if content['errno'] == 0: # 一切正常 result = content['data'][0]['v'] else: # 发生错误 result = 'Error' # 返回结果 return result

if __name__ == "__main__": while True : text = input('翻译内容：') result = translate(text) print("翻译结果：%s" % result)

OK，一切完美解决！

等等，真的就这样结束了吗？

爬虫系列(四)

可以看到，上面的代码虽然可以完美翻译中文和英文，但是却不能翻译句子！

这可怎么办呀？别急，不是还有两个数据包没有分析嘛，再看看还有没有其它办法吧

① 打开 v2transapi 数据包的 Preview 选项卡查看响应结果，这里面竟然也有我们需要的翻译结果

爬虫系列(四)

② 接下来，我们还是打开 v2transapi 数据包的 Headers 选项卡查看请求数据，其基本信息如下：

General：基本参数
- Request URL : https://fanyi.baidu.com/v2transapi —— 请求网址
- Request Method : POST —— 请求方法，POST 请求方法的请求参数放在 Form Data 中
Request Headers：请求头部
- User-Agent : Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36 —— 用户代理
Form Data：表单数据
- query : 你好 —— 翻译的内容
- from : zh —— 翻译内容的语言类型，zh 代表中文，设置为 auto 可自动检测
- to : en —— 翻译结果的语言类型，en 代表英文，设置为 auto 可自动检测
- sign 和 token：加密参数

唉，只想简简单单爬个翻译，竟然还要涉及密码破解，没办法，只好请教百度了

一查才知道，原来百度翻译有一个公开的 API，根本就不需要涉及加密解密

只需要把上面的请求地址改成 https://fanyi.baidu.com/transapi 就可以了

③ 下面同样祭上完整的代码，其实和上面的十分类似

import urllib.request import urllib.parse import json

def translate(text): # 参数检验 if not text: return 'None' # 请求网址 url = "https://fanyi.baidu.com/transapi" # 表单数据 params = { 'query':text, 'from':'auto', 'to':'auto' } data = urllib.parse.urlencode(params).encode('utf-8') # 请求头部 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36' } # 构造请求对象 req = urllib.request.Request(url=url,data=data,headers=headers) # 发送请求，获得响应 response = urllib.request.urlopen(req) # 解析数据 content = json.loads(response.read().decode('utf-8')) result = content['data'][0]['dst'] # 返回结果 return result

if __name__ == "__main__": while True : text = input('翻译内容：') result = translate(text) print("翻译结果：%s" % result)

下面我们来看看效果如何？

爬虫系列(四)

嗯，效果还可以，终于也能够翻译句子了！

有道翻译的爬取和百度翻译的十分类似，这里也顺便提及一下

爬虫系列(四)

我们还是先来打开数据包的 Headers 选项卡查看请求数据，其基本信息如下：

General：基本参数
- Request URL : http://fanyi.youdao.com/translate_o —— 请求网址
- Request Method : POST —— 请求方法，POST 请求方法的请求参数放在 Form Data 中
Request Headers：请求头部
- User-Agent : Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36 —— 用户代理
Form Data：表单数据
- i: 你好 —— 翻译的内容
- doctype : json —— 数据类型，指定为 JSON
- from : AUTO —— 翻译内容的语言类型，自动检测
- to : AUTO —— 翻译结果的语言类型，自动检测
- sign 和 salt：加密参数

和百度翻译的很类似，都设置了加密参数，怎么办？也和百度翻译类似，修改一下请求地址就好

话不多说，直接放代码：

import urllib.request import urllib.parse import json

def translate(text): # 参数检验 if not text: return 'None' # 请求网址 url = "https://fanyi.youdao.com/translate" # 表单数据 params = { 'i':text, 'doctype':'json', 'from':'AUTO', 'to':'AUTO' } data = urllib.parse.urlencode(params).encode('utf-8') # 请求头部 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36' } # 构造请求对象 req = urllib.request.Request(url=url,data=data,headers=headers) # 发送请求，获得响应 response = urllib.request.urlopen(req) # 解析数据 content = json.loads(response.read().decode('utf-8')) if content['errorCode'] == 0: # 一切正常 result_tup = (item['tgt'] for item in content['translateResult'][0]) result = ''.join(result_tup) else: # 发生错误 result = 'Error' # 返回结果 return result

if __name__ == "__main__": while True : text = input('翻译内容：') result = translate(text) print("翻译结果：%s" % result)

效果演示：

爬虫系列(四)

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-24

# Python爬虫

复制链接

赏

爬虫系列(四) 用urllib实现英语翻译

1、准备工作

2、抓包分析

（1）分析 sug 数据包

（2）分析 v2transapi 数据包

3、相关拓展

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

HTTP代理设置详解：一步步配置指南

如何找到可靠的免费代理服务器

静态代理IP怎么填写：步骤与示例

国外代理服务器的优势及选择建议

海外静态IP的代理选择与配置

什么是Socks5代理IP及其优势

动态与静态代理IP的区别解析

什么是代理服务器IP：如何选择合适的

在线代理服务器的使用与推荐

Socks5代理配置教程及注意事项