当前位置：首页 > article >正文

用Python爬虫制作一个简易翻译器

article 2025/2/28 20:19:38

我们通常是通过requests+BS4的方法来获取网页内容，这种方法导入模块较多，速度相对有点儿慢，此时我们可以用requests的post方法向指定服务器发送请求，获取数据后格式化为json，然后获取相关键值。这种方法用到了requests和json两个模块，通过headers进行伪装。

一、获取网页翻译源码

import requests

# 定义请求的 URL 和数据
url = 'https://fanyi.so.com/index/search'
data = {'eng': '1', 'validate': '', 'ignore_trans': '0', 'query': 'as well'}
# 伪装
headers = {
    'useragent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Mobile Safari/537.36 Edg/128.0.0.0',
    'pro': 'fanyi'
}

# 发送 POST 请求并获取响应
response = requests.post(url=url, headers=headers, data=data).json()

# 提取翻译文本
translated_text = response['data']['fanyi']
print(translated_text)

二、代码解读

1. URL 和请求数据：请求的目标 URL 是 http://fanyi.so.com，用于查询翻译结果。请求数据中，query 是我们需要翻译的文本，这里设定为 "as well"。

2. 请求头：通过 headers 指定浏览器标识，模拟真实用户访问。这样可以避免请求被认为是机器人访问而被拦截。

3. POST 请求：使用 requests.post() 发送 POST 请求，并将服务器返回的 JSON 响应转换为字典。

4. 提取翻译：响应数据的 data['fanyi'] 字段包含了翻译后的文本。代码最后将该翻译结果输出。

三、优化代码

上面的代码有几个问题1.不是连续提问，2. 只能英译汉，3. 没有列出音标。于是，我们根据需求又对上述代码进行更新。增加while循环，可以连续提问题；同时判断翻译后的结果和要翻译的内容是否一致，如果一致说明语言设置那里有误就进行更改eng为2；同时加入try...except，增加获取单词音标phonetic。于时，我们就得到下面的代码：

import requests,json

url = 'https://fanyi.so.com/index/search'

headers = {'useragent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Mobile Safari/537.36 Edg/128.0.0.0',
               'pro':'fanyi'}

while True:
    word = input("请输入单词:")
    data = {'eng':'1',
            'validate':'',
            'ignore_trans':'0',
            'query': word,
        }
    JSON = requests.post(url=url,headers=headers,data=data).json()
    meaning = JSON['data']['fanyi']
    if meaning == word: #判断译文和原文是否一致
        data = {'eng':'2',
        'validate':'',
        'ignore_trans':'0',
        'query': word,
    }
        JSON = requests.post(url=url,headers=headers,data=data).json()   
    meaning = JSON['data']['fanyi']    
    try:
        phonetic = JSON['data']['explain']['phonetic']['英']
    except:
        phonetic = ""
    print(word,phonetic,meaning)

代码运行结果显示结果如下：