TorchMoji使用教程/环境配置(2024)
TorchMoji使用教程/环境配置(2024)
TorchMoji简介
这是一个基于pytorch库,用于将文本分类成不同的多种emoji表情的库,适用于文本的情感分析
配置流程
-
从Anaconda官网根据提示安装conda
-
git拉取TorchMoji
git clone https://github.com/huggingface/torchMoji.git
-
通过conda创建python2.7/python3.5虚拟环境(博主使用的是python2.7,因为python2的兼容性问题需要改两个小bug,如果使用3.5或许无需改bug)
conda create -n myenv python=2.7
-
在虚拟环境中下载pytorch0.2,参考conda 低版本环境的安装pytorch0.2 python2.7
pip install http://download.pytorch.org/whl/cu80/torch-0.2.0.post3-cp27-cp27mu-manylinux1_x86_64.whl
-
手动安装TorchMoil所需的其他所有环境
pip install scipy==1.2.3 pip install numpy==1.16.6 emoji==0.4.5 pip install builtins # python 2.7不支持,见bug1 pip install scikit-learn pip install text_unidecode
-
下载预训练的模型(bug 1)
python scripts/download_weights.py
-
运行测试命令(bug 2)
python examples/text_emojize.py --text "I love mom's cooking\!"
运行结果:
bug记录
以下记录了两个python 2.7环境中遇到的bug,请确定你也遇到了同样的问题时再进行相同的更正
bug 1
出现原因:python2 不支持builtins包
更正:对于scripts/download_weights.py
注释掉
from builtins import input
将
choice = builtins.input().lower()
改为
choice = raw_input().lower().lower()
bug 2
出现原因:python2 不支持自动解析utf-8
更正:对于examples/text_emojize.py
将
tokenized, _, _ = st.tokenize_sentences([args.text])
改为
tokenized, _, _ = st.tokenize_sentences([args.text.decode('utf-8')])