【聊聊AI编程必不可少的NLTK及其punkt、punkt_tab安装】
聊聊AI编程必不可少的NLTK及其punkt、punkt_tab安装
- 前言
- 一、NLTK是什么?
- 二、安装NLTK
- 1.通过cmd安装:
- 2.通过conda安装:
- 三.下载NLTK Data数据包
- 1.官网下载
- 2.Github下载
- 3.Gitee下载
- 3.1 下载并安装nltk_data
- 3.2 下载并安装punkt_tab
- 4. nltk_data其它资源下载
前言
随着人工智能的不断发展,大模型应用开发越来越重要,在大模型应用开发过程中免不了使用到NLTK,本文主要介绍如何解决大模型应用开发过程中使用NLTK时遇到的各种问题。
一、NLTK是什么?
Natural Language Toolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库。
百度百科
NLTK
二、安装NLTK
参考官网
1.通过cmd安装:
pip install nltk
2.通过conda安装:
三.下载NLTK Data数据包
1.官网下载
官网下载NLTK官网,由于网络原因基本无法下载成功。
import nltk
nltk.download()
2.Github下载
下载地址:Github下载由于网络原因基本无法下载成功。
3.Gitee下载
3.1 下载并安装nltk_data
- 下载地址:Gitee下载
点击上方链接,进入到如下界面: - 点击 克隆/下载 -> 下载ZIP :下载nltk_data-gh-pages.zip文件
- 解压nltk_data-gh-pages.zip,
我们要的就是其中packages文件夹
- 寻找Searched in路径
import nltk
nltk.find('.')
5. 将第3步中解决得到的packages文件夹重命名为nltk_data复制到上述第4步中任一目录下
我这里选择C:\Users\iceli.conda\envs\python39\nltk_data目录
6. 验证
from nltk.book import *
3.2 下载并安装punkt_tab
nltk_data虽然离线安装成功了,但是在具体使用过程中可能还出现异常:Resource punkt_tab not found.
主要是确保nltk_data-gh-pages.zip包nltk_data-gh-pages\packages\tokenizers
路径下包含punkt.zip及punkt_tab.zip文件
没有punkt、punkt_tab包报如下错误:
有punkt.zip及punkt_tab.zip文件但没解压,报错如下:
解压后,终于能起飞了:
解压后如果还不正常,请检测解压后的目录是否正确,不要出现重复目录的情况,如:nltk_data\tokenizers\punkt\punkt
,多了一层目录punkt
这样才是正确的:
4. nltk_data其它资源下载
目前除上述外,暂未涉及到其它资源,如有需要,确保网络通畅的情况下,可以到官网下载nltk_data资源下载