当前位置：首页 > article >正文

Spacy小笔记：zh_core_web_trf、zh_core_web_lg、zh_core_web_md 和 zh_core_web_sm区别

article 2025/2/9 2:19:16

Spacy小笔记

最近频繁用到spacy，就小记一下。
2024.11.29

首先，它们都是预训练的中文模型：

zh_core_web_trf:395M
架构: 基于 Transformer 架构（bert-base-chinese）。
大小: 较大，通常在几十到几百 MB 之间。
性能: 最高，尤其在复杂的自然语言处理任务上表现优秀，如命名实体识别、依存关系解析等。
资源需求: 需要较多的计算资源和时间来加载和运行。
适用场景: 需要最高准确性的复杂任务，如情感分析、机器翻译等。
zh_core_web_lg:575M
架构: 基于传统的统计方法。
大小: 较大，通常在几十 MB 到 100 MB 之间。
性能: 较好，适用于大多数常见的自然语言处理任务。
资源需求: 需要的计算资源比 trf 模型少，但比 md 模型多。
适用场景: 一般用途的任务，如文本分类、实体识别等。
zh_core_web_md:74M
架构: 基于传统的统计方法。
大小: 中等，通常在几十 MB 之间。
性能: 适中，适用于大多数常见的自然语言处理任务。
资源需求: 需要的计算资源较少，适合资源受限的环境。
适用场景: 一般用途的任务，如文本分类、实体识别等。
zh_core_web_sm:46M
架构: 基于传统的统计方法。
大小: 较小，通常在几 MB 到十几 MB 之间。
性能: 较低，但在某些简单任务上仍然有效。
资源需求: 需要的计算资源最少，适合资源非常有限的环境。
适用场景: 简单的任务，如基本的分词、词性标注等。