当前位置: 首页 > article >正文

C# 使用PanGu分词

写在前面

这是官方介绍:盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件,拥有大量用户。作者基于之前分词组件的开发经验,结合最新的开发技术重新编写了盘古分词组件。

盘古分词组件需要配合其字典文件使用,该组件提供了多重输出解决分词粒度和分词精度权衡的问题,可配合Lucene.net一起使用实现精准的全文检索功能。还支持中文词性的识别,当然也支持英文分割。

可通过NuGet获取组件

代码实现

 using PanGu;

    public static class SplitWordMgr
    {

        /// <summary>
        /// 分词
        /// </summary>
        public static List<string> SplitContent(string word)
        {
            var seg = new Segment();
            ICollection<WordInfo> splitWords = seg.DoSegment(word);
            var words = new List<string>();
            for (int i = 0; i < splitWords.Count; i++)
            {
                words.Add(splitWords.ElementAt(i).Word);
            }
            return words;
        }

    }

 

资源及说明

链接:https://pan.baidu.com/s/1zTHOX5ioTPxQEO2CEhfXlg 
提取码:llos 

请将资源压缩包里的Dictionaries文件夹改名为Dict后,复制到项目的bin目录下。


http://www.kler.cn/a/153518.html

相关文章:

  • 使用MD5当做文件的唯一标识,这样安全么?
  • Redis 基本命令—— 超详细操作演示!!!
  • 【算法刷题】Day9
  • 使用visual Studio MFC 平台实现对灰度图添加椒盐噪声,并进行均值滤波与中值滤波
  • 快速筛出EXCEL行中的重复项
  • [NOIP2002 普及组] 过河卒
  • 数据结构—二叉树
  • python+pytest接口自动化(2)-HTTP协议基础
  • Selenium+Python自动化测试之验证码处理
  • CentOS 7 配置tomcat
  • 兼容jlink OB arm仿真器使用(杜邦线过长导致烧写总是失败)
  • 五、关闭三台虚拟机的防火墙和Selinux
  • Tomcat 漏洞修复
  • LC.1094. 拼车(差分)
  • 面试篇spark(spark core,spark sql,spark 优化)
  • 前端学习笔记
  • CSS 多主题切换思路
  • Redis主从复制实现RCE
  • IP地理定位技术的服务内容详解
  • Python发送微信模板消息