当前位置: 首页 > article >正文

基于C#实现字符串相似度

一、概念

对于两个字符串 A 和 B,通过基本的增删改将字符串 A 改成 B,或者将 B 改成 A,在改变的过程中我们使用的最少步骤称之为“编辑距离”。比如如下的字符串:我们通过种种操作,痉挛之后编辑距离为 3,不知道你看出来了没有?
image.png

二、解析

可能大家觉得有点复杂,不好理解,我们试着把这个大问题拆分掉,将"字符串 vs 字符串“,分解成”字符 vs 字符串“,再分解成”字符 vs 字符“。
<1> ”字符“vs”字符“
这种情况是最简单的了,比如”A“与”B“的编辑距离很显然是1。
<2> ”字符”vs"字符串"
”A“改成”AB“的编辑距离为1,“A”与“ABA”的编辑距离为2。
<3>“字符串”vs“字符串”
“ABA”和“BBA”的编辑距离为 1,仔细发现我们可以得出如下结论,”ABA“是由 23 个子序列与”BBA“字符串求的的编辑距离集合中取出的最小编辑距离,也就是说在这种情况下我们出现了重复计算的问题,我在求子序列”AB“和”BBA"的编辑距离时,我是由子序列”A“和”BBA“与”B“和”BBA“之间的编辑距离中选出一个最小值,然而序列 A 和序列 B 早之前我已经计算过了,这种重复计算的问题有点像”斐波那契”,正好满足“动态规划”中的最优子结构和重叠子问题,所以我们决定采用动态规划来解决。

三、公式

跟“最长公共子序列”一样,我们采用一个二维数组来保存字符串 X 和 Y 当前的位置的最小编辑距离。
现有两个序列 X={x1,x2,x3,…xi},Y={y1,y2,y3,…,yi},设一个 C[i,j]: 保存 Xi 与 Yj 的当前最小的 LD。
①: 当 Xi = Yi 时,则 C[i,j]=C[i-1,j-1];
②:当 Xi != Yi 时, 则 C[i,j]=Min{C[i-1,j-1],C[i-1,j],C[i,j-1]};
最终我们的 C[i,j]一直保存着最小的 LD。

四、代码

 using System;
 
 namespace ConsoleApplication2
 {
     public class Program
     {
         static int[,] martix;
 
         static string str1 = string.Empty;
 
         static string str2 = string.Empty;
 
         static void Main(string[] args)
         {
             while (true)
             {
                 str1 = Console.ReadLine();
 
                 str2 = Console.ReadLine();
 
                 martix = new int[str1.Length + 1, str2.Length + 1];
 
                 Console.WriteLine("字符串 {0} 和 {1} 的编辑距离为:{2}\n", str1, str2, LD());
             }
         }
 
         /// <summary>
         /// 计算字符串的编辑距离
         /// </summary>
         /// <returns></returns>
         public static int LD()
         {
             //初始化边界值(忽略计算时的边界情况)
             for (int i = 0; i <= str1.Length; i++)
             {
                 martix[i, 0] = i;
             }
 
             for (int j = 0; j <= str2.Length; j++)
             {
                 martix[0, j] = j;
             }
 
             //矩阵的 X 坐标
             for (int i = 1; i <= str1.Length; i++)
             {
                 //矩阵的 Y 坐标
                 for (int j = 1; j <= str2.Length; j++)
                 {
                     //相等情况
                     if (str1[i - 1] == str2[j - 1])
                     {
                         martix[i, j] = martix[i - 1, j - 1];
                     }
                     else
                     {
                         //取“左前方”,“上方”,“左方“的最小值
                         var temp1 = Math.Min(martix[i - 1, j], martix[i, j - 1]);
 
                         //获取最小值
                         var min = Math.Min(temp1, martix[i - 1, j - 1]);
 
                         martix[i, j] = min + 1;
                     }
                 }
             }
 
             //返回字符串的编辑距离
             return martix[str1.Length, str2.Length];
         }
     }
 }

image.png
image.png


http://www.kler.cn/news/134449.html

相关文章:

  • 【PostgreSQL】日期操作
  • 邦芒支招:求职自荐的五条技巧
  • 如何为视频添加旁白,有哪些操作技巧?
  • [Android]创建TabBar
  • IOS 关于CoreText的笔记
  • idea中误删.iml和.idea文件,如何处理
  • flink 查看写入starrocks的数据量 总行数
  • VivadoAndTcl: synth_ip
  • ASUS华硕ROG幻13笔记本电脑GV301QE原厂Windows10系统
  • 区别Vue 2.0 和 Vue 3.0
  • (六)什么是Vite——热更新时vite、webpack做了什么
  • 让资产权利归于建设者:Kiosk使过程变得更简单
  • BSN专网项目介绍:宁波市区块链新型基础设施“甬链”
  • JS实现拖拽效果(内含源码)
  • 统信UOS通过源码安装软件提示“configure: error: cannot run C compiled programs.”错误
  • Vue2基础-Vue对象进阶介绍1
  • 数字化未来:实时云渲染在智慧城市中的创新应用
  • 新生儿奶藓:原因、科普和注意事项
  • 安顿APP3.0全新升级,引领智能穿戴健康革新,专注预警疾病风险
  • 苹果怎么互传照片?简单方法总结好了!
  • LangChain 2模块化prompt template并用streamlit生成网站 实现给动物取名字
  • GO抽象工厂模式
  • linux网络——HTTPS加密原理
  • Threejs之射线拾取模型
  • 蓝桥杯 大小写转换
  • Kafka学习笔记(二)
  • ETCD中MVCC的运用
  • iOS UITableView获取到的contentSize不正确
  • 数据结构与算法之美学习笔记:21 | 哈希算法(上):如何防止数据库中的用户信息被脱库?
  • 实用技巧:在C和cURL中设置代理服务器爬取www.ifeng.com视频