中文短句相似度匹配方法？

标准问句：延安路11号
语句一：延安路11号1单元101室
语句二：北京市延安路13号
语句二：上海黄浦区延安东路11号
如何计算标准问句与下面各个语句之前的相似度，并且匹配到最相似的一句？（最好能用python实现）

推荐答案 2020-06-08

一、原始落后的VSM
网上搜索关键词“短文本相似度”，出来的结果基本上都是以BOW（Bag of words）的VSM方案，大致流程如下：

分词 —> 提取关键词 —> 计算tf或if-idf，以向量的形式替换原文本 —> 文本相似度的问题转变为计算向量相似度
一开始这样的一个思路，很清晰明了，而且网上相应的资料也很多，然后就开搞吧。

1、把所有短文本去掉标点符号，用jieba分词分好词，去除停用词，得到分好的文本；

2、按一定规则抽取特征词汇，作为后期向量的每一维；

3、用sklearn库中的原生方法CountVectorizer、TfidfVectorizer等得到矩阵；

4、每个短文本计算对应得到的向量，采用K-Means聚类的方法进行非监督学习。

文本分类的大致思路基本上就如上所述，具体的细节调整就视实际情况而定。然而，想法是美好的，现实是残酷的，全部分好词的文本，抽取的特征词较多，即向量的维度较大，且向量是稀疏的，在使用K-Means时，会出现有个别cluster下的文本数量特别大；

温馨提示：答案为网友推荐，仅供参考

当前网址：http://33.wendadaohang.com/zd/R0RR445WPWWP0RWdRBW.html

其他回答

第1个回答 2020-06-08

描写春节的词语。
喜气洋洋，万事如意。恭喜发财。一帆风顺。

第2个回答 2020-06-08

中国电锯相似的匹配方法，按照上面一个设定直接去做，我觉

第3个回答 2020-06-08

中文短句相似度匹配方法，他的匹配方法是很多的

第4个回答 2020-06-08

中文短句相似度的匹配方法有很多。

1 2 下一页

相似回答

我用万方检测百分之五相似度,如果中国知网检测会在百分之10以下吗?答：亲，实话说，5%的相似度有点低了，只能证明你的论文是自说自话，较少借鉴学界现有成果。控制在15%——25%吧。在中国知网不会超过10%。况且，万方的服务便宜些，大部分学校的检测都用万方，很多图书馆的查新也喜欢用万方。参考资料：切身经历 ...

论文查重方法有哪些?答：1、常规法 常规法是直接利用检索系统（数据库）查找文献信息的方法。它是文献检索中最常用的一种方法，又分为顺查法、倒查法和抽查法。（1）顺查法是按照时间的顺序，由远及近地利用检索系统进行文献信息检索的方法。一般用于重大课题和各学科发展史以及新兴学科等方面的研究课题的系统检索。例如，已知...

论文降重最有效的方法答：论文降重最有效的方法：一、分段格式，论文查重系统直接地对比整篇文章，如果大段引用不分段，重复率当然极高。如果能够划分小段落，增加自己的意见和见解，很可能找不到几十个字的小段落重复，查重效果会有大不相同。二、参考纸质书籍，现在大部分论文查重系统数据库是期刊杂志论文和互联网文文献数据库，...

大家正在搜

相似度匹配算法匹配相似度动作相似度匹配人脸匹配相似度相似性匹配算法相似匹配相似的数据怎么匹配友谊的句子唯美超短句友谊唯美短句八个字