基于切词和语义的中文相似度研究与应用

被引量 : 0次 | 上传用户：xiangxuehai0726

【摘要】

：

在自然语言处理中,相似度的问题是一个被广泛研究和讨论的具有重要价值的研究内容。中文相似度的研究是通过将语言学、统计学、社会学和计算机科学相结合,来达到计算各种结构

【作者】

：

裴运亮

【发表日期】

：

2011年期

【关键词】

：

《知网》语义词语相似度语义串语句相似度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在自然语言处理中,相似度的问题是一个被广泛研究和讨论的具有重要价值的研究内容。中文相似度的研究是通过将语言学、统计学、社会学和计算机科学相结合,来达到计算各种结构类型的中文文本相似度。由于在中文没有自然的分割符,所以中文相似度研究的前提是中文自动切词。经过多年的研究探索,已有效果很好的中文切词系统,如本文使用的ICTCLAS系统。目前的各类相似度研究方法大致上有:基于统计模型的算法、基于规则的算法和基于知识网络系统的算法这三类。各类算法优缺点不一,然而由于前两类没有直接的考虑相似度中关键的语义相似这一因素而不如后一类效果良好,因此本文也采用基于知识网络系统的相似度算法来对词语和语句的相似度进行研究。本文在研究总结前人的工作基础上,作了如下工作内容:1、本文首先在对语义网络《知网》及义原相似度研究的基础上,针对目前基于《知网》的语义相似度算法的问题以及重新考虑了义原的属性后,提出了新的义原相似度的计算方法。在《知网》以及对目前的词语相似度算法的研究基础上提出了新的词语相似度算法。通过对词语的共现性的研究,认为词语间的共现性也是对词语相似度的一种反映,因此将词语的共现性引入词语相似度的计算中,对本文提出的词语相似度的计算公式做了修正。2、针对《知网》无法解决的未登录词相似度计算问题,本文通过切词系统及最大匹配算法将其转化为《知网》中的登录词,进而提出了基于《知网》的未登录词相似度算法。3、在词语相似度的研究基础上以及中文切词系统下,针对目前已有的语句相似度算法,提出了连续多个具有高相似度值的词语词序列对语句的相似度贡献大于其他词语的贡献,且这种连续性在语义上具有承接的作用这一观点,给出了语义串的概念以及其定义。在语义串概念的基础上,通过衡量语义串在语句相似度中的权值,给出了语句相似度计算公式。4、在词语和语句相似度的基础上,本文使用基于空间向量模型的篇章相似度计算算法设计并实现了全文检索系统。

其他文献

四川西部山区民族聚落生态分区研究

作为人类社会的一个缩影和一种典型的文化景观,聚落总是在一定的自然环境条件和历史背景下产生和发展,即聚落的发展或聚落生态系统的演化(演替)离不开特定的环境条件和历史背

会议

四川山区民族聚落分区

应激对胃肠道屏障功能影响的研究进展

动物的胃肠道是机体和外部环境之间最大的屏障,由物理屏障、化学屏障、免疫屏障和微生物屏障组成。胃肠道屏障的完整性对动物的健康起着至关重要的作用,许多类型的应激都会影

期刊

胃肠道屏障紧密连接应激

区域活动中教师的作用

<正>区域活动是我们幼儿园现在普遍采取的一种教育活动形式,也是幼儿非常喜欢的活动。那么,如何使区域活动真正成为幼儿自由选择、自发探索、自主活动的一扇门呢?在实际工作

会议

初中历史教学中如何培养学生的学习兴趣

兴趣是学生进行知识获取和探究的原始动力,也是学生学习的最强动力。然而,在以往的初中历史教学中,教师将历史教学内容划分为几大模块:必考知识点、重要知识点、常考知识点、

期刊

历史教学学习兴趣教学方式教学内容教学互动

轧机伺服液压缸测试系统加载机架性能研究

在轧机AGC伺服液压缸性能测试系统中,闭式加载机架是重要元件之一。机架起到加载和安装伺服液压缸以及其他部件的作用。机架应该有足够的强度和刚度,并且在轧机伺服液压缸动

学位

轧机伺服液压缸测试加载机架有限元静态分析动态分析

环形打孔铣平面机的结构设计研究

组合机床是一种专门适用于特定零件和特定工序加工的机床,是组成自动化生产线不可缺少的机床品种。工业生产中对大型回转盘、环梁等工件的钻孔与铣削,普通机床的加工难度比较

学位

环形打孔铣平面组合机床有限元分析ANSYS精度分析

激光加工多孔端面液体密封的数值分析

激光加工多孔端面机械密封(LST-MS)是一种新型的流体动压型机械密封,它依靠端面微孔产生的流体动压效应实现非接触运转,与普通机械密封相比可以有效地降低摩擦磨损和端面温升

学位

机械密封激光加工多孔端面液体润滑有限元法

“评价课”撑起学生自信的天空

小学生综合素质评价工作是班主任工作中的一项重要内容,评价不仅包含着对学生当前状态的判断,更重要的是帮助和引领学生找到未来发展的方向和路径。我校"依托综合素质评价,培

会议

综合素质评价自信心

我选择保住外汇储备,而不是人民币汇率

<正>保存三万多亿外汇储备比防止人民币贬值10个或20个百分点重要得多。我们应该尽快做决定,不要今年再失去五千亿。人民币为何出现贬值?从根本上来讲,是经济基础面发生了变

期刊

人民币汇率人民币贬值外汇储备经常项目顺差

领导转型：校长领导伦理的寻求与建构

校长在很多方面是学校场域中最重要、最有影响力的人,校长的有效领导是学校走向成功的关键,那么,校长何以实现有效领导呢？本文以思辨研究的方式,遵循理论梳理与分析—实践考察

学位

校长领导转型领导伦理

基于切词和语义的中文相似度研究与应用

与本文相关的学术论文