基于切词和语义的中文相似度研究与应用

被引量 : 0次 | 上传用户:xiangxuehai0726
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理中,相似度的问题是一个被广泛研究和讨论的具有重要价值的研究内容。中文相似度的研究是通过将语言学、统计学、社会学和计算机科学相结合,来达到计算各种结构类型的中文文本相似度。由于在中文没有自然的分割符,所以中文相似度研究的前提是中文自动切词。经过多年的研究探索,已有效果很好的中文切词系统,如本文使用的ICTCLAS系统。目前的各类相似度研究方法大致上有:基于统计模型的算法、基于规则的算法和基于知识网络系统的算法这三类。各类算法优缺点不一,然而由于前两类没有直接的考虑相似度中关键的语义相似这一因素而不如后一类效果良好,因此本文也采用基于知识网络系统的相似度算法来对词语和语句的相似度进行研究。本文在研究总结前人的工作基础上,作了如下工作内容:1、本文首先在对语义网络《知网》及义原相似度研究的基础上,针对目前基于《知网》的语义相似度算法的问题以及重新考虑了义原的属性后,提出了新的义原相似度的计算方法。在《知网》以及对目前的词语相似度算法的研究基础上提出了新的词语相似度算法。通过对词语的共现性的研究,认为词语间的共现性也是对词语相似度的一种反映,因此将词语的共现性引入词语相似度的计算中,对本文提出的词语相似度的计算公式做了修正。2、针对《知网》无法解决的未登录词相似度计算问题,本文通过切词系统及最大匹配算法将其转化为《知网》中的登录词,进而提出了基于《知网》的未登录词相似度算法。3、在词语相似度的研究基础上以及中文切词系统下,针对目前已有的语句相似度算法,提出了连续多个具有高相似度值的词语词序列对语句的相似度贡献大于其他词语的贡献,且这种连续性在语义上具有承接的作用这一观点,给出了语义串的概念以及其定义。在语义串概念的基础上,通过衡量语义串在语句相似度中的权值,给出了语句相似度计算公式。4、在词语和语句相似度的基础上,本文使用基于空间向量模型的篇章相似度计算算法设计并实现了全文检索系统。
其他文献
作为人类社会的一个缩影和一种典型的文化景观,聚落总是在一定的自然环境条件和历史背景下产生和发展,即聚落的发展或聚落生态系统的演化(演替)离不开特定的环境条件和历史背
动物的胃肠道是机体和外部环境之间最大的屏障,由物理屏障、化学屏障、免疫屏障和微生物屏障组成。胃肠道屏障的完整性对动物的健康起着至关重要的作用,许多类型的应激都会影
<正>区域活动是我们幼儿园现在普遍采取的一种教育活动形式,也是幼儿非常喜欢的活动。那么,如何使区域活动真正成为幼儿自由选择、自发探索、自主活动的一扇门呢?在实际工作
会议
兴趣是学生进行知识获取和探究的原始动力,也是学生学习的最强动力。然而,在以往的初中历史教学中,教师将历史教学内容划分为几大模块:必考知识点、重要知识点、常考知识点、
在轧机AGC伺服液压缸性能测试系统中,闭式加载机架是重要元件之一。机架起到加载和安装伺服液压缸以及其他部件的作用。机架应该有足够的强度和刚度,并且在轧机伺服液压缸动
组合机床是一种专门适用于特定零件和特定工序加工的机床,是组成自动化生产线不可缺少的机床品种。工业生产中对大型回转盘、环梁等工件的钻孔与铣削,普通机床的加工难度比较
激光加工多孔端面机械密封(LST-MS)是一种新型的流体动压型机械密封,它依靠端面微孔产生的流体动压效应实现非接触运转,与普通机械密封相比可以有效地降低摩擦磨损和端面温升
小学生综合素质评价工作是班主任工作中的一项重要内容,评价不仅包含着对学生当前状态的判断,更重要的是帮助和引领学生找到未来发展的方向和路径。我校"依托综合素质评价,培
<正>保存三万多亿外汇储备比防止人民币贬值10个或20个百分点重要得多。我们应该尽快做决定,不要今年再失去五千亿。人民币为何出现贬值?从根本上来讲,是经济基础面发生了变
校长在很多方面是学校场域中最重要、最有影响力的人,校长的有效领导是学校走向成功的关键,那么,校长何以实现有效领导呢?本文以思辨研究的方式,遵循理论梳理与分析—实践考察