基于语义领域向量空间模型的文本相似度计算

被引量 : 0次 | 上传用户:chuai09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
心理学上,相似性是人们感知不同对象刺激后产生的定性反应,而相似度则是对相似性的定量表示。相似度的计算就是将这种定性转换定量计算的过程。在现实世界中,文本是信息最常用最重要的载体。计算机对文本相似度的计算是信息处理中一个非常基础而又关键的问题,在机器翻译、文献检索、文档归类等诸多领域都有着广泛应用。但是传统的向量空间模型忽略了中文词汇之间的语义关系,向量空间存在高维稀疏等问题,中文文本相似度计算不如人意。中文在表现手法上的多样性,中文文本相似度计算一直是一个研究的热点。本文就中文文本相似度问题,以优化中文文本相似度计算为目标,提出一种基于语义领域的向量空间模型。主要工作如下:1.对现有的文本相似度方法进行了学习和分析,重点研究了向量空间模型、本体论和隐士语义的文本相似度计算方法;2.结合向量空间模型文本量化思路以及本体论的量化思路,在Hownet中文词典基础上提出一种以语义领域为向量空间维度的文本量化模型,把中文语义融合到量化过程中,改善了传统向量空间模型在语义层面上的不足。并加入自定义加权模块,使文本相似度计算更加贴近实际应用。3.在文本预处理中,提出一种基于《同义词词林》的特征词合并过滤算法,在降低特征项维度的同时规避了同义词带来的影响。以延长文本预处理时间来减小文本相似度计算开销。4.通过人工测试和自动测试的方式,来考察算法成效。构建中文文本分类系统,通过对分类结果来评估相似度计算;同义词约简后对计算相似度的影响来评估同义词特征项过滤算法。
其他文献
<正>万精油和永动机,在这个世界上是否能出现?有点常识的人,都能回答这个最简单的问题。但,互联网界却总有这样类似的言论。说到互联网,总有一批人认为,简单的做一款产品,圈
<正> 简答题是一种新题型,在1990年的生物高考中被首次采用。由于综合性强,标准化程度高,所含知识点多而受欢迎。它作为一种新题型,具有生命力,是因为在教学中科学运用,能激
行政监督在国家的政治生活和行政管理活动中有着十分重要的作用,直接影响行政管理的效率和依法行政的水平。我国的行政监督制度有着悠久的历史,它在原始社会末期就已经萌芽,
近年来,随着我国经济的快速发展,人们生活水平日益提高,旅游已经成了一种时尚休闲方式,在校大学生外出旅游也越来越普及。全国高校连年扩招,在校大学生人数在全国高校连年扩
研究充分发挥了遥感技术(RS)客观、宏观的优势,基于ASTER遥感数据采用常见矿物光谱反射特征信息建立了遥感矿化蚀变异常信息提取流程,并开展了基于证据权法的综合成矿预测研
生鲜市场是城市居民购买生鲜食品的主要场所,其空间格局在不同时期具有不同的特征。新中国建立以后,我国生鲜市场空间格局呈现出了阶段性变化的特征。进入21世纪以来,我国生
大部门制源于西方国家。第二次世界大战后,随着经济社会的发展,欧美各国政府内部由于机构设置过细、专业化分工所带来的职能分割等问题越来越严重,影响了政府职能的有效行使
本文探索“三江并流”世界自然遗产地旅游活动对环境产生影响的范围,旨在为遗产地的保护提供新的思路和方法。“三江并流”世界自然遗产地是我国生物多样性丰富、珍稀濒危动
谈及奥地利作曲家弗朗兹·舒伯特,艺术歌曲、钢琴小品、音乐瞬间是他的代名词。他英年早逝,短短的十几年创作生涯中,却给人们留下了六百多首抒情的艺术歌曲,被誉为“艺术歌曲
<正>一、注重谈话方式,让幼儿有机会说1."心对心"——个别谈话很重要宽松和谐的语言环境是让幼儿有话敢说的必要条件。教师可以利用来园活动与孩子个别谈话,利用日常生活中的