文本相似度的研究与应用

来源 :厦门大学 厦门大学 | 被引量 : 0次 | 上传用户:zhudebaotogogo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网对生活的影响不断增加,人们面临着越来越汹涌的网络数据洪流的冲击,这股数据洪流中占比最大的就是文本数据。如何处理海量文本数据,是人们亟待解决的一个问题。在文本挖掘领域,文本相似度计算技术是联系上层应用系统和下层文本表示模型、分词系统等基础技术的纽带。目前,由于文本的多样性和复杂性,还没有一种对所有应用场景都适用的文本相似度算法。因此,如何针对应用场景和应用数据选择并改进文本相似度计算,是一项很有意义和实用价值的研究。本文分别研究了长、短文本的相似度算法,针对现有算法的不足提出了改进和创新方法。本文还实现了教改项目-“信息安全竞赛平台”的试题库管理和查重模块,针对试题库系统这个应用背景,对本文提出的文本相似度算法进行了适当的调整和优化,达到了较好的应用效果。  在研究长文本相似度算法的基础上,我们发现目前的长文本所用的向量空间模型(VSM)有以下缺点:1.忽略了特征词的语义关联。2.特征的加权算法无法充分反映特征词的表达能力。本文针对这些缺点,提出了一个基于关键词的文本向量空间模型(关键词VSM),该模型使用的关键词集是结合了文本的结构特征、语义特征和统计特征挑选出来的,能很好的表达文本的内容。用关键词VSM模型对文本进行表示,可以将传统VSM模型的维度大大降低,并提高特征词的表达能力,改进算法的效率和准度。在关键词VSM模型基础上,本文将LDA主题模型引入到文本相似度计算中,从文本表层和深层语义主题两个角度去综合判断文本的相似度,提升算法的准确率。  在深入研究短文本相似度算法之后,针对目前短文本相似度算法使用的人工语义知识库的局限性,本文提出了基于维基百科知识库作为语义知识库的计算方法。研究现有的词语相关度算法后,提出了结合维基百科链接、分类、文档三种特征信息的词汇相关度计算方法。在运用此方法基础上,通过最大匹配序列算法求得两个短文本的最大语义相关度匹配序列,进行短文本语义相关度的计算。将短文本表层词语词序特征和深层语义特征结合,改进短文本的相似度计算质量。  本文实验结果证实了本文提出的算法相对于传统算法,性能有较明显的提升。同时,本文通过将本文的短文本相似度算法合理应用到高等教育改革项目-“信息安全竞赛平台”试题库查重系统模块上,实现了本文研究成果从理论研究到实际应用的转化。
其他文献
企业信息检索已成为信息检索领域的重点和难点,本文讨论了企业信息检索的现状和发展及其相关技术,设计并实现了一个基于概念的企业信息检索系统,利用查询扩展算法对用户输入的关
利用基因芯片技术能够做到同时对多到数以万计的基因进行并行分析,随着该技术越来越成熟并得到广泛应用,现在已经有越来越多的基因表达数据测定出来,亟需处理,借助于计算机工具以
本文以GIS技术为基础,对煤矿监测系统空间数据库的应用进行了研究。空间数据库的飞速发展突破了传统的数据库基于文字、数字信息应用的限制,可用于存储和分析大量具有复杂结
互联网科技迅猛发展,我们的生产和生活无时无刻都在受其影响。因为它已经在我们的生活中炸开了,每一个角落和每一寸土地。越来越多的用户已经习惯将自己私有的文件和应用程序
数据库作为信息系统的重要组成部分,在整个系统的构建和应用中承担着核心的角色,在信息系统的安全保障方面也占据着重要的地位。目前,对数据库加密的研究在国内外都是一个新
铁路运输在国民经济中占有重要的地位,随着铁路运输生产的发展,铁路运量不断增加,速度越来越快,技术更加先进。铁路车站尤其是编组站是铁路基本的也是最重要的生产单位。主要任务
随着计算机网络特别是Internet的飞速发展,网络的规模不断扩大,网络复杂性不断增强。传统的简单网络管理协议(SNMP)已经越来越不能满足网络管理的要求。在基于XML的网络管理中,
随着计算机网络技术的迅速发展,越来越多的不法分子利用网络入侵进行违法犯罪活动。如何有效地获取能证明相关计算机犯罪的电子证据,有力地打击计算机犯罪,这就涉及到计算机入侵
基于视觉的人体姿态恢复是计算机视觉领域的一个重要而有挑战性的问题,在智能监控、人机交互、视频语义标注等领域有着广泛的应用。人体姿态恢复固有的复杂性,譬如姿态描述的高
近年来,P2P技术被广泛地应用于文件共享领域:因特网上有大量用户使用P2P软件共享音乐文件、视频文件等。P2P文件共享系统的流行,因为P2P计算模式具有非常多的优点,包括:非常好的可