基于WordNet的词语及短文本语义相似度算法研究

被引量 : 0次 | 上传用户:zch_kitty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义相似度在人工智能、认知学、语义学、心理学和生物信息学等领域里占有重要的位置,具有理论的研究价值和应用前景。一个有效的语义相似度计算方法能够在很大程度上改进相关系统的性能,正是基于这一点,本文提出了基于扩展关系的信息量计算方法、路径和信息量相结合的词语语义相似度计算方法和基于最大值的短文本语义相似度计算方法。1.基于扩展关系的信息量计算方法信息量在词语语义相似度的计算中占有重要的位置。目前信息量的计算方法主要有两种,一种是大的语料库和WordNet关系树相结合的方法,另外一种是Nuno提出的依据WordNet关系树的方法。Nuno和Pirro的实验结果都表明,后一种方法优于前一种方法。在Nuno方法中,作者仅仅考虑了WordNet中的上下位关系,而没有考虑其它关系,但是同上下位关系一样,部分整体关系同样反应WordNet中的语义信息,综合考虑这两种关系应该能改进信息量的计算结果,基于这一点,本文提出了基于扩展关系的信息量计算方法。2.路径和信息量相结合的词语语义相似度计算方法词语语义相似度在短文本语义相似度的计算中占有重要的位置。目前词语语义相似度的计算方法有很多种,但是这些方法在计算词语语义相似度时大都仅仅考虑了影响相似度的单一因素,如路径。但是路径和信息量对相似度的影响是不同的,综合考虑这些因素应该能够改进词语语义相似度的计算结果,基于这一点,本文提出了路径和信息量相结合的词语语义相似度计算方法。3.基于最大值的短文本语义相似度计算方法。文本相似度的计算方法有很多种,但是这些方法大都用来计算文档或者长文本相似度,主要针对短文本语义相似度的方法很少。因为在计算词语语义相似度时,我们总是选择包含词语的概念的语义相似度的最大值来表示词语的语义相似度,所以我们相信在计算短文本语义相似度时同样可以考虑词语相似度的最大值,为此我们提出了一种基于最大值的短文本语义相似度计算方法。与此同时,本文还通过实验验证了这三种方法的可行性和有效性。首先在RG、PSl和PS2数据集上证明了基于扩展关系的信息量计算方法及路径和信息量相结合的词语语义相似度计算方法优于其它方法,接着在Li给出的数据集上得出了同样的结论。在Li给出的数据集上,本文还证明了基于最大值的短文本语义相似度计算方法是有效的可行的。实验结果表明,这三种方法相结合,在计算短文本语义相似度时结果最佳,明显优于其它方法。
其他文献
内部控制是影响公司经营状况和会计信息可靠性的重要因素,愈演愈烈的造假丑闻使我国监管机构意识到建立健全上市公司内部控制制度并充分披露其信息的重要性。本文以山西汽运
为了解南四湖流域农村生活污水产生排放情况,选取济宁市微山县典型农村西万四村。从污水季节变化、农户生活习惯、排放及处理方式进行调查。调查结果表明:农户每天用水量为20
探讨不同的pH变动模式对对虾生长的影响,设计2个独立的实验,分别研究pH值为8.9和4.0的不同时间的处理条件下,酸碱度的周期性变化对凡纳滨对虾的生长的影响,实验1设置了2个恒
随着我们进入网络社会,由于其自身的信息传播的全球性、开放性、共享性和自由性等特点,网络社会给我们生活带来了巨大的变化。但近几年,网络信息传播中存在以提高点击率和曝
描述采于云南省的金线属 鱼类一新种──犀角金线鲃(Sinocyclocheilusrhinocerous,sp.nov)以头上长有一长角、眼小、侧线完全、体表裸露无鳞等区别于该属所有已知种。
调查东莞内陆自然水域1982-1984和2005-2010年的鱼类资源。结果显示,1982-1984年,有鱼类151种,分隶17目44科,其中洄游性鱼类8种,河口性鱼类47种。纯淡水鱼类中,鲤形目67种,鲇
对国内某大型玻璃钢生产企业苯乙烯废气治理工艺进行了对比分析,结果表明植物液喷淋+光催化氧化结合技术治理效果较好,苯乙烯去除率高达96.7%。
肝门部恶性梗阻性黄疸根治性手术是治疗的最佳方法。但其根治率低(以肝门部胆管癌为例根治率为15%~64.11%,平均不足25%)。而不作姑息引流术的患者最终会因黄疸导致的肝、肾功
无线遥控车通常采用单片机来控制机器人,单片机裸机受硬件特性制约,难以在满足很多复杂的控制的同时保证系统实时性,鉴于此,本文基于功能强大、接口丰富的ARM9架构处理器和Li
盈余管理是一个有20年历史的研究课题,是现代会计理论研究中的一个重要领域,其实证研究方法主要包括总体应计模型、特定应计模型和频率分布方法。盈余管理的4种类型是当期支