【摘 要】
:
词语之间相互关系的量化方法是自然语言处理的重要研究内容,在信息检索、词义消歧、机器翻译等自然语言处理领域都有广泛的应用。本文以知网为基础,研究和探讨了词语的语义相
论文部分内容阅读
词语之间相互关系的量化方法是自然语言处理的重要研究内容,在信息检索、词义消歧、机器翻译等自然语言处理领域都有广泛的应用。本文以知网为基础,研究和探讨了词语的语义相似度和关系相似度的度量方法,提出了语义与统计相融合的语义相似度算法和基于潜在语义索引的关系相似度算法,改进了相似度的计算结果,具体内容体现如下:现有的语义和关系相似度算法主要分为基于语义资源和基于统计两类方法,前者利用人工构建的语义词典或语义网络计算相似度,而后者完全是数据驱动的方式,即从大规模的语料中统计与词语共现的上下文信息以计算其相似度。本文研究知网的语义相似度计算方法,针对其在计算异类义原词语间相似度效果不佳的不足,提出一种语义与统计相融合的语义相似度算法,以改善最终的语义相似度计算结果。本文引入国家公务员考试的替换题型作为中文词语相似度算法的测试集,在一定程度上解决该类问题缺少公共中文测试集的问题,在该测试集对不同语义相似度算法进行对比,本算法取得了较好的实验结果。针对传统的无监督或半监督的关系相似度计算中难以解决的数据稀疏问题,本文使用知网进行同义词扩展,运用奇异值分解降维去除噪声,从而提出一种基于潜在语义索引的关系相似度算法,最终在专利语料中进行关系分类实验,较传统的SVM分类准确率提高6%,达到44%。为进一步验证本文提出的两种相似度算法的有效性,本文实现了FAQ的相似问句检索系统和实体关系分类系统,并对上述两种词语相似度算法进行相应实验。
其他文献
针对目前降低电源电子技术应用能耗过程中存在的问题,文章从实践角度出发,分析了电源电子技的消耗与技术发展现状,并提出了优化控制策略。结果表明,只有从现状角度入手,才能
<正> 近年来笔者采用腕踝针加拔罐治疗胸胁痛82例,疗效满意,现总结报告如下。1一般资料本组82例均为门诊病人,其中男38例,女44例;年龄最小16岁,最大71岁;病程最短1天,最长25
痉挛性斜颈属于局灶性肌张力障碍,是一种疑难杂症。本病病因不明,药物及手术的临床疗效不甚理想,国内外尚无安全、有效的治疗方法。笔者灵活运用中医辨证论治理论,充分发挥传
《昌晋源票号》、《驼道》、《龙票》、《乔家大院》、《走西口》……这些荧屏界耳熟能详的名字,都是晋商题材电视剧的代表之作。在晋商剧十余年来兴盛不衰的创作过程中,都无
从出口产品的国內增加值视角,探究中国出口产品技术含量的影响因素。本文基于Koopman等(2012)的研究计算中国各行业国內增加值,一方面展现各行业国內技术含量的变化状况,另一
<正>一提起日本航空自卫队,可能很多军事爱好者首先想翻的是日美联合研制、脱胎于F-16C的F-2战斗机,或是未来将在日本国内生产(由川崎重工引人美国生产线)的F-35"闪电"Ⅱ联合
<正> 2 胎圈钢丝 2.1概述 胎圈钢丝的作用是将轮胎固定在轮轴上;确保轮胎在各种行驶条件下的安全性;决定胎圈部的强度和耐久性。亦即胎圈钢丝是轮胎的重要骨架材料。 胎圈钢
将我国近 50年来针灸对糖尿病的临床治疗和实验研究的重大进展进行了综述。分别从方法学、治疗学的若干原则以及对糖代谢、胰腺内分泌激素、胰岛素抵抗、神经内分泌免疫网络
温室大棚能有效控制大棚内植物的生长环境,包括大棚内的温湿度、光照强度等,并且能够避免外界环境的变化和恶劣气候对大棚内植物的影响,因此,温室大棚是现代农业生产所需的基
广告发展的必然趋势之一就是让广告不再显得过于广告化,它使得人们在非广告氛围中接受广告主的意愿。一般来说,植入广告较多的是在影视作品中植入商品的标记或者实物,使观众