数据标准化及随机游走下的语义关系相似度计算

来源 :复旦大学 | 被引量 : 0次 | 上传用户:adonis77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词对之间语义关系的相似度计算是数据挖掘、自然语言处理的一个重要研究问题,相关研究成果在语义搜索、信息抽取、类比检测、以及本体构建等方面都有着重要的应用前景。已有的语义关系相似度计算方法大致可以分为两类:基于语义资源(如WordNet等)的方法和基于大规模文本的方法(该方法以统计理论为支撑)。基于大规模文本的统计方法是根据词对在大规模文本里共现时的所对应的上下文信息来提取出相关的词法/语法模式,并统计出不同词对与不同词法/语法模式共现的词频,从而最终计算出不同词对之间的语义关系相似度。该类方法常常会受到数据稀疏性问题的影响。本论文对已有的一些经典算法所采用的处理流程和关键技术进行了分析总结,在此基础上进行了如下研究工作:首先,由于数据标准化技术对语义关系相似度计算有非常重要的作用,因此本文研究了三种不同的数据标准化技术(区间标准化、zScore标准化、基于熵信息和比例缩放的标准化)在语义相似度计算中的作用,并在ENT数据集和SAT测试题上验证了其作用。其次,针对大规模文本集下的统计方法易受数据稀疏性影响的问题,本文采用了随机游走算法的思想来求解语义关系相似度计算问题,并进行了相应的实验测试及分析。最后,传统的语义关系相似度计算大多需要提前给定词对,而缺乏自动构建词对的机制,因此本文提出了将自动术语提取技术与语义相似度计算相结合的处理流程。
其他文献
本文介绍了银星能源MWTl00/2.5MW风力发电机设备安装工艺流程以及吊装机械的选择方法。对塔筒、机舱各模块、风轮等主要设备的安装顺序、方法、要点及其注意事项,均进行了详细叙
目的评价多元化教学模式在护理综合实训的教学效果。方法 2015年2—6月,以2013级护理大专4个班级的247名学生作为研究对象,将每个班级学生随机分为实验组和对照组,对照组采用
水力旋流器已广泛应用于黑色金属矿山、有色金属矿山的选矿工艺中。本文简单介绍了水力旋流器的构造、工作原理、操作维护及其它方面的事项。
南非加入金砖国家合作机制,促进了南非与其他金砖国家的战略互动、经贸合作与人文交流。面对当前国际环境的不确定性与国内社会经济发展困境,南非祖马政府不但试图借助中国等
目的:通过调查分析了解我国基层医疗机构药学服务基本条件及相关概况,为相关政策制定提供参考。方法:以面对面访谈的形式调研,对全国各地基层医疗机构的诊疗服务、硬件水平、
听、说、读、写是英语的四项基本技能,其中“写”是语言输出的重要途径。它不仅要求学生具备一定的词汇量,而且要求学生在写作过程中将词汇熟练、得体地运用。近年来,高中英
目的 调查苏南地区老年人慢性阻塞性肺病患者免疫功能测定水平,从而增加老年人居民慢性阻塞性肺病患者对自身情况的了解、提高自我的护理水平及其对疾病的管理行为。方法 通