基于句子相似度的文本比对算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:hunterpo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和网络的日益普及,各类信息资源共享程度越来越高,给工作和生活带来极大的便利。人们每天都要获取和处理大量的信息,如何从海量数据中提取有价值的信息,已经成为信息技术领域的热门问题。然而,面对海量数据,现在我们又面临着另外一个相反问题:由于计算机与网络带来的极大便利,如何鉴别信息的相似性?基于句子相似度的文本比对算法研究,就是在分析句子构成以及句子含义的基础上,通过某种算法,将目标文本和标准文本进行相似度计算,以得出对文本相似程度的判定,为将来进行文本比对和鉴定提供依据。首先本文对现有常见的词语、句子以及文本相似度计算的关键问题进行了讨论,分析了基于向量空间模型的TF-IDF方法、基于汉明距离的文本相似度计算方法、隐性语义标引、基于属性论的文本相似度算法、基于语义理解的相似度计算以及基于知网的相似度算法。其次,本文对部分相似度算法做了一定程度上的改进,希望能获得更好的相似度比较效果。文中也给出了关于句子相似度的文本比对算法的计算机实现过程,并利用相关文本进行了测试,对所用的方法进行验证。
其他文献
语言的模糊性是人类语言的一个重要特征。自然界本身模糊不清、人的认知能力有限、交际双方的行为及目的,以及语言自身的局限性都会导致模糊语言的产生。英汉翻译中,译者常常
职称是稳定专业技术人员队伍建设的重要制度性因素。在当前国家事业单位岗位设置管理办法及工资结构下,院前急救人员职称在岗位比例和评聘上矛盾较为突出,高级职称数量占比较
随着社会的发展,高性能计算应用越来越广泛。在高性能计算下的SWAT参数敏感度分析非常的重要。本文结合以往常用的敏感度主-从并行框架的特点,进行分析,得出一种混合式的并行框
随着社会的不断进步,我国的科技也取得了较快的发展,尤其是电子信息技术。近些年来,电子信息技术在各个领域中的应用范围越来越广泛,在很大程度上推动了人类文明的进步。为了
本文介绍了我国煤矿在用设备、材料、仪器仪表安全性能检测、安全仪表定期校准的技术支撑能力、检测检验规范等现状,重点分析了存在的主要问题:技术支撑能力不足,检测检验规范不
随着保护地茄子栽培面积的不断扩大,土传病害发生普遍,其危害也在加剧,如茄子黄萎病和枯萎病,植保手段也难以克服.采用嫁接的办法,利用高抗或免疫的砧木与栽培品种进行嫁接,
目的探讨腹腔镜胆囊切除术(LC)的护理方式和要点。方法对50例行LC的患者围术期实施综合护理并观察护理效果。结果本组50例患者均顺利完成手术。术后未发生腹腔出血等并发症。术
用0.13%和0.013%植酸对月季切花进行处理,探讨了植酸对月季切花瓶插寿命及衰老过程中一些生理生化指标的影响。结果表明,0.13%和0.013%植酸处理的切花,瓶插寿命分别延长了2.3d和1.4d。植酸
资本市场是当代社会区域经济的重要组成部分,西部民族地区资本市场的不发达状态制约着其区域经济的发展和大开发战略的实施.资本市场的融资功能、资源配置功能和制度创新功能
目的探讨真菌性角膜炎的病因、诊断及治疗。方法对2001~2011年在青岛大学医学院附属医院眼科就诊的508例(508眼)真菌性角膜炎患者的发病危险因素、病原学诊断及诊疗经过进行回