基于语义理解的中文常问问答系统的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:liveonmountain
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网络的高速发展,问答系统的研究成为当前自然语言处理领域中最有活力的方向之一。同时基于常问问题集的问答系统的应用也越来越广泛。它综合运用了知识表示、信息检索等技术,广泛应用于网络答疑、公司客服等方面。在众多的问答技术中相似度计算是中文信息处理中最为基础和重要的工作,它直接决定着某些领域的研究和发展状况,例如,自动问答系统、机器翻译、信息检索、自动文摘等领域。长期以来一直是人们研究的一个热点和难点。 传统的中文常问问答系统中,相似度的计算大多采用基于关键词匹配的方法或者统计的方法,效果不尽人意。相似度计算成为影响系统性能的最主要因素。本文选择知网系统(HowNet)作为相似度计算的基础,深入研究了知网系统的语义结构,实现了基于知网的语义相似度计算模块。并以此为基础实现了一个实际的常问问答系统。 自然语言中一词多义现象普遍存在,成为制约相似度算法精度和速度的一个重要因素,同时也影响了常问问答系统的性能。本文针对这一现象,引入了词义消歧的思想。实现了基于知网的词义消歧,并对知网系统的义项文件进行了整理,改进了基于知网的词义消歧方法,提高了消歧算法的精度和速度。并将该词义消歧方法与基于知网的相似度计算方法结合起来,实现了真正意义上的语义理解。以此为基础,实现了一个实际的常问问答系统。 本文中消歧模块和语义相似度模块的测试语料均为作者精心搜集整理,常问问答系统的测试问答集合是由东北财经大学网络教育学院提供的真实的问答集合。测试结果表明,引入消歧思想后,相似度的计算精度得到了提高,常问问答系统的总体性能也达到了实际应用的需要。因此,可以说发展中文问答技术的一个重要途径就是消歧算法的改进。
其他文献
核能与核技术应用领域广泛,有力地推动了国民工农业生产和经济的发展。同时,因为放射性物质的危险性与特殊性,对其生产过程及放置存储进行实时监测十分必要。在诸多放射性监
LTE是3GPP组织提出的对3G移动通信系统的长期演进,被称为3.9G或者准4G。随着2013年12月TD-LTE牌照的正式发放,我国正式进入LTE商用阶段,越来越多的用户开始使用LTE,感受新技术带
本论文是河北省自然科学基金资助项目(F2008000116)。随着高速光纤系统的发展,偏振模色散(PMD)成为限制高速率传输的主要因素。然而传统的光域补偿由于技术的复杂程度及成本等
OFDM(Orthogonal Frequency Division Multiplex)技术有频谱利用率高和抗多径衰落等优点,已被公认为第三代移动通信系统长期演进标准及第四代移动通信系统的核心技术,而MIMO(Mu
硬件平台是多体制卫星导航终端设备的一个重要组成部分,为基带处理和解算软件提供了运行环境和最底层的硬件支持。本文针对接收机需求和结构特点进行了硬件选择和相关模块的