基于问答网络论坛知识体系的自动问答系统研究

被引量 : 0次 | 上传用户:amincrazy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息检索技术的发展,互联网上出现了多种类型的搜索服务。其中应用最为广泛的当数Web搜索引擎服务,实现了对海量Web文档的获取、处理、存储和访问,使用户能够在互联网上方便快捷的查找到所需信息,在人们日常生活中发挥了重要作用。但是,随着互联网信息量的增长和搜索引擎技术的成熟,互联网用户已经不满足于单纯基于关键词的搜索服务,而希望通过自然语言描述,表达自己的查询需求,希望搜索服务系统能够理解用户意图,返回恰当的结果。因此,自动问答系统成了互联网用户的下一步渴望。自动问答系统的用户界面类似于搜索引擎,但用户提交的不再是关键词,而是自然语言问句,系统返回的是根据与问题相关程度排序的答案列表。目前,自动问答领域已经积累了大量的研究成果,包括基于不同语言的、不同数据集的自动问答研究。但是,自动问答还没能像搜索引擎一样,形成产品化的服务。本文旨在为产品化的自动问答互联网服务积累经验,研究基于一种特定的数据集——问答网络论坛数据集,构建自动问答系统的过程;进而在信息检索过程中,通过引入自然语言句法和语义信息、重新定义数据组织形式等措施,研究系统性能的一系列改进方案。主要贡献和创新点包括:●构建自动问答系统的评测平台。在问答网络论坛数据集上,参照搜索引擎实现原理,基于标引项,采用文本相似度检索模型构建自动问答系统。实验表明:系统性能略优于问答网络论坛自带的“相似问题搜索”功能,将代替该功能,作为本文系统性能改进的评价基准。●基于依存项的自动问答系统性能改进。提出依存项定义,在标引项基础上引入了自然语言依存句法分析结果,将句法信息引入到信息检索过程中。实验表明:依存项可以有效表达问题的自然语言句法特征,原有的信息检索模型不做任何改变,即可改进自动问答系统性能。●基于问题分类的自动问答系统性能改进。针对问答网络论坛数据集,提出一套新的自然语言问题分类体系,将自然语言句法和语义信息作为训练特征,训练出足够精确的问题分类器。问题分类结果用于指导答案排序。实验表明:分类器对论坛数据集分类效果良好,类别指导排序明显改进了系统性能。●基于自然语言知识体系的自动问答系统改进。参考前两种系统改进经验,提出新的数据组织形式:向概念体系添加谓语关联,建立自然语言知识体系。谓语关联由数据集中的问题答案对产生。这是一种综合的改进,既充分利用了数据集中的答案信息,又借助自然语言概念体系的关联关系,增强了系统的查询扩展和逻辑推理能力。论坛数据填充到此体系中,并在此体系上重建自动问答系统。实验表明:重建后系统性能得到全面改进。
其他文献
目的 探讨氟马西尼能否加速丙泊酚麻醉后清醒过程。方法 选取2012年9月-2013年12月牡丹江医学院第二附属医院80例使用丙泊酚进行麻醉的手术患者进行研究,随机分为观察组和对
根据星敏感器的误差来源和组成,提出了对甚高精度星敏感器的瞬时误差(TE)、高频误差(HSFE)、低频误差(LSFE)三项误差的测试方法。针对星敏感器TE的测试,利用统计高精度静态光
近年来,英语阅读教学受到社会各界重视。从自然拼读到故事阅读无不强调英语的阅读能力。阅读能力作为一种重要的学习技能得到一线老师的认同,但由于小学英语课程设置为三年级
阿热勒托别地区地处新疆青河县北部,属西伯利亚板块西南缘,主体位于阿尔泰稀有、白云母、金铜成矿带—喀纳斯铜成矿亚带上。其西南角涉入额尔齐斯金成矿亚带范围。是寻找以钨
委婉语(euphemism)一词源于希腊语,字面意思可以理解为“用好听的言语或令人愉快的方式来说话”。它既是一种较为普遍的语言和言语现象,更是一种文化现象。委婉语起源于人类
目的:探讨高通量基因测序技术在无创产前诊断中的价值。方法:回顾性分析进行胎儿游离DNA高通量基因测序技术的1064例孕妇,对其中495例唐氏筛查高危者进行研究,比较无创DNA检
建筑的象征文化,就是通过一定建筑符号,昭示出一定的"建筑意",即通过建筑本身所体现的一种建筑文化来传递精神意义.文章从徽州传统民居的布局、结构、装饰、细部特点等方面来
目的:对比分析结节微波消融术和传统手术这两种治疗良性甲状腺结节手段的临床治疗效果,为临床良性甲状腺结节的治疗提供理论和实践参考。方法:选择2016年2月至2019年6月收治
自古以来文道关系已成定论,然在新的历史时期又面临挑战,致使对文学与道德的关系作进一步思考.文与道密不可分,是双向互补的关系.困惑来自于对"世俗僵化的道德规范"和"真正的
人性问题是一个长期困扰人类的难题。人性是什么?本善还是本恶?人性与法律之间有什么关系?在建设现代法治社会的过程中我们该怎样看待人性?对于人性,几千年来中外贤哲给出了