基于大规模问答语料的问题检索系统

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yj8888888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于问句表达的文本模糊性以及自然语言本身的复杂性,现有的web搜索引擎还不能很好的处理用户的自然语言提问。正是由于web搜索引擎的这种不足,问答服务型网站作为其有益补充,在近年来得到快速的发展。在问答服务型网站,用户可以直接用自然语言描述自己的问题,并获取其他用户提供的答案,而无需像使用web搜索引擎那样,在大量返回结果中寻找答案。目前如"Yahoo! Answers"、“新浪爱问”、“百度知道”等问答服务型网站已经积累了海量的问答数据。比如截止至2009年7月,“百度知道”已经积累了超过7千万个中文问答对。本论文的研究以互联网上的海量问答对数据为基础,构建基于大规模问答语料的问题检索系统中的关键技术。问题检索系统的主要思想是:根据用户提出的问题,可以在已有的问答语料中检索与该提问具有相同语义的问答对数据,并提供给用户,以直接满足用户的信息需求,从而避免了用户从大量网页中归纳答案、或者等待其他用户提供答案所带来的不便。本论文对基于大规模问答语料的问题检索系统展开了一系列研究。首先,本论文研究了问题检索系统中的问题文本分类任务,以进一步确定用户的信息需求,改善用户的使用体验;同时,本论文提出对用户提问的主题进行分析,以更好的确定用户的信息需求,并自动的为用户提供与该提问语义相同或者相近的问题及相应的答案,以直接满足用户的信息需求;此外,考虑到人类社会中大量没有被问答服务型网站所包含,甚至并没有形成网页的知识,本论文讨论了如何对讨论组所产生的文本聊天数据进行分析,并从中提炼出问答数据,以扩充问题检索系统所能使用的问答语料,进一步提升问题检索系统的性能。本论文具体的研究内容和相关成果如下:1、为了完善问题检索系统的功能,本论文深入研究了问题分类技术在问题检索系统中的应用。问题检索系统中的主要任务之一是对用户的提问进行分类,以进一步确定用户的信息需求。基于Kullback-Leibler Distance的分类算法在大规模文本和高维向量分类任务中表现出较高的分类精度,本论文在该算法的基础上,结合语言模型的思想,提出一种改进的分类算法:n-gram KLD。通过在一个大尺度的问答数据集合上进行的一系列实验,表明n-gram KLD算法在问题分类任务中取得了优于传统算法的分类效果,并且在计算复杂度以及对噪声数据敏感度方面都较好的满足了问题分类任务的要求。2、本论文在语言模型的框架下,提出一种计算问题之间的相似度的方法。问题相似度计算的主要困难在于,问题文本往往较短,传统的文本相似度计算方法仅考虑了长文本的相似度处理,很难用于判断两个问句的主题是否相关;而针对问题本文等短文本的相似度计算的工作还较少。本论文提出利用大规模语料库中的单词之间的共现频度对单词间的关联关系进行建模;在此基础上,利用随机行走的思想,计算问句中各个单词与问句主题的相关程度,并按照与问句主题相关程度的不同,对问句中的不同单词设置不同的权重,以突出问句的主题。通过该策略有助于发现同样反映该主题的问句。实验表明,使用该方法可以有效的检索到与用户提问相关的其他问句,有助于根据使用者的信息需求,提供更高质量的检索服务。3、按照百度的“暗网”计划的描述,互联网上的信息仅有不足0.2%的部分型成了可以被检索的网页,而人类社会中的大量知识还不能被搜索引擎检索到。本论文关注了由讨论组所产生的文本聊天数据。文本聊天数据中包含了大量的可用信息,这些信息往往构成不同的线索,每条线索都是关于某话题的有用的问答数据,但这些问答数据尚未能得到很好的管理和挖掘。本论文通过考虑聊天数据中消息的内容和上下文信息,并结合使用统计翻译模型的思想,挖掘消息与话题线索之间隐含的语义关联,按照不同的话题线索对消息文本进行归类。最后所形成的话题线索,是有用的问答对资源。通过在一个真实数据集进行的试验,表明本论文提出的方法的有效性。该方法有助于从讨论组所产生的文本聊天数据中提炼出问答对资源,进一步扩充问题检索系统所能使用的问答语料的规模。
其他文献
k-means与k-median是聚类分析的典型计算问题模型,它们也是源自同样背景的兄弟问题。将给定点集划分为k个子集,每个子集求一个中心点,若要求点集划分使每个顶点到其中心点的
存量规划时代逐渐来临,城市利用增量发展产生的规模效应反哺存量空间,发挥其效益,契合了当前社会发展的趋势。城市工业遗产是具有特定价值的城市工业遗存,也是存量盘活的优先级对象。不同于一般片区的城市更新与空间品质提升,对存量工业区而言,应当充分发挥工业遗产在物质及非物质层面的价值,尽可能实现对工业遗产保护和利用。但现实语境中,城市工业遗产保护利用的状况不容乐观,以合肥市城区内现存工业遗产为例,目前存在几
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
继当代茶圣吴觉农之后,荣任中国茶叶学会名誉理事长的王泽农教授,是江西省婺源县人,1907年出生。1928年春考入上海劳动大学农学院农化系,于1931年7月毕业。毕业后,在安徽桐城中学、福建厦门中学
当前,强化和完善人工成本的管理和控制,已经开始引起了转轨中的国有企业的广泛关注。本文拟通过对国有企业人工成本的观察和思考,探索在市场经济条件下,如何进行国有企业的人工成
发展中国家的新工业化道路是在通过吸收外来投资发展的企业的科学技术,依赖技术溢出,实现本土产业的发展。本文通过对买方垄断的市场势力模型因素分析,重点指出代工企业的联合水
印顺法师在重庆汉藏教理院的岁月是他思想形成的关键时期。法尊法师在这翻译的西藏经典,以及他们二人之间的讨论深刻左右了印顺法师的佛学建构。他的中观学从内容到形式都有
计算可以说是工作、生活、学习当中被应用最为广泛的一项数学知识。即便是科学信息技术发展迅速的当下,对于计算的教学也在整个小学数学教学过程中占有突出的地位。并且在数
本文从班组安全建设的管理出发,从小处着眼、分析了班组安全管理的重点、控制点及应对的措施,总结了做好班组安全管理是企业安全的前提。