论文部分内容阅读
由于问句表达的文本模糊性以及自然语言本身的复杂性,现有的web搜索引擎还不能很好的处理用户的自然语言提问。正是由于web搜索引擎的这种不足,问答服务型网站作为其有益补充,在近年来得到快速的发展。在问答服务型网站,用户可以直接用自然语言描述自己的问题,并获取其他用户提供的答案,而无需像使用web搜索引擎那样,在大量返回结果中寻找答案。目前如"Yahoo! Answers"、“新浪爱问”、“百度知道”等问答服务型网站已经积累了海量的问答数据。比如截止至2009年7月,“百度知道”已经积累了超过7千万个中文问答对。本论文的研究以互联网上的海量问答对数据为基础,构建基于大规模问答语料的问题检索系统中的关键技术。问题检索系统的主要思想是:根据用户提出的问题,可以在已有的问答语料中检索与该提问具有相同语义的问答对数据,并提供给用户,以直接满足用户的信息需求,从而避免了用户从大量网页中归纳答案、或者等待其他用户提供答案所带来的不便。本论文对基于大规模问答语料的问题检索系统展开了一系列研究。首先,本论文研究了问题检索系统中的问题文本分类任务,以进一步确定用户的信息需求,改善用户的使用体验;同时,本论文提出对用户提问的主题进行分析,以更好的确定用户的信息需求,并自动的为用户提供与该提问语义相同或者相近的问题及相应的答案,以直接满足用户的信息需求;此外,考虑到人类社会中大量没有被问答服务型网站所包含,甚至并没有形成网页的知识,本论文讨论了如何对讨论组所产生的文本聊天数据进行分析,并从中提炼出问答数据,以扩充问题检索系统所能使用的问答语料,进一步提升问题检索系统的性能。本论文具体的研究内容和相关成果如下:1、为了完善问题检索系统的功能,本论文深入研究了问题分类技术在问题检索系统中的应用。问题检索系统中的主要任务之一是对用户的提问进行分类,以进一步确定用户的信息需求。基于Kullback-Leibler Distance的分类算法在大规模文本和高维向量分类任务中表现出较高的分类精度,本论文在该算法的基础上,结合语言模型的思想,提出一种改进的分类算法:n-gram KLD。通过在一个大尺度的问答数据集合上进行的一系列实验,表明n-gram KLD算法在问题分类任务中取得了优于传统算法的分类效果,并且在计算复杂度以及对噪声数据敏感度方面都较好的满足了问题分类任务的要求。2、本论文在语言模型的框架下,提出一种计算问题之间的相似度的方法。问题相似度计算的主要困难在于,问题文本往往较短,传统的文本相似度计算方法仅考虑了长文本的相似度处理,很难用于判断两个问句的主题是否相关;而针对问题本文等短文本的相似度计算的工作还较少。本论文提出利用大规模语料库中的单词之间的共现频度对单词间的关联关系进行建模;在此基础上,利用随机行走的思想,计算问句中各个单词与问句主题的相关程度,并按照与问句主题相关程度的不同,对问句中的不同单词设置不同的权重,以突出问句的主题。通过该策略有助于发现同样反映该主题的问句。实验表明,使用该方法可以有效的检索到与用户提问相关的其他问句,有助于根据使用者的信息需求,提供更高质量的检索服务。3、按照百度的“暗网”计划的描述,互联网上的信息仅有不足0.2%的部分型成了可以被检索的网页,而人类社会中的大量知识还不能被搜索引擎检索到。本论文关注了由讨论组所产生的文本聊天数据。文本聊天数据中包含了大量的可用信息,这些信息往往构成不同的线索,每条线索都是关于某话题的有用的问答数据,但这些问答数据尚未能得到很好的管理和挖掘。本论文通过考虑聊天数据中消息的内容和上下文信息,并结合使用统计翻译模型的思想,挖掘消息与话题线索之间隐含的语义关联,按照不同的话题线索对消息文本进行归类。最后所形成的话题线索,是有用的问答对资源。通过在一个真实数据集进行的试验,表明本论文提出的方法的有效性。该方法有助于从讨论组所产生的文本聊天数据中提炼出问答对资源,进一步扩充问题检索系统所能使用的问答语料的规模。