论文部分内容阅读
随着互联网技术的日益发展和普及,中文问答社区如知乎、百度知道等正逐渐成为一种广受用户喜爱的信息分享与获取平台。用户可以在其中以提问或者是查询相似问题的形式从其他用户的答案中获取满足自己需求的信息,然而用户提供的答案的质量良莠不齐,其中包含了许多不完备、冗余、不可信甚至是恶意误导的信息。如何从问题的众多答案中抽取出高质量的答案成为了问答社区研究中一个极具挑战性的难题。本文以抽取中文问答社区中关于某一问题的完备、可靠、低冗余度的答案为目标,从以下两个方面进行了研究: 第一,不同问题类型的答案具有不同的语言特点,因而在设计抽取高质量答案的方法时需要考虑问题类型对答案抽取效果的影响。为此,本文对面向问答社区的中文问题分类的方法进行了研究。首先对问答社区中问题类型的分布特点进行了分析,并在此基础上提出了一个适合用于对问答社区中的问题进行分类的粗粒度的分类体系。其次,借鉴层次分类的思想,对问答社区中含有疑问词和不含疑问词的问题分别采用合适的分类器进行分类。对于不含疑问词的问题,设计了一个基于焦点词的分类器进行分类;对于含有疑问词的问题,采用支持向量机(Support Vector Machine,SVM)模型进行分类。实验结果表明,这种层次化的分类方法减轻了分类器对疑问词的依赖,能有效提高问题分类的准确率。 第二,本文把抽取问题的高质量答案看作答案摘要问题,使用了基于结构化行列式点过程(Structured Determinant Point Process,SDPP)模型的答案摘要方法对答案中的文本以句子为单位进行了摘要研究。首先针对模型中所涉及到的句子的质量、句子之间的相似度等特征指标分别设计了量化方法。之后本文提出了两种利用问题的类别信息来优化答案摘要质量的方法,分别融合特定问题类型的语用信息和答案质量信息对SDPP模型进行了改进。最后使用ROUGE对本文所提出的改进方法的有效性进行评测。实验结果表明本文提出的基于改进的SDPP模型的答案摘要方法能够在一定程度上提升答案摘要的质量。