面向问答社区的高质量答案抽取研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:yuhua345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的日益发展和普及,中文问答社区如知乎、百度知道等正逐渐成为一种广受用户喜爱的信息分享与获取平台。用户可以在其中以提问或者是查询相似问题的形式从其他用户的答案中获取满足自己需求的信息,然而用户提供的答案的质量良莠不齐,其中包含了许多不完备、冗余、不可信甚至是恶意误导的信息。如何从问题的众多答案中抽取出高质量的答案成为了问答社区研究中一个极具挑战性的难题。本文以抽取中文问答社区中关于某一问题的完备、可靠、低冗余度的答案为目标,从以下两个方面进行了研究:  第一,不同问题类型的答案具有不同的语言特点,因而在设计抽取高质量答案的方法时需要考虑问题类型对答案抽取效果的影响。为此,本文对面向问答社区的中文问题分类的方法进行了研究。首先对问答社区中问题类型的分布特点进行了分析,并在此基础上提出了一个适合用于对问答社区中的问题进行分类的粗粒度的分类体系。其次,借鉴层次分类的思想,对问答社区中含有疑问词和不含疑问词的问题分别采用合适的分类器进行分类。对于不含疑问词的问题,设计了一个基于焦点词的分类器进行分类;对于含有疑问词的问题,采用支持向量机(Support Vector Machine,SVM)模型进行分类。实验结果表明,这种层次化的分类方法减轻了分类器对疑问词的依赖,能有效提高问题分类的准确率。  第二,本文把抽取问题的高质量答案看作答案摘要问题,使用了基于结构化行列式点过程(Structured Determinant Point Process,SDPP)模型的答案摘要方法对答案中的文本以句子为单位进行了摘要研究。首先针对模型中所涉及到的句子的质量、句子之间的相似度等特征指标分别设计了量化方法。之后本文提出了两种利用问题的类别信息来优化答案摘要质量的方法,分别融合特定问题类型的语用信息和答案质量信息对SDPP模型进行了改进。最后使用ROUGE对本文所提出的改进方法的有效性进行评测。实验结果表明本文提出的基于改进的SDPP模型的答案摘要方法能够在一定程度上提升答案摘要的质量。
其他文献
随着互联网的迅猛发展,人们需要更多的网线并要求其有更高的传输速度,而更高的速度将导致双绞线内部的串扰显著增加。因此,为了能在网线生产过程中将串扰维持在一定的范围内,便需
Internet的飞速发展,一方面使得用户对网络流媒体提出了更多的服务需求,另一方面也为互联网提供了大量的闲置资源。如何有效利用数量和能力不断增长的闲散资源为用户提供保证质
经济的快速发展带来了环境问题,其中大气污染是其中比较严峻的问题之一。通过大气污染预报模型对空气中的颗粒物浓度进行预报,一方面分析出污染物趋势以及各种因素对空气质量的
随着软件技术的快速发展和软件应用范围的不断扩大,软件系统规模越来越大,软件功能日趋复杂,软件的需求获取变得更加困难,这表明需求分析在整个软件开发过程中具有十分重要的
随着视频点播服务的流行,对VOD系统的大规模分发需求也越来越高。传统的CDN架构VOD系统的部署和维护费用相对较高,而且它的单一服务器的负载有限,系统的扩展性难以满足发展的
近年来,随着信息技术的快速发展与网络的广泛普及化,数据形式变得更加多样化,传统的静态挖掘技术无法适应快速流动的动态数据的挖掘,数据挖掘的研究向着更深入的方向发展。其
随着基于位置服务相关技术的成熟以及普及,定位应用已为人们的日常生活提供了极大的便利,市场对于定位需求和精准度要求与日俱增。在室外定位方面,卫星定位技术完善且广泛运用,如
对于通信系统的建模存在很多种方法,其中以面向对象方法建模和Petri网建模为主要建模方法。面向对象建模广泛采用UML建模,作为一种半结构半形式化的建模语言,不能提供严谨的
随着Internet规模的日益扩大,各种网络业务不断涌现,网络应用的数据流迅猛增长,网络设备原本单一的“尽力”服务方式已不能满足要求。这一切对各种网络设备提出了新的要求,需
人体识别问题(person re-identification)就是在非重叠的多摄像系统中判断一个摄像头下出现的行人是否与另一个摄像头下出现的行人为同一行人,其在目标提取以及跟踪等领域发挥着