面向交互式问答的人物事件关系抽取方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xuhaibin_213
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由互联网所产生的数据极具膨胀,在如此巨大规模的数据中,准确地获得想要的信息,成为人们日益追求的目标。如何能准确、智能地返回给用户,成为近年来研究比较广泛的一个研究点,问答系统能够以一定程度上的智能满足这一需求。传统的问答系统,是以问答对的形式将问题和答案组织成知识库,使用倒排索引等检索技术进行问句答案的查询。这种方式所检索的准确率较低,此外知识库问答对的来源成为此类问答系统最大的瓶颈。因此基于实体属性知识库的问答系统成为比较流行的问答系统的构建方式,这种方式特别适合用于人物关系领域。对于人物关系大多是在文本维度上的关系,对于人物相关事件的研究也相对较少。针对这一现象,本文提出一种针对人物相关事件和人物之间关系的抽取方法,从事件的粒度上进行人物关系的抽取。本论文的研究内容主要有以下四个方面,描述人物关系的事件词的抽取、基于弱监督学习的人物关系抽取、基于半监督学习的人物关系抽取、面向人物事件关系的问答系统的构建。首先面向小规模数据,分析语料的特点,构建初始启发式规则进行人物事件关系的抽取,并以此构建出人物关系类别体系。利用该类别体系对样本进行启发式标注,并以此来进行基于弱监督的人物关系抽取。基于弱监督的信息抽取存在训练集标注不准确的情况,继而提出基于半监督的人物关系抽取方法。半监督方法首先由人工标注一部分样本集,通过协同训练算法进行训练集的扩充,利用扩充的训练集进行模型的训练并抽取语料中的人物关系。通过这样的方法,能够一定程度上解决人物关系抽取任务在大规模语料中缺乏训练样本这一现状。最后将从大规模语料中抽取的内容构建知识库,并将其同问答系统相结合,构建一个面向人物事件关系的自动问答系统。本论文中实现了面向大规模异构信息的人物事件关系的抽取方法,以及将其同问答系统相结合的实现方案。实验结果表明,本论文中所提出的方法能够有效地从网页文本中抽取出人物事件关系,与其相结合的问答系统能够有效使用。
其他文献
多媒体应用逐步成为移动网络业务的主体,如何在有限和不稳定的带宽、差错率较高的无线网络环境提供高质量的多媒体传输服务,是移动业务部署必须解决的问题。这其中涉及到多媒体
开发微处理器的同时必须要为其开发编译工具,而汇编软件是编译工具链中非常重要的一个环节。本课题的任务是为LX-1164微处理器设计和开发相应的汇编软件。 笔者深入的研究了
定位服务是服务内容提供商利用智能终端、网络通信技术以及定位技术等的结合,获取潜在用户的实际地理位置信息,根据用户的需要为其提供相关信息的服务。目前,室外定位技术已经取
随着计算机应用技术的快速发展,作为生物特征识别的分支,人脸识别受到了越来越多的重视。这些年,人脸识别算法层出不穷,因此识别的正确率和效率都得到了很大的提高。在实际应
本文针对国内英语教学中存在的发音质量评价主观化的问题,研究了语音识别中的关键技术,包括语料库、预处理、端点检测、特征提取和隐马尔可夫模型(HMM)等,重点解决了声学模型的
互联网技术的迅速发展,对企业信息化建设提出了更高的要求。基于先进管理理念的ERP ( Enterprise Resource Planning )、CRM ( Customer Relationship Management)、SCM(Supp
生物特征识别技术在上个世纪后二十年内得到了迅猛发展,他在医学诊断领域中形成的一个分支,基于人体生物特征的医学诊断学,也受到了国内外众多研究者的关注。传统中医脉诊是
嵌入式系统的一个重要应用领域是移动通讯终端手机。通信技术的发展,大大提高了无线数据的传输速率和可靠性,电信业也已从传统的“运输行业”正转变为为用户提供新内容和增值服
随着计算机网络应用的不断深入,对安全协议进行分析和研究已经成为信息安全领域的一个十分重要的研究方向。形式化分析由于其精炼、简洁和无二义性逐步成为分析安全协议的一条
作为J2ME 的核心组件,KVM 被广泛地应用于各种手持设备中,如智能手机、PDA 等。这些设备有着共同的特点:使用电池作为主要能源。如何设计这些手持设备的硬件和软件,使其能够在有