基于马尔可夫逻辑网络的共指消解研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:malongqingse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
共指是自然语言中一种非常普遍的语言现象,共指消解是文本理解不可缺少的内容,它几乎是任何一个自然语言处理的应用领域都需要解决的问题,如信息抽取、机器翻译、文本摘要、问答系统和对话解释系统等等。虽然共指消解对于自然语言处理具有重要作用,但共指消解的实现却是个非常困难的问题。事实上,共指消解已经被广泛认为是最具挑战性的人工智能问题之一。   近年来,研究者们已经尝试使用多种不同的机器学习方法实现共指消解。但现有方法中的特征表示大多采用“属性-值”的表示形式,而共指消解的数据集是典型的关系数据,实体提及或实体之间存在的联系与结构无法用“属性-值”这样的传统特征表示方法加以准确的描述;另外,现有的共指消解方法大多使用成对(Pair-wise)分类器分别对每一对实体进行共指决策,但实际上共指消解中,实体提及或实体之间的关系是不满足传统机器学习中普遍要求的独立同分布假设的。   基于共指消解的研究现状,本文的主要工作有:   (1)深入分析了实现共指消解所面临的问题及当前的研究趋势,总结了规则方法和各种机器学习方法在解决共指消解问题时存在的优势与不足。提出用马尔可夫逻辑网络对共指消解问题进行建模。马尔可夫逻辑网络模型是规则方法与概率方法的结合,规则方法可以突破“属性-值”表示形式的限制,可以表示实体提及间的更复杂的关系;同时马尔可夫逻辑网络的全局推导能力,可以解决Pair-wise分类器只能对每一对实体提及进行共指判定的局限性。   (2)共指消解中有代词消解和普通名词消解两种类型,论文提出了一种基于马尔可夫逻辑网络的共指消解算法。通过使用马尔可夫逻辑网络既可以在统一消解框架下同时处理代词消解与名词短语消解,又能较好地区分这两类消解的差异性。   (3)将归纳逻辑编程和马尔可夫逻辑网络这两种算法和模型进行了有效地组合:在对每个实体提及抽取出特定信息的基础上,首先应用ILP算法从大量的标注语料中学习关于实体提及之间共指的规则,形成一个共指知识库;然后基于这些学习生成的规则集构造一个相应的马尔可夫网络,从而可以从全局视图计算推导各对实体提及之间的共指概率。再利用关联聚类技术,将两两共指概率转化为实体集合。最终,论文实验结果证明了模型的有效性。
其他文献
1股权分置改革顺利推进中国证监会主席尚福林在不同场合多次表态:“年内基本完成股权分置改革”。这句话如今将成为事实。 1 Equity Reform Smoothly Promote CSB Chairman
随着计算机应用技术的不断发展,软件复用技术逐渐受到人们的重视。软件复用是将已有软件的各种有关知识用于建立新的软件,以缩减软件开发和维护的花费。软件复用是提高软件生产
随着高性能计算应用(HPC)的复杂化和大型化,高性能计算机系统(HPCS)的硬件规模、节点数量也呈直线上升趋势。优秀的监控软件可以准确地了解HPCS中所有资源的当前状态和使用状
学位
随着网络规模不断的扩大,网络业务也在不断的增多。传统的网络管理往往以网络设备为主要管理对象,很少监测和管理用户业务,而我们最终关心的是业务应用层的端到端性能。新一代的
学位
电视台台办期刊一般是由电视台内部主办,它以展现电视台形象为主要目的,以提升电视台形象为主要宗旨,以电视和电视台相关资料为主要内容。鉴于此,电视台台办期刊很容易被认为是电视台的附属品,是依托电视台而生存的。笔者认为恰恰相反,台办期刊对电视台的形象塑造起着相当大的推动作用,电视台通过台办期刊以纸媒形式向外界展示着电视台的形象,台办期刊是电视台的纸媒形象代言人。    电视台台办期刊是电视台的窗口   
基于经典层合板理论,建立了一个能同时测量薄膜-基底系统中薄膜的磁致伸缩系数、杨氏模量和泊松比的板模型.以前的研究计算薄膜磁致伸缩系数时,大多假设薄膜的弹性属性与相应
所谓权力观,是指掌握一定权力的人对权力的来源、性质、如何运用等问题的根本看法和观点,是指导和实施权力活动的思想基础。胡锦涛同志指出:“作为领导干部必须牢记我们手中
以太网是当今最普及的网络,在其传输速率快速增长的同时,其应用领域也在不断拓宽.不同的应用需求促进了以太网技术的个性化发展.在高性能计算领域,互连网络对机群系统的性能
陕西省镇安县职业高级中学党支部严格组织发展工作程序,遵循“坚持标准,保证质量,改善结构,慎重发展”的方针,严把“五关”发展党员。一是把好“推荐关”。党支部按照十六大
医学成像技术是一种能扫描人体并产生一系列横断面图像的无损探测技术,目前被广泛用于临床医学。随着医学成像技术的发展,医学图像的精度和密度都在逐渐提高,大量的图像数据提高