篇章关系标注的关键技术研究和实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:wangcong1001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
篇章关系是文本中的组成部分彼此之间的语义关系,篇章语义关系分析是自然语言处理中的一个基本任务,很多其他任务都能从中受益。本文对篇章关系的关键技术进行了研究,对篇章关系标注的规范、篇章关系的自动识别及其应用等进行了初步的探索。  传统的篇章理解的理论如篇章修辞结构(RST),向心理论(CT)等与实际问题的结合并不紧密。本文中我们参考现有的语言学理论和一些语篇标注库(如RST-DT,PDTB),并结合自然语言处理中的任务特点,提出了一套用于篇章标注的汉语标注体系。这个体系能够准确和比较全面地描述出篇章的内容和逻辑关系,并很好地服务于实际任务的需要。本文的贡献主要集中在以下几点:  首先,我们对篇章基本单位的识别进行了研究。  其次,我们对已有的篇章标注的规范及语料进行了研究,结合自然语言处理任务的实际需求和语言学理论,制订了一种新的篇章标注规范。与这套规范同时,我们开发了一套标注工具,实际标注了一些文本并进行了分析。  再次,同时我们还对篇章关系的自动识别,进行了研究,提出了一种新的篇章关系识别的方法,在多种语料上进行了测试,均取得较好的结果。  另外,我们进行了框架的识别,框架的识别可以看作是内容标签的识别,识别这些框架可以为更好地服务于文本标注,也可以服务于其他任务,如摘要生成等。  
其他文献
使用场景是近来音乐信息检索领域提出的一个新兴的音乐元数据(或称属性),而目前音乐使用场景有关的研究工作较少,且都处于初期探索阶段。本文主要分析了从网络上采集的音乐数据并
随着信息技术、互联网技术的飞速发展,互联网上已存在着大量分散无序、形式多样、内容繁杂的网络资源和教学资源。在教学资源的建设和管理方面存在着:资源良莠不齐、重复建设
具有真实感的三维人脸合成是计算机视觉与计算机图形学领域具有挑战性的研究课题之一,并因为其在工业界的多个领域中的良好应用前景而被广泛研究。三维人脸合成技术有多个分支
传统系统安全的目标在于构建具有防御机制的系统,以使得系统可以免遭攻击者的非法入侵。然而实际经验表明,网络中时刻都存在大量的新的和未知的攻击,而且大多数系统中仍然存
软件测试作为保证软件质量的重要手段,一直是计算机工程领域科学界关注的一个重要问题,已经成为软件生命周期中的重要组成部分。其中测试用例的设计与生成是决定软件测试效果的
近年来,随着信息化建设的稳步推进,空间信息应用已逐步深入到人们的日常生产和生活当中,人们在受益于信息技术进步的同时,对空间信息服务提出了更高的要求,而传统的信息访问模式在
采用分布式计算框架及存储架构,云计算提供了一种高效的数据处理方式。云计算所具有的良好通用性、高可靠性和高可扩展性,吸引了众多研究人员及企业机构对云计算相关技术的关注
近年来随着各种重大Web安全事件的发生,对Web安全攻防技术的研究也越来越受到重视,被广泛研究的Web安全技术之一是Web渗透测试。Web渗透测试技术是从攻击者的角度考虑目标Web环
射频识别(RFID)技术作为一项无线自动识别技术在各种相关的行业中逐步被人们所认识和重视。但由于部分尚存的问题困难,致使超高频系统的应用还不是很广,针对存在的问题,需经系统
综合信息系统中分系统越来越多,而且日益复杂。各个分系统之间数据交互的要求也不断增加,同时各种历史数据爆炸性增加。实现综合信息系统中的数据实时、高效地分发,以及各个分系