基于多学习方式的信息抽取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:guomeixiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本是信息的重要载体之一。随着计算机普及和互联网的发展,产生了海量的文本资源。其产生的速度已经远远超过人工对信息和知识的处理能力。通过计算机辅助,从而高效地从无结构化的文本中提取有价值的信息,成为科研人员的重要课题。信息抽取作为自然语言处理领域的关键问题之一,通过将文本中所含有的信息加以处理,转化为结构化的形式加以存储,从而提高人们从海量文献中获取知识和信息的效率。  基于统计的机器学习方法在信息抽取领域有着广泛的应用。这类方法通常利用标注语料对分类模型加以训练,从而确定模型参数,训练好的模型用以对其他未知结果数据加以判断。由于此类方法存在对大规模标注样本的依赖,当训练好的模型应用于缺乏标注数据的新领域时,其性能会出现明显下降。为此本文提出中采用最大熵模型与条件随机场模型为基础,融合监督学习、主动学习以及半监督学习等多种方式,通过使用少量标注语料与大规模新领域的未标注语料对分类器进行训练,显著提高信息抽取领域相关问题对新领域文本的适应性。本文主要研究利用多种学习方式相融合来解决文本信息抽取中三个核心任务:命名实体识别、语义关系抽取和语义角色标注。信息抽取目前被应用到很多领域当中,除了常见的用于新闻领域文本的信息抽取,生物医学也是其中一个重要应用领域。因此,本文对生物医学领域的信息抽取及其子任务也进行了深入的研究。  命名实体识别是指识别某一领域文本中具有特定含义的实体。例如,在针对新闻领域,命名实体主要包括人名、地名、机构名、其他专有名词等。该任务是整个信息抽取的基础。本文将中文命名实体识别任务看作一个序列标注问题,提出了以条件随机场模型为基础的主动学习和自学习方法。针对采用主动学习和自学习方法来解决序列标注问题时样本选择标准难以确定的问题,我们提出了基于信息密度的样本选择标准。本文提出的多学习方式融合的命名实体识别方降低了命名体识别系统对标注语料的依赖程度,从而大大提高了命名体识别系统对于新领域的适应性。  生物医学领域命名实体识别研究相较于其他领域发展较为缓慢,这主要是因为其领域中命名实体命名的不规范化以及新词较快的产生速度有着密切的关系。在这一问题的研究中,我们针对其标注语料少且标注难度高的特点,提出了基于广义期望准则的生物医学命名体识别的半监督学习方法。该方法将广义期望准则与条件随机场模型相融合,在保障了系统识别率的基础上,将所需语料库的标注方式从样本标注降改进为特征标注,降低了标注难度,提高了标注效率。  语义关系抽取是信息抽取领域的另一个核心任务,是从无结构的文献中抽取出相关知识的重要手段。考虑到目前已构建的各种知识库中所包含的信息可能有利于语义关系抽取的研究,我们以生物医学文献为例提取现有的生物医学领域知识库中的信息作为特征,提出了引入领域概念特征的语义关系抽取方法。这种方法不仅可以显著地提高生物医药领域关系抽取的识别率,还可以方便地推广到其他领域的语义关系抽取。针对现有关系抽取系统由于依赖训练语料而难以移植的问题,我们提出了将广义期望准则与最大熵模型相融合的半监督学习方法。该种方法在实现高精度语义关系抽取的同时,大大降低了对标注语料的依赖性。  语义角色标注是信息抽取技术在语义层面的深入,是重要的语义分析技术。近年来依存句法分析的发展,为语义角色标注提出了新的发展方向。本文构建了由句法解析、谓词标注和语义依存标注三个子任务组成的基于依存关系语义角色标注系统。针对语义角色分析问题中特征太多引起的模型训练速度慢的问题,本文提出了基于互信息的特征选择方法,该方法可以缩短模型的训练时间,同时获得较好的识别效果。  
其他文献
裂缝作为路面破损的一种早期表现形式,及时将其检测出来并采取合理的修护措施,不但能使公路保持良好的服务状态,还能节约路面修葺成本。基于数字图像的路面裂缝无损检测技术,由于
多机器人的远程交互,拓展了人类的作业空间,在远程医疗、空间作业、工业合作生产等领域都有着广泛的应用前景。多机器人遥操作并不是简单的对单机器人遥操作的累加,多机器人
各种嵌入式技术、数字电子技术以及无线通信技术的飞速发展促进了无线传感器网络(Wireless Sensor Network,WSN)的发展,它使人们能够更加清晰的感知自然世界。无线传感器网络
随着软件产业的快速发展,基于SOC和SOA的分布式应用系统迅速抢占市场。在这个大环境下,因特网上Web服务数量正呈现急速增长的趋势。但是目前因特网上的服务大多都是孤立存在
随着世界经济快速发展和机动车辆迅猛增加,全球许多城市尤其是大中城市的车流量与日俱增,城市发展面临交通事故频发、交通拥堵等一系列交通压力,建立行之有效的智能交通系统成为
经过几十年的发展,图像检索与识别技术已经取得了一定的成果,并已广泛地应用于工业制造、金融、公安、司法、军事等领域。它们不仅速度快、效率高,而且还具有比人更胜一筹的
多值逻辑函数结构理论包括完备性理论、函数表示理论以及单向陷门函数,其中函数系完备性的判定是一个基本而重要的问题,也是自动机理论、多值逻辑网络中必须解决的问题,此问
处理器虚拟化是系统虚拟化的重要组成部分。随着现在系统虚拟化的发展,处理器也在从传统的不支持虚拟化到支持虚拟化架构改变。特别是对于当前已进入多核时代,为了支持系统虚拟
近年来,由于在自由视点电视和三维电视等三维视频中的广泛应用,多视点视频编码技术研究受到了更多的关注。多视点视频是指同一时刻从不同角度的摄像机采集的同一场景的视频序列
人们生产技术不断发展,杂质颗粒检测应用场合越来越多。而随着数字图像处理技术的迅速发展,采用数字图像处理技术完成杂质颗粒的检测越来越能很好的满足人们生活、生产的需要,其