【摘 要】
:
随着互联网上信息的快速增长,人们迫切需要一些自动化的工具帮助其在海量信息中迅速找到真正需要的信息。信息抽取(Information Extraction)研究正是在这种背景下产生的,关系
论文部分内容阅读
随着互联网上信息的快速增长,人们迫切需要一些自动化的工具帮助其在海量信息中迅速找到真正需要的信息。信息抽取(Information Extraction)研究正是在这种背景下产生的,关系抽取(Relation Extraction)是信息抽取的子任务之一。实体关系抽取的任务是从文本中抽取出两个或者多个实体之间预先定义好的语义关系。本文将实体关系抽取定义为一个分类问题,主要研究内容是中文音乐领域的实体关系抽取。针对这一问题,本文首先构建了中文音乐实体关系语料库,然后分别采用了基于序列模式挖掘的无指导的方法和基于特征提取的有指导的方法来解决这一问题。在语料库的建设过程中,本文参考了ACE语料的构建过程,首先定义了包含11种实体关系的中文音乐领域关系类型体系;接着制定了详细的标注规范并完成了10,000句语料的标注工作。与此同时,本文针对音乐领域和中文的语言学特点,定义了音乐领域的序列模式。由于BootStrapping方法的引入,实体关系种子可自动扩展并可从互联网上挖掘大量的高准确率的序列模式。在评测集上,该方法取得了平均准确率为94.40%的结果。最后,本文基于已标注完成的语料库,研究了音乐领域实体关系抽取的特点,并根据其特点进行了特征选择的研究,分别使用最大熵(Maxent)和支撑向量机(SVM)对特征抽取的结果进行了实验,在相同的测试集上,SVM分类器取得了更好效果。另外,本文还将序列模式分类器与支撑向量机分类器进行了级联,在评测集上取得了平均F值为80.85%的结果。最后,本文还设计和实现了中文音乐实体关系抽取实验平台,在该平台上,研究人员可以集中精力进行挖掘方法和特征选择的改进,提高了研究效率。
其他文献
【正】 捷克首都布拉格不仅建筑古色古香,令人入迷,而且整个城市到处绿树成荫,花团似锦。因此,人们给布拉格冠了一个别致的名字:花园城市。 在布拉格老城,尽管建筑林立,许多
广东省发改委、省住建厅上周向社会公布消息称,自2015年8月15日起放开住宅小区、商业配套停车保管服务收费,以及政府列管以外的露天停车场停车保管服务收费,实行市场调节价管理
目的 探讨老年人血管性帕金森综合征 (VP)影像和临床特点 ,及其与帕金森病合并脑梗死 (PDCI)的区别。 方法 对 47例VP及 30例PDCI住院或长期门诊随访的老年患者的影像学检
全文叙述头颈部癌患者的患病情况、头颈部癌生命质量量表研究及其生命质量测评应用状况。(1)有50多种量表用于头颈部癌生命质量测定,但较好的是FACT-G与FACT-H&N,UWQOL,EORTC
在我国,舆论引导工作一直以来是新闻与传播事业的重要组成部分。随着近年来信息技术的迅猛发展,新媒体已然渗透到每个人的日常生活的各个方面。即时性、互动性、多样性等新媒
惩罚性赔偿是英美法系创造的制度,具有独特的惩罚和遏制功能。我国《消费者权益保护法》第四十九条也有双倍赔偿的惩罚性规定,但在适用中还有许多不尽如人意之处,存在很多局
在历时之轴与共时之轴的交汇点上,体裁是一个享有特权的对象,它完全可能获得殊荣而成为文学研究的主要角色。在当今的文学与语言现实之中,体裁的复杂性与意义得到了新发展与
一、试验目的通过对机采棉种植模式研究,以确定适应新疆植棉区的种植模式,引导棉花生产向机械化、集成化、标准化、规模化方向迈进,全面提升棉花生产机械化技术水平,实现棉花生产
<正>几年前,上海某医院在为一名车祸伤员做截肢手术期间,隔壁手术室内的空气净化器突然起火,在场的护士和麻醉师积极灭火、报警,两名手术医生则坚持继续缝合伤口。后因断电、
从土地综合承载力的角度研究区域耕地资源、空间资源、生态资源问题,是当今生态学、地理学等学科研究的主流之一。地理信息系统(GIS)、系统动力学(SD)等定量研究方法与新技术