音乐命名实体识别技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:fulva
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体(Named Entity,NE)识别的任务是识别出文本中特定的实体,它是信息抽取、机器翻译、信息检索和自动问答等多种自然语言处理技术的重要基础。本文研究的是音乐领域的命名实体识别,识别的实体包括音乐名、艺术家名、专辑名和艺术家别名4类。目前命名实体识别领域主要有规则和统计两类方法。规则方法简单直观,但规则的建立过程费时费力,不易移植。统计方法的健壮性和灵活性更好,可以方便地在不同领域之间移植,但统计模型的训练要求大规模高质量的标准语料库,而语料的标注工作同样需要消耗大量的人力物力。本文根据音乐命名实体的特点,在语料库规模有限、语料质量较差的条件下,提出一种规则和统计模型相结合的分类方法来进行音乐NE的识别。首先通过音乐专业词典以及两条简单的规则匹配出音乐NE的候选,然后通过最大熵(Maximum Entropy,ME)模型进行分类完成音乐NE的识别。为了更加直观地展示这种分类方法的特点,文中将它和词典匹配方法、基于隐马尔可夫模型(Hidden Markov Model,HMM)的序列标注方法以及基于最大熵马尔可夫(Maximum Entropy Markov Model,MEMM)的序列标注方法进行了比较实验。实验证明我们的分类方法的音乐NE识别性能最好。本文还着重研究了ME模型特征中词典信息对于音乐NE识别的作用,结果显示其贡献很大。总的来说,本文提出的分类方法能够使用更加丰富的特征,更加有效地利用音乐词典的信息,克服了语料库规模较小、质量较差的困难,达到了较好的音乐NE识别效果。此外,相对于MEMM序列标注,该方法还有模型小,运行效率高的优点。
其他文献
随着新一代互联网——语义Web——研究的不断深入,本体(ontology)正在成为人工智能和知识工程中一种重要的工具,在知识的获取、表示、分析和应用等方面具有重要的意义。本体
视频全局运动(摄像机运动)所表现的视频序列之间的时间相关性,较其它视频特征更能表达视频序列的高层语义信息。为了实现动态背景视频的快速分割,如何能够有效快速的得到视频
经过十多年的建设,我国电子政务建设取得了巨大的成就,政府各部门已经有很多的应用系统投入使用。但是这些系统往往采用不同的开发语言以及不同的操作系统平台,导致系统之间信息
学位
学位
随着计算机网络技术的迅猛发展,网络流量的特性随之发生了根本性的变化。近十多年来的大量研究结果表明,网络流量普遍存在自相似、长相关性,这种特性对网络流量建模、性能分
频繁模式挖掘是数据挖掘和知识发现领域的重要研究内容之一,它是指从数据库中挖掘出频繁出现的模式,包括频繁项集、频繁子序列(又称序列模式)和频繁子结构。作为频繁模式挖掘
互联网时代的来临,使得各种电子文本数据急速增加,如何快速、有效的使用与管理这些数据,已经成为信息系统学科迫切需要解决的问题。而文本分类技术是信息处理技术的重要研究
数字图像作为多媒体技术中信息最直接的载体,在数字时代正发挥着越来越重要的作用。但是由于客观原因,数字图像在实际应用中会不可避免的引入各种各样的失真,所以用于评价各
数据库技术五十年来的不断进步,极大地推动了政府和企业信息化建设的进程。伴随着上个世纪九十年代以来Internet的飞速发展,政府和企业迫切需要将分散的应用系统集成起来,以