面向机器学习方法的命名实体识别

来源 :东北大学 | 被引量 : 0次 | 上传用户:studentOfJXUFE
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是现在自然语言处理研究的热点[1][2][3][4]。命名实体识别就是在文本中识别出日期、时间、数字、人名、地名、组织机构名和其他实体[8]。命名实体是信息抽取的一个子任务,广泛地被运用到其他计算语言学任务中,比如机器翻译等。 在这篇论文中,我们把机器学习方法用于中文命名实体识别,这里我们使用了最大熵和Boosting两种机器学习的方法。与基于规则的命名实体识别方法相比,基于机器学习方法的命名实体识别系统构造简单,并具有良好的适应性。首先,我们只使用基本的特征建立一个基于字的模型和一个基于词的模型,比较了在这两种策略下的命名实体识别的效果。为了充分利用两种模型的优点,我们把分词信息解构到基于字的模型中,并且在这个模型中使用了一些复杂的语言学特征,实验结果表明,这个模型取得了很好的效果。以此同时,在同样的实验条件下,我们比较了两种方法在命名实体任务上的效果。实验表明,在同等条件下,最大熵的识别效果高于Boosting。 我们使用有限自动机的方法识别时间、日期和、数字实体。因此在机器学习的识别框架中,集中处理人名、地名、组织机构名三种类型的命名实体,减少机器学习算法的复杂度。最后利用文本的全局信息识别命名实体,以提高命名实体识别系统的性能。
其他文献
在信息化、网络化高度发展的今天,新一代网络技术不断革新,虚拟专用网(Virtual Private Network,VPN),因其具有安全性、可靠性、保密性和虚拟性等诸多优点,得到了越来越广泛
本文从传统的软件测试技术出发,结合面向对象编程技术的特点,分析了面向对象软件技术对软件测试技术的影响,并从测试角度对面向对象的基本概念进行了剖析,在此基础上,讨论了面向对
随着智能移动终端功能和用户体验的日益完善,智能手机已经被越来越多的用户使用。研究数据表明,Android手机的购买量正在逐步超越个人电脑。Android系统被应用在越来越多的智能
地理信息系统(GIS)是信息技术(IT)的一个重要组成部分,在信息社会中占有越来越重要的位置。嵌入式GIS(或称“移动GIS”),是新一代地理信息系统发展的代表方向之一,它是运行在嵌
上海电信于1997年起,先后在市区和各个郊区建成各自独立的112系统。2001年上海电信首先在上海市区实现了112系统的互联,即能对市区所有用户线路进行自动测试和障碍报修。但市区
结合煤炭企业的特点,借鉴国内外发展企业集团的经验,煤炭企业组建企业集团时应坚持以下原则:1.要按客观经济规律办事。在组建之初.大型企业集团不宜太多,但要规范,以更好地
8月8日,是新疆经济报系与巴音郭楞蒙古自治州党委、阿克苏地委联办《巴音郭楞日报》和《阿克苏日报》5周年纪念日。5年前,新疆经济报系在中国传媒业首开联办地州党报的先河,
据英国驻华使领馆官方网站3月24日16:35:00 发布的消息,中央电视台(CCTV)落户媒体云集的伦敦。作为中国最大的广播媒体,中央电视台已在伦敦北部的卡姆登成立了新工作室。  作为英国政府的国际商务发展机构,英国贸易投资总署与伦敦官方投资服务机构——伦敦投资局一起为中央电视台落户伦敦做出了贡献。  伦敦是世界闻名的传媒中心,云集了多家国际广播及传媒公司。这些媒体之所以选择伦敦,是因为看中了这里
近年来,自由曲面的绘制,特别是细分曲面的快速绘制算法,成为了计算机图形学领域的一个研究热点。可编程图形处理器GPU(Graphics Processing Unit)的发展日益成熟,它专门为图
随着信息技术的发展,世界经济格局发生了巨大的变化,逐步形成了一个统一的一体化市场,市场竞争日趋激烈,社会的消费观念也不断发生变化,产品的功能已不再是消费者决定购买的