面向微博文本的命名实体识别

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:liongliong427
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是自然语言处理领域的重点研究方向之一,是信息抽取、信息检索、信息过滤、问答系统、机器翻译等多种自然语言处理技术必不可少的组成部分。近几年,随着微博的兴起与发展,微博文本作为命名实体识别新的载体,逐渐得到越来越多相关研究人员的重视。由于微博文本与传统文本在表达形式上具有很大差别,使得传统的命名实体识别方法在微博文本上面临新的挑战。因此研究面向微博文本的命名实体识别能促进自然语言处理技术在微博等新媒体上的发展,具有重要的理论意义和应用价值。本文主要研究面向微博文本的以人名、地名、机构名为核心的中文命名实体识别相关技术。微博文本由于自身的特点,其内部隐藏着大量可供命名实体识别使用的重要信息。本文首先通过比较微博文本与传统文本的区别,挖掘出微博文本自身的结构与内容上的特点;对有利于命名实体识别的标签、评论转发等特点加以利用,对不利于命名实体识别的语言不规范、简称、代称等特点通过统计的方法加以克服。在此基础上,本文提出了一种基于统计与规则相结合的命名实体识别的方法。该方法在分词的基础上,通过构建好的常用字词表进行常用字词过滤,再利用统计的方法对微博文本的评论转发内容进行统计分析,最后配合使用命名实体边界规则信息进行命名实体的识别。通过实验表明,该方法对于微博文本中的命名实体识别达到了一定的精度,在对2013年5月份的30000条微博文本语料上进行测试,命名实体识别的F值可以达到97.93%。与传统文本相比,微博文本在文本长度、文本质量等方面都有较大差距,而与传统文本中命名实体识别相比,微博文本的命名实体识别无论是在在文本处理深度还是在知识资源支持等方面都还有很大的不足。因此在工作过程中,对微博文本的每一个特征,我们都分析了现有资源和方法对面向微博文本的命名实体识别的支持和制约,探索性的研究了具有一定鲁棒性的命名实体识别的方法,以期为进一步的研究奠定基础、找到突破口,以便为下一步工作提供经验。
其他文献
安全信用是施工企业信用的重要组成部分.通过建立一套完整的施工企业安全信用指标体系,并对其权重进行分析,确定了影响安全信用因素的重要性;同时应用模糊综合评价方法,实现
一、贮藏瓜的采收供长期贮藏的甜瓜可较正常采收期提前4~6天采摘,采摘时留1~2厘米果柄用刀或剪刀切除。
母牛怀孕后必须精心喂养,做好保胎工作,保证胎儿在母体内正常生长发育,争取母牛产出的犊牛健康活泼,活力强.孕牛保胎的具体方法如下.
<正> 一、改小群体散养为规模化饲养,推广集约化饲养新技术农村养羊多分散在千家万户之中,少则几只,多则几十只,很难采用先进实用技术。在我国大力促进土地流转政策的推动下,
农7师和乌苏市位于准噶尔盆地西南缘,这里属温带干旱区域,具有典型的大陆气候特征.夏季炎热、干燥,冬季寒冷,春季升温快且冷暖波动大,秋季降温迅速,无霜期短,年降水量稀少,昼
多为急性子宫炎,发病时间通常在产后5~6天,而最危险的感染期是产后第一天。其发病特点是:子宫颈开张,微生物易于侵入;胎衣不下及恶露滞留是微生物大量繁殖的良好环境;子宫阜组织的损
早期的英国法院对适航义务的认定采绝对责任,法院判例主要集中在船舶本身适航与适货这两个方面。到了19世纪末,随着契约自由理念的泛滥,提单的免责事项甚至包括船舶不适航的
目的:探讨用微创颅内血肿清除术治疗高血压性基底节区脑出血的临床疗效。方法:将2012年1月-2014年1月我院收治的120例高血压性基底节区脑出血患者作为研究对象,在征询其意愿
我国互联网的普及给各行各业都带来了一定的冲击,其中传统媒体首当其冲。互联网技术的广泛应用让新媒体迅速兴起,这给传统媒体提出了巨大的挑战,传统媒体与新媒体的融合势在
面临当今世界生态危机,本文主要介绍了我们在平时的教育教学工作中,应从"充分挖掘生物教学的内容"、"发挥实验教学的特殊作用"、"把握课外活动的最佳时机"等三个方面的策略来加强对