基于微博中嵌套命名实体识别的研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:pzchh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着中国互联网建设的不断完善及发展,网络逐渐渗透进社会各行各业和人们生活各方各面。多样化的互联网应用为我们带来巨大的便捷性,许多网民通过互联网进行网上社交娱乐、购物支付等。网络社交平台,如Twitter、新浪微博等,已经成为众多网民间沟通交流、获取信息的重要媒介与途径。人们利用这类社交平台发表、分享自己感兴趣的文字、图片、视频等信息。然而随之带来的是每天海量数据的产生,如何从这些大规模数据中提取有用的信息,并运用这些信息知识带动社会的发展与进步,显得尤为重要,也是数据挖掘领域的一大新的挑战。当前,嵌套命名实体识别作为命名实体识别任务的主要组成部分,是许多科学研究(如:问答系统、知识图谱、人工智能等)中最为基础、核心的技术之一,并且其相关识别方法成果在实际生活中也具有广泛的应用。中文的复杂性导致在文本内往往存在着较多的嵌套命名实体。现有的命名实体识别方法能够较好的识别出结构相对简单的基本命名实体,但对于结构复杂的嵌套命名实体却很难完整地、准确地识别出来,再加上现有方法多集中于常规文本中的命名实体识别研究。针对微博中嵌套命名实体的提取,本文在分析其层次结构的基础上,将嵌套命名实体的识别任务拆分为两个部分,并通过合理构建特征库、外部语义知识库以及特征模板等手段进行微博中嵌套命名实体的识别。本文的主要研究内容包含以下几点:1.本文在对嵌套命名实体的结构分析基础上,给出其独有的5种层次结构特征类型,并认为嵌套命名实体的识别在结构相对简单的基本命名实体识别之后更加合适。因此,本文提出了一种基于层叠条件随机场模型的微博中嵌套命名实体识别方法,该方法将识别任务划分为两个阶段:首先在一个条件随机场模型解决结构相对简单的人名、地名以及机构名等基本命名实体的识别,然后将识别结果传递到另一个条件随机场模型中为实现对嵌套命名实体的识别提供决策依据。2.本文提出了一种基于词性标记的嵌套命名实体特征词自动提取算法,构建嵌套命名实体特征库。同时,本文针对特征词重要度这一个概念,提出了自己的改进方法。除此之外,本文人工地构建一个外部语义知识库,使得识别模型能够获取到足够丰富的信息来进行判别。3.本文针对层叠条件随机场中的低层与高层条件随机场识别模型,分别构建出合适的特征模板集合,并提出一种基于特征重要度的特征模板选取策略,提高识别模型的整体识别效果。4.最后,本文通过对比实验的方式,比较了不同窗口大小对识别过程中的精确率、召回率以及F值的差异影响,最终选定识别模型中合适的窗口大小。此外,最终实验结果证明本文提出的基于层叠条件随机场的微博嵌套命名实体识别方法较其他方法来说有较高的精确度、召回率、F值并且比较稳定。
其他文献
建立和完善新型农村合作医疗制度,是党中央、国务院为增强农民抵御大病风险的能力、保护农民身体健康、促进农村经济发展和社会稳定作出的重大决策。这一制度实施了五年多,取得
保持社会和谐稳定的基本条件是法律的约束和制约,而公平公正是法律得以实施的重要保障。文章认为,当前应进一步完善法律法规,加大执法力度,保证法律的公平正义,进而保证国家
目的观察动脉内超选择性溶栓或/和血管内支架成形术治疗急性或进展性缺血性脑梗死的疗效及并发症。方法采用随机对照方法,将38例因粥样硬化所致急性或进展性脑血管栓塞病例,分为
前文已谈到了观光农业园以观光为主的各种栽培模式和技术,其主要管理目标是维持稳定的景观效果,对产品实行有计划采收,而且以园区内部工作人员进行采收和技术管理为主,一般游
建设有中国特色的社会主义,发展社会主义市场经济,必须坚持和弘扬集体主义价值观.集体主义价值观应当成为新时期社会价值体系的主旋律,成为人们普遍的价值取向原则.
张家港市在短短几年内迅速崛起,经国家统计局评定,名列全国综合实力百强县(市)第二位.漫步在张家港市街头,崭新的楼房井然有序,道路宽畅整洁,人们彬彬有礼,文明相处.物质文明
根据农业部部署,江苏省将在今明两年内创建17个全面推行标准化生产的样板型蔬菜标准园,以引领农民发展蔬菜规模种植。
<正>散光的症状表现为:无论物体远近,视物都会模糊不清,与波浪形玻璃板、哈哈镜所产生的效果类似。从医学角度来讲,散光现象的产生是由于进入眼球的平行光线各经线焦点不在一
<正> 一、下丘脑-垂体已发现脑β-内啡肽(BEP)的最高浓度在下丘脑中部。BEP在促性腺激素水平抑制该激素,尤其是LH的分泌。给与纳洛酮显著增高血清LH水平,健康男子静注同类拮
吻合口漏是低位直肠癌术后常见和严重的并发症,回肠造瘘在预防吻合口漏中具有一定的价值。笔者对回肠造瘘的还纳时机、无法还纳的原因、还纳相关的并发症以及卫生经济学等方