基于条件随机场的两阶段中文微博命名实体识别研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:wsx19810518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,微博服务迅速发展,已经成为了人们日常信息交流、资源共享的重要平台,微博文本的数量也呈现出爆炸式增长,如何从浩瀚的微博中快速的获取有效的信息给人们带来了严峻的挑战。海量的微博短文本给信息处理提供了一个新的载体,基于微博文本的信息检索、信息抽取、舆情分析、知识图谱构建等研究应运而生。作为这类信息处理研究中的一个共同而基础的问题--命名实体识别技术的研究也越来越受到研究者们的关注。由于微博短文本内容简短、语言口语化、形式不规范等特点,传统的基于正规形式文本(新闻、文章等)的命名实体识别方法存在一定的不适应,带来因信息噪声干扰过大或者特征选取不恰当而引起的识别效果降低和系统开销过大等问题。为了规范微博文本,使其更加符合语言学的要求,本文首先认真分析了微博语言的特性,采取了一系列有针对性的正规化预处理方法。其次,为了加强特征选择的适应性,同时减少特征冗余带来的训练模型的时间消耗,本文采用了一种两阶段的策略来识别微博文本中的命名实体,即把识别任务分为命名实体边界检测和命名实体类型判定两个步骤。在第一阶段中,我们针对预处理后的微博文本,运用条件随机场模型来检测命名实体,并没有对其进行分类;然后,对识别出的命名实体进行后处理操作之后,我们采用另一个条件随机场模型来判定实体类型,并且将第一阶段的实体识别结果作为输入特征融入到该模型中。在不同阶段的条件随机场模型中,我们为不同的特征选择设置不同的特征模板,主要包括位置特征、字特征、词性特征、拼音特征、首/尾字库特征、边界提示词库特征、常用命名实体词典特征七个方面,并验证了各个特征选择对命名实体识别的影响。随着特征选择的适应性以及各个阶段标记标签数的减少,基于条件随机场的两阶段策略能够在提高命名实体识别效果的同时,有效的减少系统的训练时间;再加上特征扩展的后处理操作更加进一步提高我们方法的查全率和准确率。本文通过对比实验验证了不同的特征选择对命名实体边界检测结果有所偏差,其中效果最好的是常用命名实体词典特征的加入,在基于字特征的基础上F值提高了11.43%;同时,两阶段的命名实体识别方法的实验结果验证了在微博短文本中的可行性,而且与基于条件随机场的一阶段方法相比,在训练时间大大减少的前提下,最终F值达到了81.53%。
其他文献
日本为了争夺包括石油在内的重要战略资源的控制权,拓展生存空间,在远东挑起了第二次世界大战。对石油的控制和占有成为日本制定军事战略的重要因素,日本不仅视石油为生死攸
利用H11-sensit风蚀传感器、风速仪、微梯度集沙仪,于2014.72014.8在塔克拉玛干沙漠腹地塔中地区进行了风沙流跃移和蠕移运动连续观测试验,分析了该区域典型天气和不同风速下
目的探讨经鼻内窥镜垂体瘤切除的应用价值.方法采用直径4 mm0°、30°的内窥镜对5例垂体瘤病人,在内窥镜电视监视下经单鼻腔蝶窦入路切除垂体腺瘤.结果1例大腺瘤及1
高校是科技创新的重要主体,在创新驱动发展战略中占据不可替代的地位。近五年的数据表明,福建高校科技创新能力在原始创新能力、理论创新能力、技术产出能力、技术转化能力等
地下水监测基础工作主要包括监测站网建设和地下水动态监测两方面。陕西省地下水监测工作起始于上世纪七十年代,到九十年代后期,由于经费问题以及井网的长期运行,监测井淤积
随着计算机技术全面地融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。互联网、移动互联网、物联网、车联网等都在疯狂的产生着数据。它不仅使世界充斥着比以往
目的分析冠心病心绞痛患者应用缓解心绞痛速效制剂的临床情况并提出应用建议。方法收集明确诊断为冠心病心绞痛的患者,对其临床应用速效制剂情况进行横断面调查,同时对不同心
近年来,高校能源消耗过高的问题日益得到相关领域的重视,越来越多的专家学者意识到高校能源浪费现象的严重性与迫切性。有研究显示,一座城市中仅仅占3%-7%建筑总量的高校所消
回顾了数据库和数据库技术发展历史 ,介绍了几种目前使用的数据库系统 ,并论述了其发展趋势。