面向微博数据的命名实体识别研究与实现

被引量 : 11次 | 上传用户:shajia0902
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着微博日趋流行,它已经成为一种新型的信息发布和传播的社交媒介。截止到2012年12月底,新浪微博的注册用户已达5亿多。微博数据也随之增多,其中包含大量对组织或个人有价值的信息。从而对微博进行信息抽取、分析以及自然语言处理成为当前研究热点。命名实体识别作为这些研究的基础工作就显得尤为重要,但当前针对微博数据的命名实体识别研究还很不成熟,传统的命名实体识别方法在微博数据上无法获得令人满意的结果,从而阻碍后续工作的进行。本文主要研究微博数据上命名实体识别任务。微博数据的一些特有属性导致了传统模型的失效,究其根本主要有以下四点原因:一是每条微博篇幅短小,包含信息量有限,对于命名实体识别来说,难以充分融合大量相关信息;二是微博中充斥了大量噪音数据,加上模型抗噪能力差的问题,导致模型在训练时发生“过拟合”现象;三是对于微博的研究往往缺乏大量完备的训练语料导致模型训练不足,为获取训练数据需要耗费大量的人力资源;四是微博数据具有信息更新速度快的特点,模型适应能力差导致发生模型“欠拟合”现象。经实验表明,传统命名实体识别方法在微博数据上F1值会下降20%之多。为了解决上述问题,本文综合了多种技术实现了微博数据上命名实体识别任务,获得结果的准确率、召回率及F1值分别为:83.7%、79.8%、81.8%。该结果相对传统方法有了很大的提高。本文从以下几个方面克服了传统模型在微博数据上的劣势:一是建立了一个半监督命名实体识别框架,将预测结果连同之前的训练数据重复训练模型解决了缺乏训练数据的问题,同时使模型更加能够适应数据时常更新的环境;二是在CRFs模型的基础上结合了一个KNN分类器,从而能够充分利用微博序列的全局信息和每条微博的局部信息,提高了结果的准确率和召回率;三是半监督框架中添加了对数据进行规范化的模块完成去噪和数据规范处理操作,而且为了对命名实体结果进行优化,还增加了一个实体归一化模块,在修正命名实体结果的同时,获得共指关系集合为后续工作提供了便利。
其他文献
本文以重要形变件———弯管局部阻力系数的研究成果为例 ,说明现有形变件局部阻力系数取值存在的问题及开展局部阻力系数研究的紧迫性。文章论述了形变件模型试验的相似性、
在中职学前教学专业中,钢琴弹奏是学生必须要掌握的技能之一,受限于学生的个体差异,在钢琴教学当中教师要抓基础,注重提高学生的学习兴趣,因材施教,以对学生的乐趣表现力进行
21世纪是世界飞速发展的时期,各国的经济、文化和科技日益开放,同时机遇和挑战在这个时代并存,人类正以空前的速度迈进全球化。不同的国家和民族不仅在经济上互相影响,而且在文化
国防实力是综合国力的重要组成部分。统筹经济建设和国防建设,在全面建设小康社会进程中实现富国和强军的统一,继承和发展了我们党一贯坚持的有关原则和方针,充分体现了深入
英语写作能力是大学生应具备的重要外语技能之一。英语写作练习是检验和提高大学生英语语言综合运用能力的一种有效方式。培养学生较强的写作能力是大学英语教学的主要目标之
很多中药有效成分或部位存在溶解度低,导致药物吸收受限、生物利用度低,因而其新药开发及临床用药也受到了极大限制。纳米混悬(nanosuspensions)给药系统为解决中药难溶性成
以梯级总发电量最大为目标建立大规模水电站群发电优化调度模型,对长江流域17座大型骨干性水电站进行长期发电优化调度研究。针对大规模水电站群优化求解中存在的"维数灾"问
智能电网需要全景的状态数据。电网运行、检修和管理过程中会产生海量异构、多态的数据,也即大数据。如何对它们进行高效、可靠、低廉地存储,并快速访问和分析,是当前重要的
介绍了配电网无功补偿技术的现状,分析了配电网无功补偿工作中现存的技术问题,指出从电力系统角度进行综合考虑的线路无功补偿是配电网降损节能的有效手段,并提供了有关技术分析
随着特钢企业通过不断的并购重组,企业的规模不断扩大,同时在企业网络中传输的信息也从单一的数据业务扩展到语音、视频与数据业务并存,不同地域间的生产基地,彼此之间经常需