论文部分内容阅读
近几年来,微博服务迅速发展,已经成为了人们日常信息交流、资源共享的重要平台,微博文本的数量也呈现出爆炸式增长,如何从浩瀚的微博中快速的获取有效的信息给人们带来了严峻的挑战。海量的微博短文本给信息处理提供了一个新的载体,基于微博文本的信息检索、信息抽取、舆情分析、知识图谱构建等研究应运而生。作为这类信息处理研究中的一个共同而基础的问题--命名实体识别技术的研究也越来越受到研究者们的关注。由于微博短文本内容简短、语言口语化、形式不规范等特点,传统的基于正规形式文本(新闻、文章等)的命名实体识别方法存在一定的不适应,带来因信息噪声干扰过大或者特征选取不恰当而引起的识别效果降低和系统开销过大等问题。为了规范微博文本,使其更加符合语言学的要求,本文首先认真分析了微博语言的特性,采取了一系列有针对性的正规化预处理方法。其次,为了加强特征选择的适应性,同时减少特征冗余带来的训练模型的时间消耗,本文采用了一种两阶段的策略来识别微博文本中的命名实体,即把识别任务分为命名实体边界检测和命名实体类型判定两个步骤。在第一阶段中,我们针对预处理后的微博文本,运用条件随机场模型来检测命名实体,并没有对其进行分类;然后,对识别出的命名实体进行后处理操作之后,我们采用另一个条件随机场模型来判定实体类型,并且将第一阶段的实体识别结果作为输入特征融入到该模型中。在不同阶段的条件随机场模型中,我们为不同的特征选择设置不同的特征模板,主要包括位置特征、字特征、词性特征、拼音特征、首/尾字库特征、边界提示词库特征、常用命名实体词典特征七个方面,并验证了各个特征选择对命名实体识别的影响。随着特征选择的适应性以及各个阶段标记标签数的减少,基于条件随机场的两阶段策略能够在提高命名实体识别效果的同时,有效的减少系统的训练时间;再加上特征扩展的后处理操作更加进一步提高我们方法的查全率和准确率。本文通过对比实验验证了不同的特征选择对命名实体边界检测结果有所偏差,其中效果最好的是常用命名实体词典特征的加入,在基于字特征的基础上F值提高了11.43%;同时,两阶段的命名实体识别方法的实验结果验证了在微博短文本中的可行性,而且与基于条件随机场的一阶段方法相比,在训练时间大大减少的前提下,最终F值达到了81.53%。