论文部分内容阅读
摘 要:随着微博的流行,对微博的挖掘与研究越来越引起学者的重视,然而目前对微博的研究主要集中在舆情监测、用户信息推荐等,但针对特定领域的微博数据的研究较少,因此,本文选取教育话题这一特定的领域,将实体识别等技术应用于微博的实体识别。实验证明,本文基于新词发现与知识库修正的方法能有效提高实体识别的准确率与召回率。
关键词:微博 新词发现 实体识别
一、引言
目前国内最大的社交平台是新浪微博,截止2015年9月,微博月活跃用户数已经达到2.12亿人,每天发布的微博数量超过1亿条。微博数据中包含了大量的用户情感等重要信息,因此对微博数据的研究也越来越越引起学术界的关注。命名实体识别是自然语言处理技术的基础。国内外对命名实体研究主要集中在传统的命名实体识别,它的主要任务是识别出自由文本中的人名、地名、机构名以及专有名称等,而对特定领域的命名实体识别较少。针对以上微博和命名实体存在的问题,本文尝试将命名实体识别技术应用于微博教育话题数据集,既能扩大实体识别的应用领域,同时也研究了特定领域的微博数据。
二、微博实体识别
1.方法思想和基本框架 。从大规模的特定领域短文微博中识别出命名实体,具有以下几个难题:(1)微博作为一种新型的特殊的短文本存在很大的随意性和大量的未登录词,而未登录词会大大影响分词和实体识别的效果。(2)作为新实体,如何验证与修正错误的实体,提高实体识别的准确率。
本框架主要研究了基于新词发现与知识库修正的方法分别解决了以上的两个难题。通过新词发现方法能有效发现微博中的未登录词,有效提高中文分词的准确率。而基于知识库的修正方法则能有效识别错误的实体并进行修正。
2.数据预处理。实体识别的第一步是对微博数据集进行数据预处理。预处理的过程主要包括中文分词、停用词特殊字符过滤等步骤:(1)中文分词及词性标注。自然语言处理领域中,许多研究都是针对文本中具有含义的最小独立单元做处理。而中文分词是将信息文本的连续字序列切分成单个独立的原子词语的过程。(2)停用词及特殊字符过滤。社交网络中的信息文本表达形式多种多样,除了汉字之外还有很有英文字母、表情符号等特殊字符。由于本文的新词发现只针对中文汉字进行研究,因此,特殊字符对新词发现没有贡献,可以看作噪声进行过滤,使预处理后的文本中只保留汉字信息。
3.候选实体识别。
3.1简单实体识别。简单实体多为简单的名词,本文采用Standford CoreNLP框架进行识别。Standford CoreNLP是由斯坦福大学研发的一个开源自然语言处理框架,它包括了分词、词性标注、句法分析、词汇间的依存关系、命名实体解析器等工具。将上述预处理后的数据调用Standford NER模块进行简单实体识别,结果如下:宋 恩荣 : 中国 地方 教育史 研究 · 总序 过去 对 中国 教育史 的 研究 忽视 了 其他 地区 , 特别是 边远 地区 、 民族 地区 教育 发展 以及 各 民族 教育 交流 融合 的 历史 , 因此 还 不 能 在 更 大 的 范围 内 如实 地 反映 整个 中国 教育史 的 全貌 。
3.2基于新词发现的实体识别。研究发现,复杂实体往往是多个词语或字的搭配组合,能够构成新词的原子词语或字之间的词性也具有一定的关联,通过研究我们总结出一些常见的新词的词性结构,如“动词+名词”,“名词+名词”等。本文通过对分词后的词组进行词性标注,并利用新词构成规则组成新词成为新的候选复杂实体。为了缩小新词的规模以及确定组合新词的合理性,采用一种支持度作为衡量组合词是否为新词的标准之一。支持度反映了某项数据在集合中所占的比例,常常被用于进行关联分析。组合词串的支持度越高,成为新词的概率越大,反之,则词串构成新词的概率越低。剔除支持度较小的词串,筛选出新词集合,将新词集合作为实体识别的输入语料进行实体识别。
4.实体识别修正与合并。统计分析发现新词的平均长度为3.28个汉字。相比普通词语,新词明显更长一些,因此我们可以通过词长判断实体是否准确。如上述识别的宋 ,由于“宋”为常见人名中的姓,因此将“宋”识别为人名,但是该实体长度为1,显然不合理,因此我们需要对它进行修正。我们将“宋”与其后面的词“恩荣“作为新词,采用基于开放知识库的方法判断该新词”宋恩荣“是否为实体。采用百度百科作为新词实体识别的依据。每个百度百科词条都是有明确含义的词语,因此我们可通过调用百度百科的接口查询新词是否在百度百科中有相应的词条。如,新词“宋恩荣”在百度百科中存在响应的词条,因此我们认为“宋恩荣”为实体,修正标记为宋恩荣 。
三、实验与结果分析
1.实验数据来源。为了利用系统完成微博教育话题的实体识别,通过抓取真实的微博数据作为实验对象。目前没有公开的教育话题微博语料,因此本文通过编写网络爬虫抓取教育话题的热门讨论微博,共抓取5000条微博数据。
2.评价指标。使用正确率 P、召回率 R和 F值对实验结果进行评价,具体定义如下:
3.结果及分析。采用Standford CoreNER实体识别框架对教育话题微博进行实体识别,并利用词长特征与开放知识库进行修正。为了本文方法的有效性,分别统计了普通实体识别及利用新词发现实体识别算法的P、R与F值。具体结果如表1所示。
如上表所示,基于新词发现的方法准确率、召回率和F值都有较大的提升。这是由于新词发现能有效识别出微博中的潜在实体,提高中文分词的准确性,从而提高了实体识别的准确性与召回率。而基于词长特征与知识库修正算法能有效修正不合理的实体,因此,实体识别的准确性与召回率也得到了一定程度的提高。
四、结语
将实体识别这一自然语言处理技术应用于微博特定的教育话题实体识别,并利用新词发现的方法提高中文分词的准确度,从而提高实体识别的准确度,此外,还利用词长特征与开放知识库对实体进行修正,提高了实体识别的准确率与召回率。实验证明基于新词发现与知识库修正的方法更准确有效。
参考文献:
[1]郭剑毅,李真,余正涛等,领域文本概念实例、属性和属性值的抽取及关系预测.南京大学学报(自然科学),2012(04):383-389.
[2]孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010,193 ( 06) 42-47.
[3]张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,04:44-48.
[4]耿升華. 新词识别和热词排名方法研究[D]. 重庆: 重庆大学, 2013.
[5]唐波,陈光,王星雅,等. 微博新词发现及情感倾向判断分析[J]. 山东大学学报 (理学版),2015,50(01): 20-25.
关键词:微博 新词发现 实体识别
一、引言
目前国内最大的社交平台是新浪微博,截止2015年9月,微博月活跃用户数已经达到2.12亿人,每天发布的微博数量超过1亿条。微博数据中包含了大量的用户情感等重要信息,因此对微博数据的研究也越来越越引起学术界的关注。命名实体识别是自然语言处理技术的基础。国内外对命名实体研究主要集中在传统的命名实体识别,它的主要任务是识别出自由文本中的人名、地名、机构名以及专有名称等,而对特定领域的命名实体识别较少。针对以上微博和命名实体存在的问题,本文尝试将命名实体识别技术应用于微博教育话题数据集,既能扩大实体识别的应用领域,同时也研究了特定领域的微博数据。
二、微博实体识别
1.方法思想和基本框架 。从大规模的特定领域短文微博中识别出命名实体,具有以下几个难题:(1)微博作为一种新型的特殊的短文本存在很大的随意性和大量的未登录词,而未登录词会大大影响分词和实体识别的效果。(2)作为新实体,如何验证与修正错误的实体,提高实体识别的准确率。
本框架主要研究了基于新词发现与知识库修正的方法分别解决了以上的两个难题。通过新词发现方法能有效发现微博中的未登录词,有效提高中文分词的准确率。而基于知识库的修正方法则能有效识别错误的实体并进行修正。
2.数据预处理。实体识别的第一步是对微博数据集进行数据预处理。预处理的过程主要包括中文分词、停用词特殊字符过滤等步骤:(1)中文分词及词性标注。自然语言处理领域中,许多研究都是针对文本中具有含义的最小独立单元做处理。而中文分词是将信息文本的连续字序列切分成单个独立的原子词语的过程。(2)停用词及特殊字符过滤。社交网络中的信息文本表达形式多种多样,除了汉字之外还有很有英文字母、表情符号等特殊字符。由于本文的新词发现只针对中文汉字进行研究,因此,特殊字符对新词发现没有贡献,可以看作噪声进行过滤,使预处理后的文本中只保留汉字信息。
3.候选实体识别。
3.1简单实体识别。简单实体多为简单的名词,本文采用Standford CoreNLP框架进行识别。Standford CoreNLP是由斯坦福大学研发的一个开源自然语言处理框架,它包括了分词、词性标注、句法分析、词汇间的依存关系、命名实体解析器等工具。将上述预处理后的数据调用Standford NER模块进行简单实体识别,结果如下:
3.2基于新词发现的实体识别。研究发现,复杂实体往往是多个词语或字的搭配组合,能够构成新词的原子词语或字之间的词性也具有一定的关联,通过研究我们总结出一些常见的新词的词性结构,如“动词+名词”,“名词+名词”等。本文通过对分词后的词组进行词性标注,并利用新词构成规则组成新词成为新的候选复杂实体。为了缩小新词的规模以及确定组合新词的合理性,采用一种支持度作为衡量组合词是否为新词的标准之一。支持度反映了某项数据在集合中所占的比例,常常被用于进行关联分析。组合词串的支持度越高,成为新词的概率越大,反之,则词串构成新词的概率越低。剔除支持度较小的词串,筛选出新词集合,将新词集合作为实体识别的输入语料进行实体识别。
4.实体识别修正与合并。统计分析发现新词的平均长度为3.28个汉字。相比普通词语,新词明显更长一些,因此我们可以通过词长判断实体是否准确。如上述识别的
三、实验与结果分析
1.实验数据来源。为了利用系统完成微博教育话题的实体识别,通过抓取真实的微博数据作为实验对象。目前没有公开的教育话题微博语料,因此本文通过编写网络爬虫抓取教育话题的热门讨论微博,共抓取5000条微博数据。
2.评价指标。使用正确率 P、召回率 R和 F值对实验结果进行评价,具体定义如下:
3.结果及分析。采用Standford CoreNER实体识别框架对教育话题微博进行实体识别,并利用词长特征与开放知识库进行修正。为了本文方法的有效性,分别统计了普通实体识别及利用新词发现实体识别算法的P、R与F值。具体结果如表1所示。
如上表所示,基于新词发现的方法准确率、召回率和F值都有较大的提升。这是由于新词发现能有效识别出微博中的潜在实体,提高中文分词的准确性,从而提高了实体识别的准确性与召回率。而基于词长特征与知识库修正算法能有效修正不合理的实体,因此,实体识别的准确性与召回率也得到了一定程度的提高。
四、结语
将实体识别这一自然语言处理技术应用于微博特定的教育话题实体识别,并利用新词发现的方法提高中文分词的准确度,从而提高实体识别的准确度,此外,还利用词长特征与开放知识库对实体进行修正,提高了实体识别的准确率与召回率。实验证明基于新词发现与知识库修正的方法更准确有效。
参考文献:
[1]郭剑毅,李真,余正涛等,领域文本概念实例、属性和属性值的抽取及关系预测.南京大学学报(自然科学),2012(04):383-389.
[2]孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010,193 ( 06) 42-47.
[3]张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,04:44-48.
[4]耿升華. 新词识别和热词排名方法研究[D]. 重庆: 重庆大学, 2013.
[5]唐波,陈光,王星雅,等. 微博新词发现及情感倾向判断分析[J]. 山东大学学报 (理学版),2015,50(01): 20-25.