基于新词发现与知识库的微博命名实体识别研究

来源 :经营管理者·中旬刊 | 被引量 : 0次 | 上传用户：xh7304

【摘要】

：

【作者】

：

陈桂强

【出处】

：

经营管理者·中旬刊

【发表日期】

：

2017年4期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：随着微博的流行，对微博的挖掘与研究越来越引起学者的重视，然而目前对微博的研究主要集中在舆情监测、用户信息推荐等，但针对特定领域的微博数据的研究较少，因此，本文选取教育话题这一特定的领域，将实体识别等技术应用于微博的实体识别。实验证明，本文基于新词发现与知识库修正的方法能有效提高实体识别的准确率与召回率。
　　关键词：微博新词发现实体识别
　　一、引言
　　目前国内最大的社交平台是新浪微博，截止2015年9月，微博月活跃用户数已经达到2.12亿人，每天发布的微博数量超过1亿条。微博数据中包含了大量的用户情感等重要信息，因此对微博数据的研究也越来越越引起学术界的关注。命名实体识别是自然语言处理技术的基础。国内外对命名实体研究主要集中在传统的命名实体识别，它的主要任务是识别出自由文本中的人名、地名、机构名以及专有名称等，而对特定领域的命名实体识别较少。针对以上微博和命名实体存在的问题，本文尝试将命名实体识别技术应用于微博教育话题数据集，既能扩大实体识别的应用领域，同时也研究了特定领域的微博数据。
　　二、微博实体识别
　　1.方法思想和基本框架。从大规模的特定领域短文微博中识别出命名实体，具有以下几个难题：（1）微博作为一种新型的特殊的短文本存在很大的随意性和大量的未登录词，而未登录词会大大影响分词和实体识别的效果。（2）作为新实体，如何验证与修正错误的实体，提高实体识别的准确率。
　　本框架主要研究了基于新词发现与知识库修正的方法分别解决了以上的两个难题。通过新词发现方法能有效发现微博中的未登录词，有效提高中文分词的准确率。而基于知识库的修正方法则能有效识别错误的实体并进行修正。
　　2.数据预处理。实体识别的第一步是对微博数据集进行数据预处理。预处理的过程主要包括中文分词、停用词特殊字符过滤等步骤：（1）中文分词及词性标注。自然语言处理领域中，许多研究都是针对文本中具有含义的最小独立单元做处理。而中文分词是将信息文本的连续字序列切分成单个独立的原子词语的过程。（2）停用词及特殊字符过滤。社交网络中的信息文本表达形式多种多样，除了汉字之外还有很有英文字母、表情符号等特殊字符。由于本文的新词发现只针对中文汉字进行研究，因此，特殊字符对新词发现没有贡献，可以看作噪声进行过滤，使预处理后的文本中只保留汉字信息。
　　3.候选实体识别。
　　3.1简单实体识别。简单实体多为简单的名词，本文采用Standford CoreNLP框架进行识别。Standford CoreNLP是由斯坦福大学研发的一个开源自然语言处理框架，它包括了分词、词性标注、句法分析、词汇间的依存关系、命名实体解析器等工具。将上述预处理后的数据调用Standford NER模块进行简单实体识别，结果如下：宋恩荣：中国地方教育史研究 · 总序过去对中国教育史的研究忽视了其他地区，特别是边远地区、民族地区教育发展以及各民族教育交流融合的历史，因此还不能在更大的范围内如实地反映整个中国教育史的全貌。
　　3.2基于新词发现的实体识别。研究发现，复杂实体往往是多个词语或字的搭配组合，能够构成新词的原子词语或字之间的词性也具有一定的关联，通过研究我们总结出一些常见的新词的词性结构，如“动词+名词”，“名词+名词”等。本文通过对分词后的词组进行词性标注，并利用新词构成规则组成新词成为新的候选复杂实体。为了缩小新词的规模以及确定组合新词的合理性，采用一种支持度作为衡量组合词是否为新词的标准之一。支持度反映了某项数据在集合中所占的比例，常常被用于进行关联分析。组合词串的支持度越高，成为新词的概率越大，反之，则词串构成新词的概率越低。剔除支持度较小的词串，筛选出新词集合，将新词集合作为实体识别的输入语料进行实体识别。
　　4.实体识别修正与合并。统计分析发现新词的平均长度为3.28个汉字。相比普通词语，新词明显更长一些，因此我们可以通过词长判断实体是否准确。如上述识别的宋，由于“宋”为常见人名中的姓，因此将“宋”识别为人名，但是该实体长度为1，显然不合理，因此我们需要对它进行修正。我们将“宋”与其后面的词“恩荣“作为新词，采用基于开放知识库的方法判断该新词”宋恩荣“是否为实体。采用百度百科作为新词实体识别的依据。每个百度百科词条都是有明确含义的词语，因此我们可通过调用百度百科的接口查询新词是否在百度百科中有相应的词条。如，新词“宋恩荣”在百度百科中存在响应的词条，因此我们认为“宋恩荣”为实体，修正标记为宋恩荣。
　　三、实验与结果分析
　　1.实验数据来源。为了利用系统完成微博教育话题的实体识别，通过抓取真实的微博数据作为实验对象。目前没有公开的教育话题微博语料，因此本文通过编写网络爬虫抓取教育话题的热门讨论微博，共抓取5000条微博数据。
　　2.评价指标。使用正确率 P、召回率 R和 F值对实验结果进行评价，具体定义如下：
　　3.结果及分析。采用Standford CoreNER实体识别框架对教育话题微博进行实体识别，并利用词长特征与开放知识库进行修正。为了本文方法的有效性，分别统计了普通实体识别及利用新词发现实体识别算法的P、R与F值。具体结果如表1所示。
　　如上表所示，基于新词发现的方法准确率、召回率和F值都有较大的提升。这是由于新词发现能有效识别出微博中的潜在实体，提高中文分词的准确性，从而提高了实体识别的准确性与召回率。而基于词长特征与知识库修正算法能有效修正不合理的实体，因此，实体识别的准确性与召回率也得到了一定程度的提高。
　　四、结语
　　将实体识别这一自然语言处理技术应用于微博特定的教育话题实体识别，并利用新词发现的方法提高中文分词的准确度，从而提高实体识别的准确度，此外，还利用词长特征与开放知识库对实体进行修正，提高了实体识别的准确率与召回率。实验证明基于新词发现与知识库修正的方法更准确有效。
　　参考文献：
　　[1]郭剑毅，李真，余正涛等，领域文本概念实例、属性和属性值的抽取及关系预测.南京大学学报（自然科学），2012（04）：383-389.
　　[2]孙镇，王惠临.命名实体识别研究进展综述[J].现代图书情报技术，2010，193 （ 06） 42-47.
　　[3]张晓艳，王挺，陈火旺.命名实体识别研究[J].计算机科学，2005，04：44-48.
　　[4]耿升華. 新词识别和热词排名方法研究[D]. 重庆：重庆大学， 2013.
　　[5]唐波，陈光，王星雅，等. 微博新词发现及情感倾向判断分析[J]. 山东大学学报（理学版），2015，50（01）： 20-25.

其他文献

国有企业与参建单位共同开展廉洁企业建设的思考和实践探索

摘要：本文以成都地铁建设分公司为例，分析了国有企业与参建单位共同开展廉洁企业建设的相关思考和实践探索，提出了国有企业与参建单位共同开展廉洁企业建设的经验和做法。　　关键词：国有企业参建单位廉洁企业建设思考探索　　廉洁企业建设是市国资委为进一步推动国有企业党风廉政建设与反腐败工作，提升企业整体形象和综合竞争力的重要举措。建设分公司围绕地铁建设中心工作，服务企业改革发展，着力构建具有成都地铁

期刊

关于推进国有企业党建工作创新的几点看法

摘要：国有企业是我国国民经济的重要经济支柱，同时也是我国全面深化经济体制改革的重点环节，我国国有企业党建的创新对我国社会主义基本经济制度有着十分重要的影响，国有企业党建创新有利于增强我国国有企业的活力，增强我国国有企业在整个市场中的竞争力，也有利于提高国有企业的工作效率，但近几年，一些国有企业在推进党建工作的过程中出现了很多不足之处，本文就这些弊端提出了几点看法。　　关键词：国有企业党建工作

期刊

浅谈电信公司政工队伍建设

摘要：政工队伍是电信公司一股重要的力量，对电信公司的发展有着至关重要的作用。伴随着企业改革的全面发展，对政工队伍建设工作要求也越来越高，电信公司属于服务行业，其要想为客户提供全面的服务，获得好的社会效益和经济效益，就必须重视政工队伍建设工作。本文就电信公司政工队伍建设进行了相关的分析。　　关键词：电信公司政工队伍建设　　一、引言　　电信公司是我国国有经济的重要组成部分，加大电信公司的发展有助于

期刊

工匠精神助推辽宁老工业基地振兴现实意义解析

摘要：本文从工匠精神的内涵出发，指出当下强力推进工匠精神进校园的重要性。接着展开论述工匠精神的现实意义，结果表明高职院校作为高素质技能人才培养的主要阵地，“工匠精神”培育理应成为教育教学过程中的重要任务，也只有这样才会推动我省装备制造业的从大到强的升级，实现与制造业强国的对接。　　关键词：工匠精神高职院校老工业基地制造业　　一、工匠精神的由来和内涵　　1.工匠精神的由来。工匠精神是一个极富

期刊

强化思想注重行动讲究方法以上率下大力夯实党支部建设成果

2016年是党内全面开展“两学一做”教育实践活动年。在河钢宣钢公司党委正确领导下，实业发展总公司党委认真贯彻落实上级党委安排部署，紧密结合企业行政工作实际，及时制定措施，突出问题导向，认真开展“两学一做”活动。活动中，实业公司党委一班人在面对转型发展新形势，坚持以市场化为导向，把谢董事长提出的“三个拓展、三种意识”非钢发展理念落到实处，坚持领导带头率先垂范，以上率下，抓经常、抓覆盖、抓指导、抓推动

期刊

挖掘地方革命传统宝贵资源，增强党的拒腐防变能力

摘要：革命传统是共产党的宝贵财富，在我国的革命和建设中曾经起到了重要的作用，海南琼崖革命的优良传统使琼崖革命坚持二十三年红旗不倒。海南琼崖革命具有以下几方面的优良传统：具有坚定的共产主义理想和马克思主义的信念的优良传统、具有自立自强孤岛奋战的优良传统、具有密切联系群众的优良传统、具有五湖四海，民族大团结的优良传统、具有英勇斗争，不怕牺牲的优良传统、具有一切从实际出发，实事求是的优良传统。　　关键

期刊

企业党建发展和企业文化创新共生效应研究

摘要：在当前市场经济环境中，企业发展面临问题较多。其中，企业内部的党建发展和企业文化创新作用巨大，在企业发展壮大过程中，两者的结合、共生也显得尤为重要。本文对党建发展与企业文化创新共生上做了深入研究，对两者的有效结合提出了相应建议。　　关键词：企业党建企业文化共生效应　　一、企业党建与企业文化内涵与关系　　企业党建。党建工作是企业管理中一个相当重要课题，党建工作对于企业发展有着相当重要作用，

期刊

新形势下医院思想政治工作建设的发展与创新

摘要：新形式下，医院的思想政治工作建设有待改革，针对医院作风里存在的消极腐败、不健康的趋势，医院管理组织应该立即加大管制力度，在医德医风教育工作中积极改进发展思路与途径方法，调整医务人员健康的价值取向，提升管理人员的思想觉悟，对医务实行民主管理，不断强化职员的职业道德意识。　　关键词：医院建设思政工作医院发展医院创新医院德育　　一、新形势下医院思想政治工作建设的内容　　新形势下的思想政治

期刊

西游记文化衍生品开发与产业链延伸构想

摘要：在文化衍生品市场竞争日趋激烈的今天，西游记文化衍生品的开发应该在挖掘西游记原创内容基础上，根据不同消费群体对西游记人物形象的喜好和个性化表达需求，开发各具特色、各含蕴意的衍生产品。同时从IP互通与跨界融合角度，探讨了打造西游记文化产业链的构想。其中的许多构想可供有关方面参考。　　关键词：西游记文化衍生品产业链延伸　　西游记文化博大精深，作为四大名著之一的西游记，既是一座文学宝库，更蕴藏

期刊

电力企业纪检监察工作有效性研究

摘要：国民经济建设进程中，电力企业地位日渐重要，加快企业发展改革，成为当前稳定国民经济的重要途径。对电力企业来说，为确保改革发展的顺畅有序，首要环节在于加强纪检监察。因此，本文由电力企业工作现状入手，探讨了开展纪检监察工作存在的问题，并就如何提升纪检监察工作有效性制定了科学对策。对全面提升电力企业核心竞争力，推动其在改革的浪潮中越战越勇，有重要的实践意义。　　关键词：电力企业纪检监察有效性　

期刊

基于新词发现与知识库的微博命名实体识别研究

与本文相关的学术论文