论文部分内容阅读
随着计算机技术全面地融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。互联网、移动互联网、物联网、车联网等都在疯狂的产生着数据。它不仅使世界充斥着比以往更多的信息,而且其数据量以指数级的形式不断增长。微博作为互联网时代最有影响力的产物之一,给人们的日常生活带来了巨大的改变。据2015年微博发布的第三季度财报中显示,截止2015年9月30日,微博月活跃用户(MAU)已达到2.22亿人,较上年同期增长33%,9月份的日均活跃用户数(DAU)达到1亿,较上年同期增长30%。即便如此,中国的网络普及率仍远低于北美国家的平均水平,然而这一数字在未来仍将持续增长。伴随着微博平台的火热发展和其独有的特性,微博营销、微博搜索、微博舆情监测等应用应运而生。如何高效的在海量的微博数据中提取出目标信息就显得愈加重要。地理位置命名实体识别作为命名实体识别的一部分,是自然语言处理的重要任务,是构建问答系统、信息检索、机器翻译的重要基础。另一方面,地理位置命名实体在微帖中常常寓指着事件的发生场所,是信息提取和信息检索的重要组成部分。研究基于微博的地理位置实体的识别不仅能够促进命名实体识别的进一步发展,而且还能更好地服务于人们的日常生活。针对微博地理位置实体的提取,本文主要利用拆分法策略,将地理位置实体拆分成两个部分,分析其语义、结构等特征构建特征库,最后将特征结合到条件随机场进行地理位置实体的识别。本文中对该方法的具体实施措施如下:(1)分析训练数据集中地理位置命名实体(GLNE)的组成结构,将地理位置实体拆分为传统地理位置实体和基础地理位置实体两个基本组成单元,并给出本文研究的地理位置命名实体的形式化定义。(2)根据GLNE的形式化定义,分析中文微博地理位置实体的结构特征、语法特征、GLNE的边界特征等,构建基于中文微博GLNE的外部初始特征库。(3)利用CSC同义词库、同义词词林(扩展版)和知识归纳的方法对外部特征库进行扩展。定义特征重要度,避免在同一文本语句中出现多个特征交叉影响的现象。(4)结合外部特征建立科学的特征模板,进而通过条件随机场模型进行地理位置实体的识别。(5)本文对所提出的方法进行了实验的验证,最终实验结果的准确值P、覆盖率C和F值分别达到了82.51%、82.91%、82.20%,特别是针对组织机构名的识别上有较大的提升效果。