中文微博的地理位置命名实体识别研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:hongchaozhang88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术全面地融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。互联网、移动互联网、物联网、车联网等都在疯狂的产生着数据。它不仅使世界充斥着比以往更多的信息,而且其数据量以指数级的形式不断增长。微博作为互联网时代最有影响力的产物之一,给人们的日常生活带来了巨大的改变。据2015年微博发布的第三季度财报中显示,截止2015年9月30日,微博月活跃用户(MAU)已达到2.22亿人,较上年同期增长33%,9月份的日均活跃用户数(DAU)达到1亿,较上年同期增长30%。即便如此,中国的网络普及率仍远低于北美国家的平均水平,然而这一数字在未来仍将持续增长。伴随着微博平台的火热发展和其独有的特性,微博营销、微博搜索、微博舆情监测等应用应运而生。如何高效的在海量的微博数据中提取出目标信息就显得愈加重要。地理位置命名实体识别作为命名实体识别的一部分,是自然语言处理的重要任务,是构建问答系统、信息检索、机器翻译的重要基础。另一方面,地理位置命名实体在微帖中常常寓指着事件的发生场所,是信息提取和信息检索的重要组成部分。研究基于微博的地理位置实体的识别不仅能够促进命名实体识别的进一步发展,而且还能更好地服务于人们的日常生活。针对微博地理位置实体的提取,本文主要利用拆分法策略,将地理位置实体拆分成两个部分,分析其语义、结构等特征构建特征库,最后将特征结合到条件随机场进行地理位置实体的识别。本文中对该方法的具体实施措施如下:(1)分析训练数据集中地理位置命名实体(GLNE)的组成结构,将地理位置实体拆分为传统地理位置实体和基础地理位置实体两个基本组成单元,并给出本文研究的地理位置命名实体的形式化定义。(2)根据GLNE的形式化定义,分析中文微博地理位置实体的结构特征、语法特征、GLNE的边界特征等,构建基于中文微博GLNE的外部初始特征库。(3)利用CSC同义词库、同义词词林(扩展版)和知识归纳的方法对外部特征库进行扩展。定义特征重要度,避免在同一文本语句中出现多个特征交叉影响的现象。(4)结合外部特征建立科学的特征模板,进而通过条件随机场模型进行地理位置实体的识别。(5)本文对所提出的方法进行了实验的验证,最终实验结果的准确值P、覆盖率C和F值分别达到了82.51%、82.91%、82.20%,特别是针对组织机构名的识别上有较大的提升效果。
其他文献
<正>从2013年7月,我们开始持续探讨"问题生教育"。在2014年1月,我们满怀忐忑和热忱地推出"问题生教育"的最后一次集中探讨。"偷窃成性的学生","冲动攻击性强的学生","学习存
期刊
<正> 研究性学习除了可以选择一些课题,采用课题研究的方式开展外,更应当结合学科教学,从现有的教学内容和教学要求出发,选择适当的切入口,引导学生开展研究.本文试以初中数
开放教育教学中的基于网络的课程考核改革要求学生能够自主学习,而在网络环境下,师生之间处于准分离状态,学生的自主学习能力不强。为了确保教育教学的质量,我们必须提高学生
0.500 0g醋酸阿比特龙原料药样品经5.0mL硝酸和1.0mL高氯酸微波消解后,加热至近干,将消解液用水定容至25mL,采用电感耦合等离子体质谱法测定其中钯的残留量。采用带有碰撞反
探究性学习不仅能打破旧的接受性学习行为方式 ,而且能使学生开拓进取、勇于创新 ,使理论很好地联系实际
日本为了争夺包括石油在内的重要战略资源的控制权,拓展生存空间,在远东挑起了第二次世界大战。对石油的控制和占有成为日本制定军事战略的重要因素,日本不仅视石油为生死攸
利用H11-sensit风蚀传感器、风速仪、微梯度集沙仪,于2014.72014.8在塔克拉玛干沙漠腹地塔中地区进行了风沙流跃移和蠕移运动连续观测试验,分析了该区域典型天气和不同风速下
目的探讨经鼻内窥镜垂体瘤切除的应用价值.方法采用直径4 mm0&#176;、30&#176;的内窥镜对5例垂体瘤病人,在内窥镜电视监视下经单鼻腔蝶窦入路切除垂体腺瘤.结果1例大腺瘤及1
高校是科技创新的重要主体,在创新驱动发展战略中占据不可替代的地位。近五年的数据表明,福建高校科技创新能力在原始创新能力、理论创新能力、技术产出能力、技术转化能力等
地下水监测基础工作主要包括监测站网建设和地下水动态监测两方面。陕西省地下水监测工作起始于上世纪七十年代,到九十年代后期,由于经费问题以及井网的长期运行,监测井淤积