新闻事件地名实体识别和地图链接技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:lfh8686806
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的到来,新闻事件以海量、多元的形式呈现给用户,新闻事件与地理信息的有机结合为用户提供新闻事件信息的同时也提供地理位置数据。但是新闻文本本身具有价值稀疏的特性,海量的信息有时没有为用户带来便利,甚至造成了困惑,因此用户需要良好的知识筛选方法。在有机结合新闻事件文本信息和地理空间数据信息,筛选对于用户有帮助的信息时,我们面临以下一些问题:网络新闻文本类别多样,难以筛选用户真正需要的文本类别;中文地名因为其特殊性在新闻文本中识别较为困难;新闻事件中的地名实体往往以文字形式呈现给用户,不具有直观性和简便性。针对以上三个问题,论文主要研究从新闻文本中识别中文地名并将其链接到数字地图。论文首先研究了基于深度神经网络的文本分类方法,比较了目前主流的两种文本分类方法,探究文本分类的可行性和有效性。对常涉及地理位置的六类新闻文本进行标注分类,同时加入一些热门但几乎不涉及地理信息的新闻文本作为类别补充,总共构成七种类型的新闻文本,通过比较卷积神经网络和循环神经网络模型训练新闻文本数据效果,采用基于字符级的卷积神经网络进行文本分类。其次对中文复杂进行地名识别。采用基于统计与规则相结合的条件随机场模型进行中文实体地名识别,在该模型的基础上,采用基于信息熵和点互信息的算法计算实体中单字的成词率,提高识别效率和精度,有效地识别中文地名。最后基于数字地图的新闻文本地名实体定位,设计一套新闻事件的实体识别与链接系统,基于VS工具搭建地名定位程序,将文本分类后的新闻事件和事件中的地名精确定位到数字地图上,呈现给用户直观的感受,以方便用户有效利用新闻文本。论文通过基于神经网络的新闻文本分类,对文本信息进行有效筛选,确定采用卷积神经网络对新闻文本进行分类。在探索新闻文本中复杂地名的识别,采用一种基于信息熵和点互信息的地名识别算法,有效的融合多元数据信息,以数字地图可视化的形式呈现给用户新闻文本中有价值的信息。研究成果可用于用户导航、灾害避险、新闻热点追踪等。
其他文献
禅让传说在我国历史上很有影响,不仅见诸先秦以来的文献,自孔子之后引起过诸子百家的热烈探讨,历来受到世人的关注,而且在刚刚过去的二十世纪,诸史学流派代表人物往往都对此问题提
为制备猪繁殖与呼吸综合征病毒(PRRSV)GP5蛋白单克隆抗体,首先构建猪PRRSV GP5基因的真核重组表达载体pCDNA-GP5,将其作为免疫原,对Balb/c小鼠进行免疫。取免疫4次后的小鼠脾细
针对大学英语写作中的问题提出“语块重心”模式,引导学习者充分重视目标语的预制语言模块。采用实验和问卷调查等实证方法,分析了“语块重心”模式在大学英语写作实践中的可行
[摘要]框架协议招标采购方式的应用,是通过物资采购管理的优化,提升采购效率、降低采购成本。针对其框架协议招标物资的适用性、有效期的约定性、供应商的不唯一性以及执行价格的可调整性等特点。其一,必须扬长避短,锁定资源,保证物资供应;其二,增加竞争,降低采购成本;其三,减少频次,提高招标采购效率;其四,优化供应商结构,实现供需双赢。为此,必须做好前期准备,搞好技术评标和商务招标等环节。  [关键词]框架
随着传动系统高效化的发展,对传动性能提出更高要求,高性能传动机构的开发已成为重要研究方向。外激波滚柱活齿传动作为一种高性能传动机构,通过变化啮合副结构,在保留滚柱活
自中国国家主席习近平提出“一带一路”倡议以来,越来越多国家积极响应,并参与到“一带一路”的建设和发展中。中吉两国山水相邻,交往历史悠久,具有良好的政治、经济和文化等
近些年,借着国家经济长期持续稳定向好的趋势和“一带一路”发展战略的东风,建筑业迅猛发展,2018年建筑业总产值高达23.5万亿,毋庸置疑是我国国民经济发展中的中坚力量。但是也应当看到建筑行业的发展质量并不高,一方面,从行业来看,我国建筑行业属于劳动密集型产业,存在内部控制管理疏漏、组织结构复杂、内部人员冗余等问题,导致建筑业虽然总产值高,新签合同额逐年增长,但是产值利润率却不高,甚至在近几年呈下降
根据神经解剖学原理,针刺第4颈夹脊治疗顽固性呃逆20例,经治疗1-5次全部患者治愈。提示针刺可降低神经兴奋性而达到解除膈肌痉挛。
国家"十三五"规划从战略层面上提出要以坚持发展为第一要务,不断优化经济结构,转变经济发展方式,增强自主创新能力。在新的经济形势下,区域经济亟需加快实现创新驱动发展转型
近年来我国持续推行交通可持续发展,西安市为响应落实国家发展理念,推出了公共自行车交通运行系统,引导市民广泛使用公共自行车,以缓解交通运行压力,减少碳排放量、改善空气质量。