基于多源地名空间数据库的英文社交媒体文本地名识别与链接

来源 :南昌大学 | 被引量 : 0次 | 上传用户:teddy18chen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交媒体作为大众在互联网时代的网络社交场所,已成为热点事件传播、信息获取的重要载体。地理空间位置是事件的重要属性,从社交媒体文本中解析地名并获取其地理空间位置,对事件时空演化规律的分析与认识具有重要意义。然而社交文本的内容具有非正式性,大量非正式地名包括缩写、误写和别名等难以被检测,同时地名上下文的嘈杂性也促使地名识别的难度远高于正式文本。本文以基于多源地名空间数据库的英文社交媒体文本地名识别与链接方法为研究对象,展开研究工作,主要工作内容包括:(1)提出一种无监督的异构地理实体对齐方法。首先针对地理实体特点提出名称、空间和类型三种相似度算法,然后利用K-mean算法对各个相似度算法的权重自设置并实现相似度组合,最后依据朴素下降提取算法对异构的地理实体对迭代提取匹配结果,实现异构地理实体数据库的对齐。在方法比较实验中,本文方法取得了89.52%的F1值,比基于投票聚合的方法高出15.7%。(2)提出一种无监督的面向英文社交文本的地名识别方法。首先,提出针对社交文本的候选地名指称预提取方案,包括文本预处理、主题标签分割、候选地名指称预提取;然后,从多源地名空间数据库提取地名正样本,从社交文本语料提取地名负样本,并根据地名类型设计正样本增强和负样本削弱的规则;其次,针对地名的短文本特征,提出基于C-LSTM+注意力机制模型实现地名和非地名的判断;最后针对候选地名指称的规则特点,设计了候选地名识别算法,实现对候选地名指称的判断识别。在方法比较实验中,本文方法取得了78.14%的F1值,相比于三种基线方法:Stanford NER,基于规则的方法和Gaz PNE分别高出35.8%,29.5%,9.3%。(3)提出基于多源地名空间数据库和Elastic Search搜索引擎的英文地名链接方法。针对Elastic Search搜索引擎的特点和地名的文本特点,研究实现了针对地名搜索的打分排序规则,包括地名前缀增强以及双字段查询策略;然后结合地理实体之间的空间关系,基于DBSCAN密度聚类算法设计了候选地名实体选取算法,实现地名到地理实体的链接。在方法比较实验中,本文方法取得了73.36%的F1值,比基于Nominatim的方法高出18.9%。
其他文献
由于航空航天轴承苛刻的服役环境及轴承的整体性和复杂性结构设计,要求航空航天轴承具备良好的高温稳定性、耐蚀性、耐磨性和抗疲劳性能。BG801是为满足航空航天领域苛刻服役环境而开发的一种高钴钼低碳不锈轴承钢,但该钢经渗碳处理后的力学性能、组织演变及轴向拉压疲劳性能尚无系统研究。本文利用金相显微镜、扫描电镜、透射电镜、XRD及疲劳试验机等手段研究了BG801轴承齿轮钢在不同淬火温度下渗层及心部组织特征,
学位
在电化学氧化用阳极的制备中,钛由于相对析氧电位较高以及稳定性好的特点而被广泛应用。梯度多孔钛除了钛金属本身具有的优势以外还具有独特的孔结构特征和宏观孔梯度分布特点,在保证阳极电极基本性能要求的同时可以起到减重、降低成本的作用。本研究以氢化钛为原料,在混粉过程通过加入不同质量分数的碳酸氢铵作为造孔剂,分层叠放压制,真空烧结,最终制备出梯度多孔钛试样。并详细研究了粉末球磨时间对梯度多孔钛微观形貌、孔结
学位
有序多孔钛在医疗植入、医药制备、精细化工等领域有很好的应用前景。有序多孔钛是指孔隙大小均匀、排列规则的多孔钛材料。其具有耐腐蚀性强、生物相容性好、比强度高、过滤精度高、连通性好、传热性好、流阻低、易加工、能与其它材料复合等优点。传统制备技术难以制备出高孔隙率、孔隙结构规则的多孔钛。常用于制备有序多孔钛的方法是3D打印技术,3D打印技术对工艺装备、前端粉料、过程控制的要求非常高,所以常用于制备高端、
学位
A286奥氏体沉淀硬化不锈钢(GH2132高温合金)在650℃以下具有较高的瞬时强度和持久性能,在室温环境下也具有优异的耐腐蚀性能。此外,A286钢还具有稳定的奥氏体组织和较好的冷加工成型性,因此其应用范围在不断扩大。由于冶炼工艺的不同,A286钢中的杂质元素和气体含量会存在较大差异,需要开展系统研究工作。本文采用扫描电镜(SEM)、透射电镜(TEM)等表征手段和热变形模拟、力学性能等测试方法,研
学位
目前工业生产中的铸造铝合金轮毂主要采用的是A356铝合金。随着对汽车性能的追求,轮毂的可加工性、安全性、耐用性在不断的提高,由此对A356铝合金的性能提出了更高的要求。A356合金属于Al-Si-Mg系亚共晶铸造铝合金,具有铸造流动性好、气密性好、收缩率小和热裂倾向小等特点。由于未经变质处理的A356中存在粗大的不规则形状的共晶Si,该相具有锋利的尖端会对铝基体的连续性造成严重的破坏,从而降低了合
学位
随着碳达峰和碳中和目标的提出,国家现在的环境和能源问题迫在眉睫。新的钢铁前处理工艺应该向着无毒、无污染、低能耗的方向发展。目前钢铁前处理在工业上使用最多的是磷化工艺,其形成的钝化膜层较厚、耐蚀性能好,但传统磷化工艺过程所需原材料种类繁多,大部分需要在中高温环境下进行,存在成本高、耗能高、钝化槽中的残渣多等缺点。本课题研究了一种新型植酸的无磷钝化膜。植酸是一种金属多齿螯合剂,能够与基体表面的金属离子
学位
碳纳米管(Carbon Nanotubes,CNTs)具有优异的力学和导电性能,被认为是铜基复合材料的理想增强体。但由于CNTs具有巨大的比表面积,在范德华力作用下容易团聚,导致其在铜基体中无法均匀分散。同时,CNTs与铜基体之间的润湿性较差,使两者之间只能形成较弱的机械结合界面。以上原因成为制约CNTs增强铜基复合材料力学和导电性能提高的主要因素。鉴于此,本论文从CNTs的改性着手,通过对CNT
学位
抗生素在治疗人类传染类疾病方面发挥了重要的作用。然而,抗生素类药物的滥用催生细菌、真菌等微生物产生耐药性,使其抗菌效果减弱。银、铜作为一种典型的抗菌材料,在生物医用领域得到了广泛的研究和应用。其颗粒纳米化后,具有颗粒尺寸小、比表面积大、表面活性点位多等纳米材料独有特点,可实现更好的抗菌效果。然而,作为金属粒子,其累积毒性不容忽视。因而,开发一种新型的、低剂量、高抗菌性能的纳米材料势在必行。在银、铜
学位
二次硬化型超高强度Ferrium M54钢具有良好的机械性能,在航空航天、能源等方面均得到较为广泛的应用。随着壳体薄壁化、结构设计的复杂化,变形材机加工等成形工艺难以进行一次成形或造成大量材料浪费,而增材制造技术的快速发展为复杂薄壁壳体提供了高效率一次成形的工艺解决途径。激光金属沉积(LMD)具有生产周期短,无模具,生产成本低,设计自由度高等优点能够制造复杂型腔和非对称曲面构件,是一种新型的零件近
学位
社会信用体系是我国市场经济体制不可或缺的一部分,市场经济走向成熟的必由之路是建设和完善社会信用体系。失信惩戒机制是社会信用体系的核心内容,唯有不断完善失信惩戒制度才能推动社会信用体系高质量发展。早在2004年的国务院《政府工作报告》中,温家宝总理就指出,为了推动社会信用体系建设进程要抓紧建立失信惩戒制度。随后,一些与失信惩戒相关的文件陆续发布,失信惩戒也因此得到越来越广泛的应用。2020年中共中央
学位