网络新闻文本蕴含环境污染事件类别检测与时空信息抽取

来源 :福州大学 | 被引量 : 0次 | 上传用户:taitaitaihaole
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,环境污染事件的发生率逐年提高,迫切需要环境污染事件的快速监测,而传统的环境污染监控手段仍然存在监测技术配套性差和地区发展不平衡的问题,无法做到全区域、全时段、全种类的覆盖。网络新闻文本因具有广泛性、真实性和新鲜性的特点,往往可以弥补物理设备监测的不足。但是,环境污染事件往往存在“多米诺效应”,其新闻文本中易出现诸多干扰信息,如多个时间、地点和人物的混合表达,使得网络新闻文本蕴含环境污染事件信息抽取存在诸多挑战。基于此,本文主要研究内容及成果如下:(1)环境污染事件主题词库的构建。根据国家标准《环境污染类别代码》确定环境污染事件类别和各类别初始主题词库,使用同义词林、知网等词典以及各种大规模训练词向量对其进行扩展,最后形成环境污染事件主题词库。(2)环境污染事件类别语料快速标注。考虑到大量网络新闻文本进行标注耗费人力物力,提出一种聚类方法-LDA模型生成聚类簇,然后手动映射到事件类别实现环境污染事件类别的快速标注,最后人工评价事件类别标注的准确率来验证该方法的有效性。(3)环境污染事件类别自动检测。采用TF-IDF向量对文档进行全局特征表示,计算得到文档中词汇在各环境污染事件主题的词频构建文档主题特征向量。综合文档全局特征向量和主题分布特征向量,构建联合主题特征向量作为监督分类模型的输入,实现环境污染事件类别检测。(4)环境污染事件信息抽取。新闻文本中存在较多干扰信息,综合文本中词语的词性、句法特性等改进输入特征向量,充分表现文本的事件表达特点,引入Bi-LSTM+CRF模型进行环境污染事件信息抽取。(5)环境污染事件抽取结果数据统计分析。进行海量网络文本蕴含环境污染事件检测与信息抽取,按照类别、时间、空间对事件抽取结果进行分布特征分析,进一步说明提出方法具有实际使用价值。
其他文献
随着人们对物质需求的不断增加,广泛应用于各行各业的石油化工基础原料产业得到了大力发展。化工包装袋上喷印的批号作为产品的重要信息对产品质量管控起着重要作用,但化工包装生产线常常由于各种原因导致其喷印质量不佳,漏喷的情况也时有发生。传统的解决方法是采用人工目视检查,将喷印不合格的产品从产线上搬离。随着产能的扩大,传统的人工方法已经无法满足生产需求,企业迫切需要一种能够对化工包装袋喷印质量自动检测的系统
Al-Cu合金作为一种密度小、比强度高的可热处理合金,由于其综合性能优良而受到广泛关注。本文采用SEM扫描技术、HAADF-STEM成像表征技术、EDS能谱分析结合显微硬度测试和室温拉伸试验以及第一性原理计算,对Al-5.0 Cu-(0.3 Sc)(wt.%)合金不同温度下的时效析出行为进行了研究,揭示了两种合金高温时效时θ′相的析出序列,深刻理解了合金的微观结构和力学性能两者间的关系,并探讨了S
随着车联网技术的发展,电动汽车可以更好地理解周围的交通环境,同时也能够开发实时节能控制方法进一步提高能源效率。此外,由于四轮独立驱动独立转向电动汽车具有转矩独立可控、动力输出平稳高效、结构紧凑等特点,为整车的节能与安全提供了更多的管理空间。但是,电动汽车是一个多系统耦合的过驱动控制系统,这给控制系统的设计与优化带来了挑战,并且能量损耗也变得更加复杂,对电动汽车的能量利用效率提出了更高的要求。因此,
行业发展特点房地产业对国家的宏观经济政策敏感性极强,与其他行业联系紧密,但与其他行业相比资金需求大,需要有足额的资金支撑和相对完善的资金链,收益周期相对较长,风险较大。房地产行业受宏观经济形势的影响较大,往往会有着周期性的波动,一旦出现一些特殊情况或者政策调控的情况下,房地产的交易量会大幅减少。另外,房地产行业的资金需求量较高,作为资金密集型的企业,需要足够的资金维持正常的运营,然而房地产企
期刊
学位
导电涂料在电极、防静电、电磁屏蔽、电加热等领域已经得到了广泛应用,导电涂层的制备多采用有机聚合物作为成膜材料,但有机聚合物具有不耐高温、易老化等缺点,相较于有机聚合物,陶瓷涂料具有更为优异的耐热性能、硬度、抗老化、耐腐蚀性等性能。为了得到高耐热性能的导电涂层,本文以硅溶胶、硅氧烷、石墨(CGM)等为主要原料,采用溶胶-凝胶法制备了用于玻璃茶几或地板砖取暖的陶瓷基石墨导电涂层。通过添加石墨烯(Gr)
山区流域水文气象和地形地貌条件复杂,每年都会发生不同程度的洪涝灾害。对国民经济和社会和谐稳定造成极大的影响,因此搞好山区流域的洪水预报对减轻洪涝灾害的损失和促进国民经济的发展具有重要意义。论文从流域防洪减灾的实际出发,将BP神经网络原理应用于闽北山区崇阳溪上游流域,建立BP神经网络模型进行降雨径流预报研究,主要内容如下:(1)利用流域DEM数据提取研究流域边界,采用泰森多边形法将流域划分为7个单元
索缆是结构中重要的受力部件。然而,索缆所处的自然环境通常较为恶劣,且更换困难。位移是监测索缆“健康”状态的一个重要参数。因此对索缆的位移进行监测十分重要。传统的接触式位移测量方法存在的设备安装困难、测量精度易受环境影响、人工参与度高等问题,为此,本工作探索基于双目视觉的索缆位移测量方法。首先,为了降低对标志物尺寸大小的约束,本工作采用基于一维标定物的相机标定算法并对该算法进行改进。在原有的一维标定
学位
学位