基于论坛网页的信息抽取与情感分析研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:wlq808
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的快速发展丰富了大众的发声渠道,论坛愈加成为聚集舆论舆情的窗口,以评论为代表的主观情绪表达不断以海量且分散的形式出现在其网页之中,基于此,从信息冗余、形式多样的论坛网页中精准挖掘出有价值信息用于舆情分析具有深刻的社会意义,这也是开展此研究的重要立足点。本文以论坛网页为研究对象,对论坛信息抽取算法与情感分析算法进行了研究,主要研究内容如下:
  (1)针对论坛网页中普遍存在大量噪音信息导致抽取准确率低的问题,本文先采用基于HTML标签的网页分块算法完成论坛网页分块,通过计算各文本块链接密度比识别出网页正文块,并有效去除论坛网页中广告、导航栏等噪音信息。随后本文引入标准值的概念,即将所识别的论坛网页中评论信息楼层数作为标准值。最后结合论坛网页中评论信息的位置结构具有相似性以及DOM树中深层次节点的相似度更能代表整体相似度的特点,本文提出基于深度加权的DOM子树相似度算法抽取评论信息,并将抽取到的评论信息数量与标准值进行比较,以提高抽取准确率。
  (2)针对基于传统神经网络的情感分析无法充分学习文本的语义信息,本文提出一种基于多种注意力机制的BiGRU(Bi-directional Gated Recurrent Unit)情感分类模型:BiGRU+Multi-attention。针对预处理后的Web文本,首先根据Word2vec模型将其文本向量化,继而在BiGRU模型上进行语义特征筛选,通过引入情感词注意力机制、程度词注意力机制以及否定词注意力机制,提取深层次情感特征,突出文本中对情感极性判别起关键作用的词语,从而弥补单一注意力机制的不足,并通过调整神经网络模型参数,得到分类模型的最优性能,最后使用公开数据集验证本文提出方法的可行性与有效性。
  实验结果表明,基于网页分块和深度加权DOM子树的Web信息抽取算法能够很好地解决论坛网页中存在大量噪声的问题,抽取准确率得到明显提升。同时基于多种注意力机制的BiGRU情感分类模型的F值达到了94.5%,相比基于BiGRU的情感分类模型提升4.5%,有效提高了情感分类准确率。
其他文献
图像是人类社会重要的信息载体,发挥着无可替代的作用。然而,受成像条件的限制,成像系统获取的图像往往存在细节信息丢失、分辨率低等问题,从而无法满足不同应用领域对高质量图像的需求。超分辨重建技术旨在综合利用信号处理、统计学习、优化理论等工具,从同一场景的一幅或多幅低分辨图像重建出成像系统无法直接获取的高分辨图像。该技术对医学成像、遥感成像、视频监控等领域具有重要的应用价值,受到众多研究者的广泛关注和深
随着过去十几年在线社会媒体迅猛发展,人们越来越趋向于利用社交平台交流想法、分享信息甚至接受一些创新和新产品,从而加速了信息、产品等传播。此外,在很多其他网络化系统中我们也可以观察到类似传播现象,例如,人类或者动物真实社会网络中的疾病传播、工业网络中的级联失效传播以及计算机网络中的病毒传播。学者们针对如何用数学模型刻画这些复杂的个体行为来帮助人们更好地理解传播现象机制以及如何控制传播过程进行了大量的
学位
船舶在波浪中航行受到波浪的作用会产生横摇。横摇会降低乘客的舒适性,干扰船上人员的工作,影响船上设备的正常使用,导致船上运载的货物遭受损失,并且限制船舶的使用范围,严重的横摇甚至可以导致事故的发生,威胁航行安全。减小船舶的横摇对于确保船舶的使用性能及安全,拓展船舶的使用范围具有重要的现实意义。本文针对舵鳍联合减摇技术进行了研究,旨在提高船舶的横摇减摇能力。  为了减小横摇,对横摇稳定性要求较高的船舶
学位
随着互联网用户的数量和连接到Internet的设备迅速增加,网络规模的急剧变化对灵活和可扩展的网络管理存在巨大的需求。基于交换机的深度数据包检查技术(Deep Packet Inspection, DPI)的常规流量分析方案无法获取到网络中流的全局信息,且基于统计信息的交换机报告也缺乏流量的流级别深度信息。因此,对于细粒度的服务质量保证,内部网络管理,流量工程,安全性分析等,非常需要通过数据包采样
学位
聚类分析是一种无监督的机器学习方法,可以根据数据集的结构信息挖掘出潜在的模式。聚类算法和聚类有效性指标是聚类分析的重要组成部分,许多经典的聚类算法和聚类有效性指标被提出,并在现实生活中的很多领域得到了广泛的应用。但这些算法和指标都具有一定的局限性,有着各自的适用范围:大多数的聚类算法需要使用者提供先验信息,聚类有效性指标大多依赖于特定的聚类算法,无法实现完全非监督的聚类分析过程。本文在现有研究的基
学位
基于无人机机载视觉的目标跟踪技术因其不依赖人工操控、不受信号传输限制,被广泛应用于航拍、搜救、侦查、执法等领域。针对目标尺度变化、局部或全局遮挡等视觉跟踪领域的经典问题,近年来不乏鲁棒性强的跟踪算法问世,但由于复杂度较高导致大多算法不适用于实际无人机实时跟踪任务。针对以上问题,本文基于运行速度较快的核化相关滤波(Kernelized Correlation Filter, KCF)目标跟踪算法进行
学位
近年来,天然气凭借其易于储存运输、热值较高、燃烧产物较为清洁等特点,在工业生产与日常生活中被广泛的推广和应用。目前,我国天然气主要采用管网运输方式,但天然气管网在应用过程中因多种因素导致的管网破损、断裂等现象时常造成环境污染、火灾、爆炸、中毒伤亡等事故发生。因此,利用技术手段提升天然气管网的监管水平具有非常重要的现实意义。  本文围绕天然气管网监管问题,提出了基于车载无人机平台的巡检方式,所提方式
气固两相流广泛存在与工业生产过程中,如颗粒的气力输送及烟气的排放过程等。气固两相流流动的复杂性及流动分布参数不均匀特性,使得其分布参数的测量问题一直是国际公认的难题。静电层析成像技术面向带电颗粒的电荷分布或速度分布测量,具有非侵入性、可视性、低成本等优点,为气固两相流分布参数测量提供了一种有效方法。  由于静电法为被动式测量方法,同激励式电学层析成像方法相比,其独立测量信息数较少,对被测物场纵深区
输出饱和又称为传感器饱和,广泛地存在于实际的物理控制系统之中。其产生的原因是传感器装置只能提供有限的测量范围。当传感器发生饱和时,控制器将得不到被控对象准确的状态或输出信息,影响系统的性能甚至造成失稳。另一方面,在网络化控制系统中,受限的网络传输带宽和计算资源往往会导致网络拥堵、数据丢包、传输延迟等问题。事件触发策略作为一种非周期的采样控制方法可以在保证系统期望性能的同时,有效地配置有限的通讯资源
随着数据爆发式的增长以及深度学习的迅速发展,高阶统计信息被广泛应用于各大视觉任务中。度量学习是一种基于样本之间距离从而度量样本之间相似性的机器学习算法。传统的度量学习的方法主要针对低维度的向量特征。然而近年来的研究工作表明基于高阶信息统计量的度量学习算法普遍优于基于低阶统计量的算法。相比于低阶信息,基于高阶统计量的方法能够更好地保留图像的结构信息。基于黎曼流形上度量学习方法可以有效地利用高阶流形上
学位