基于开源信息的真值发现算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:shanshan0000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现今大数据时代中,互联网上的信息数据量成爆炸式增长,异构数据规模庞大,真假信息相互混杂。人们可以从各种来源处获得需要的信息,但这些网络开源数据成长尾分布,且来源之间关系隐含且复杂。本文围绕网络开源信息的真值发现问题开展研究,基于深度学习方法,面向无标签多源文本数据以及单个文本数据,分别提出了基于GCN的无监督多源真值发现模型与基于外部信息融合的单源真值发现模型,并设计实现了基于真值发现的网络信息检测判别系统,本文具体内容包括:1.基于图卷积网络的无监督多源真值发现算法。考虑多源文本信息的真值发现领域中无法有效结合文本语义以及数据源间关系进行真值判别的问题,本文提出了基于图神经网络的无监督多源真值发现模型。该模型基于平滑逆词频的文本表征方法,利用图卷积神经网络进行源间关系挖掘,使用整图嵌入方法进行真值估计。基于对现有方法的对比实验表明利用整图分类的方法进行真值估计能有效提高真值发现的准确性。2.基于外部信息融合的单源真值发现算法。考虑现有单源文本信息的真值发现方法中所融入的外部知识维度较少的问题,本文提出了一种基于外部信息融合的单源真值发现模型。该模型融入了新闻传播信息和用户关系两个维度的外部知识,利用BERT模型进行文本表征学习,分别使用图卷积神经网络和结点嵌入方法对两种外部知识进行分析,最后基于上述分析学习结果使用多层感知机进行真值判别。基于对用户偏好感知模型的对比实验证明了加入用户关系外部知识对真值判别结果的提升。3.基于真值发现的网络信息检测判别系统。基于所提出真值发现模型,使用Python Flask框架进一步设计并进行实现网络信息检测判别系统,为舆情检测,虚假信息判别等其他领域应用提供了有效支撑。
其他文献
当前,在水产养殖为全球提供大量优质蛋白质和促进经济发展的同时,其对环境的负面影响日益引起广泛关注。传统池塘养殖模式主要依赖换水维持养殖水环境,养殖尾水排放量大,水资源消耗严重。循环水养殖系统(RAS)利用硝化微生物构建自养型生物膜,实现氨和亚硝酸盐的有效去除与水资源重复利用,是水产养殖业的重要发展方向。与此同时,随着养殖密度提高和水域环境不断恶化,由细菌、病毒和寄生虫侵袭导致养殖生物疾病频发,部分
学位
现代工业厂房多为高大空间,采用控制整体热环境的空调系统往往会造成建筑能耗过高,运行成本上涨。为保证夏季高温环境中体力劳动者的身体健康,改善其热舒适性并提高其工作效率,可以通过局部冷却的方式实现对热环境的个体化控制。目前偏热环境下局部冷却对人员影响的研究,大多数针对办公等轻度活动水平,且对局部位置的热舒适研究不够完善。此外,由于局部冷却对人体相关热生理参数的影响缺少系统性的探索。对此,本文将以人员的
学位
视频质量增强算法一直以来是音视频研究领域的一个热点,传统的方法都是使用编码压缩算法对视频文件进行编码压缩,经过这种有损压缩的方式后,虽然视频文件的大小显著降低,但其在解码端呈现的图像质量却有待加强。一般来说,视频压缩算法的压缩比越高,那么节省的空间就越大,而损失的图像信息也就越多。由于深度学习技术的逐渐流行,越来越多的学者尝试在视频图像质量增强方面使用深度学习算法来寻找突破。本文提出了一种领域自适
学位
随着工业4.0的发展,信息化技术逐渐运用到工业,使得工业逐步向智能制造的方向发展,这也要求工业软件向智能化和云服务化的方向发展。NX平台也在向该方向发展。但是由于NX平台非开源、缺乏数据集,智能化仍处于探索阶段。NX Measurement是NX平台的测量系统,是NX平台的核心系统之一,如果能提高其智能化程度,就可以提高NX平台的便利性和用户体验感。基于以上背景,本文将通过推荐系统,对用户预期的测
学位
“固化/稳定化+填埋”是我国主流的垃圾焚烧飞灰处理技术路线。针对稳定化飞灰填埋区可能存在的覆盖层老化、破损,防水、防雨、防渗措施不完善等情况,构建了“模拟酸雨”和“模拟渗滤液”两种入侵外环境。以分阶段进水方式探究了模拟酸雨(硫酸-硝酸溶液)和模拟渗滤液(醋酸溶液)在6种典型渗流路径下对填埋螯合剂稳定化飞灰中重金属(Pb、Cd、Zn、Cu、Cr、Ni)浸出行为影响,并评估了液相和固相中重金属的潜在环
学位
基于机器学习的智能模型在出行、消费、医疗等领域已经有了广泛的应用,对人们的生活、学习以及工作都产生了深远影响,这都得益于人工智能的三大支柱算法、算力、数据的飞速发展。当人类思考问题时,会结合问题相关的空间关系、因果关系、科学事实和社会习俗常识等背景知识来分析问题,这类知识对人类来说微不足道,但是目前的人工智能模型仍然无法获取,近年来大量的研究开始尝试向智能模型中融入常识知识,常识推理问答成为了人工
学位
在这个信息“大爆炸”的时代,每天都会产生大量的信息,而图像是信息的重要载体。现实中许多图片包含丰富的信息量,往往有着不止一个标签,因此多标签图像的分类问题受到许多学者的重视。得益于深度学习的崛起,多标签图像分类也有了丰富的研究成果,并在医疗图像、智慧交通等领域成功应用。然而,深度学习方法普遍高度依赖于大量的标注数据,但在实际应用中,获取高质量的标注数据成本十分高昂。主动学习的核心目标在于通过合适的
学位
近年来,深层的脉冲神经网络由于其强大的特征提取能力,逐渐得到学者们的重视。训练高性能的深度脉冲神经网络(Spiking Neural Networks:SNNs)需要大量的标记数据,但在实验过程中给海量数据打标签是耗时耗力且高成本的一项工作。为了减少训练深度脉冲学习模型所需要的已标记数据量,提升训练模型的效率,本文旨在研究脉冲神经网络上的主动学习方法。目前基于传统人工网络的主动学习策略研究较多,却
学位
近年来,随着机器学习技术的不断发展,更多具有挑战性的机器阅读理解数据集不断被提出,机器阅读理解技术成为了热门研究方向。近期,两个考验机器逻辑推理能力的阅读理解数据集Re Clor和Logi QA受到了研究者们的关注,当前主流的预训练模型更多关注单词级语义,对文本逻辑关系的捕捉能力较弱导致逻辑推理能力较低。本论文结合预训练模型和符号模型的优势,提出基于混合推理的阅读理解模型,并通过加深预训练模型网络
学位
事件抽取的本质是从大量非结构化、未经处理的信息中抽取出完整事件,包括事件触发词和一系列事件要素,并以结构化形式存储和展示。事件抽取技术为当代社会中态势感知、社会治理、决策辅助和应急处突等重大需求提供了技术支撑,有着重要研究意义和价值。当前事件抽取领域存在着对复杂语义环境抽取效果不佳等问题。故本文围绕事件抽取任务,进行了如下主要研究:1.针对事件触发词抽取定位和分类不准确等问题,现有方法主要利用句子
学位