基于元数据和知识图谱的碎片化数据分析

被引量 : 0次 | 上传用户:lho001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化水平的提高,大量蕴含社会政治、经济信息的新闻事件、报刊会议或政商通报等数据可以通过开源渠道便利地获取。然而不同于传统针对性收集的结构化数据,这些开源数据往往具有海量、多源、异构的特点并以碎片化数据的形式呈现。如何有效过滤低质无关信息,深度挖掘内在关联内容,获取碎片化数据中的高价值信息是大数据时代情报研究的重要课题。在此背景下本文提出了面向碎片化数据的分析处理框架,包括开源情报分析中碎片化数据的采集处理、组织管理和关联发现等各环节,并针对多源异构数据缺乏统一规范描述其内容、关联数据难以发现等问题,通过碎片化数据的元数据抽取、基于实体共现关系增强知识图谱和融合知识的碎片化数据表示学习三个方面的工作实现碎片化数据的关联分析。具体来说,首先将碎片化数据中提及的实体序列作为描述其主题及内容的元数据。实体是承载文本信息内容的重要元素,碎片化数据文本中承载的内容往往由实体及其相互间的关系组成,通过抽取实体作为元数据可以便于程序理解其内容。其次,根据碎片化数据中实体共现关系增强外部知识图谱。外部知识图谱可以为分析过程引入图谱中的先验知识,但其范围局限于图谱包含的内容而忽略了碎片化数据自身携带的信息,利用高频共现实体对增强外部知识图谱可以实现引入外部知识时利用到碎片化数据本身蕴含信息的效果。第三,结合碎片化数据的文本和增强图谱得到其融合知识表示向量。本文中使用注意力机制获得碎片化数据中不同实体的影响权重,以此为基础得到其知识表示向量,通过全连接网络将知识表示向量同文本表示向量融合后得到其融合知识表示向量,依托该融合知识表示向量开展关联信息发现。最后,设计并开展实验测试碎片化数据分析技术的性能、效果,评估算法的可行性与有效性,验证了碎片化数据分析方法能够实现碎片化数据关联发现的效果。
其他文献
<正>北京市公园管理中心有着丰富的红色资源,这些保留下来了革命遗址遗迹可以说是中国历史发展轨迹的缩影,见证了国家蒙辱、人民蒙难、文明蒙尘,展现了近代以来中华民族为独立富强复兴所做的图强与抗争、浴血与奋进、苦难与辉煌,以及中国共产党的孕育、成长和壮大的百年奋斗历程。近年来,北京市公园管理中心贯彻落实北京市委关于全国文化中心建设的各项规划,
期刊
<正>新华社北京4月9日电中共中央总书记、国家主席、中央军委主席习近平近日对打击治理电信网络诈骗犯罪工作作出重要指示强调,近年来,各地区各部门贯彻党中央决策部署,持续开展电信网络诈骗犯罪打击治理,取得了初步成效。要坚持以人民为中心,统筹发展和安全,强化系统观念、法治思维,注重源头治理、综合治理,坚持齐抓共管、群防群治,全面落实打防管控各项措施和金融、通信、互联网等行业监管主体责任,
期刊
新型电力系统背景下,中国未来面临着大规模能源“西电东送”的电力传输需求,需要规划与之相适应的输电模式。依据2030年后西部能源的开发规模,确定各类型电源的装机规模和地理分布,提出远期西部送端直流输电网和中东部受端超/特高压交流电网相融合的“西电东送”主干输电网结构及路线图。为适应新型电力系统安全可控、灵活高效的基本要求,构建了团块状、网格状和双环网3种基于VSCHVDC柔性输电技术的直流组网模式,
期刊
2012年以来随着钢铁、水泥、玻璃等行业出现产能过剩的背景下,耐火材料行业的发展也呈现出下行压力,特别是在环保管控政策及节能减排和双碳目标的前瞻形势下,耐火材料行业的发展面临转型并呈现出新的发展模式。新形势下,滑动水口需要围绕顾客需求调整战略,顾客从单一的滑动水口需求转向对滑动机构、滑动水口及热修服务的滑动水口功能整体实现的质量承包制,如何从整体上把控质量,不断满足顾客需求,完成运营模式转换,促进
学位
新一代信息技术的广泛使用,为企业的生产和人们生活带来了便利。随着区块链、大数据等新技术的出现,数字化转型已成为企业发展的最新要求,传统的乳业经营理念已经不能满足数字化时代的要求。在疫情的影响下,很多企业已经开始转型,利用新的数字工具分析数据的价值,重组生产流程和商业行为,实现业务转型。中国在数字工业化发展方面处于世界领先地位,数字转型已成为现代企业发展的重要战略目标。因此,乳企应积极主动地调整发展
学位
针对煤矿开采过程中的隐蔽致灾因素,水害尤为常见,通过分析井田范围内水文地质因素,综合研究井田内含水层特征,通过简易抽水数据,划分井田内含(隔)水层,分析充水水源,讨论主要地表水、地下含水层、老空水区及其影响程度,研究分析井田范围内充水通道。最终得出十二号井田内充水通道有顶板垮落带、导水裂隙带、底板岩层破坏裂隙、断层裂隙带和封闭不良钻孔等形式,其中以顶板垮落带、导水裂隙带为主;直接充水水源为地表水、
期刊
目的:探究中医抗癌扶正疗法对于晚期恶性肿瘤疾病的治疗效果和有效治疗方法。方法:对2018-07-2019-01来我院进行恶性肿瘤疾病治疗的患者共计78例的患者资料进行收集,随后依据患者的临床护理方法不同将其分为对照组和试验组。对对照组患者采用常规治疗方法,对试验组患者在对照组患者治疗的基础上增添中医抗癌扶正疗法。随后对两组患者的临床治疗获益率、临床恶性肿瘤疾病并发症发生情况和恶性肿瘤疾病发展情况进
期刊
“十四五”规划建议推动数字化发展,社会需要从生产方式和治理方式方面实现转型。在此时代背景之下,高新技术企业要想在当今市场竞争中取得优异成绩,必须重点发展数字化技术,让数据作为核心生产要素推动经济增长。数字经济时代,财务数字化转型已成为帮助企业创造价值的重要方式。高新技术企业也必须紧跟时代的发展潮流,在财务数字化转型过程中探索适合自身发展的创新之路。对高新技术企业而言,怎样设计财务数字化转型之路,如
学位
对强承压堵漏技术的堵漏封堵承压效果进行了评价,实验结果表明,该堵漏体系具有高承压能力,整体堵漏效果优异。HZ19-2某井位于南海东部珠江口盆地惠州凹陷,该区块油气资源丰富,勘探开发潜力大,但开采多年后近期钻井过程中时有漏失发生且承压能力不足,为了保证作业的顺利进行,在分析该井前期堵漏作业的基础上,根据地层和井漏特点,针对性地提出应用强承压堵漏技术。本井现场应用结果表明,强承压堵漏技术可有效解决该井
期刊
随着媒体融合的深入,传统媒体在新媒体浪潮中积极入场,成为平台算法规则下的参与者。本文以央视新闻抖音账号为例,探讨算法作为短视频平台的核心技术要素,已经深入到主流媒体短视频的生产、分发和反馈各个环节中,一定程度上改变了新闻的传统创作方式,形成新的创作特点和传播规律。
期刊