基于表示学习的异构数据集成关键技术研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:Q529801428
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅猛发展,各领域数据已变得极为丰富。高效集成各种来源的数据是人们有效利用多源数据的重要前提。然而,当前异构数据集成领域的研究方法通常存在以下局限:(1)现有的实体识别方法直接使用自然语言处理方法而忽视实体识别任务本身的独特需求,这可能造成语言模型注意力的分散;(2)现有的实体类型检测、实体发现方法无法有效集成额外文本数据,且大多将上述两个任务分开处理;(3)许多现有的异构数据集成系统通常先将异构数据转换为同一类型的数据,而没有直接集成异构数据。综上所述,现有的集成手段无法很好地应对异构数据集成任务。为解决异构数据集成中存在的上述问题,本文主要面向实体识别、实体类型检测和实体发现这三个任务,研究如何基于表示学习自动高效地提取异构数据的特征表达。本文的主要工作与贡献如下:首先,针对实体识别中注意力分散的问题,本文提出了一种基于预训练语言模型(Pre-trained Language Model)的实体识别方法Joint Matcher,该方法设计了一个基于卷积神经网络的相关片段感知编码器和一个基于带权编辑距离的数字片段感知编码器。大量实验结果表明,本方法在大部分数据集上都取得了优秀的结果,尤其是在小数据集上,能在不引入任何领域先验知识的情况下表现优于当前最新实体识别方法DITTO和Joint BERT。其次,针对实体类型检测和实体发现中无法集成额外文本的问题,本文提出一种基于图卷积神经网络的实体类型检测与实体发现方法Joint GCN。该方法通过预训练语言模型提取上下文语义特征,结合外部知识和异构数据搭建一个训练图。此外,考虑到真实数据集由于数据缺失只能进行实体类型检测任务的情况下,本文还提出了一种基于卷积神经网络的实体类型检测方法CNN-Text。将本文的两种方法与Col Net进行对比实验,验证了本文方法均能取得更优秀的表现。最后,针对结构化、半结构化和文本数据同时处理的异构数据集成问题,本文搭建了一个异构数据集成的原型系统。该系统通过一个统一的数据处理模块来预处理原始数据,根据不同的调用参数,综合本文提出的异构数据集成方法来完成数据集成任务。
其他文献
统计资料显示,2004年以来,白酒板块涨幅在A股中排名第一,15年时间涨幅达44倍,年化涨幅30%;其中贵州茅台600519在白酒板块中涨幅第一,15年间涨幅201倍,年化涨幅42%。面对涨幅如此惊人的投资标的——贵州茅台,人们不禁要问:为什么最贵的股票还能继续大涨?涨幅已经如此巨大的贵州茅台还有投资价值吗?已经买入贵州茅台股票的投资者就可以安枕无忧吗?这家公司就没有任何经营上的风险吗?笔者带着这
学位
随着我国资本市场趋于完善,直接融资的规模和比例不断攀升,私募股权投资行业快速发展,PE投资作为直接融资的主要形式之一,在完善资本市场体系、激发市场主体创新能力、加快创新资本形成和加速科技成果转化等方面发挥了重要作用。其中,以国有创投基金、政府产业引导基金等为代表的国有PE基金加速布局,通过良好的投资运作,一方面能够为国有资本带来了可观的投资收益,实现国有资产的保值增值,另一方面可充分发挥了资本杠杆
学位
报纸
针对传统有功功率-频率(P-f)下垂控制无法实现交流微电网内分布式电池储能系统(DBESS)健康状态(SOH)均衡问题,提出一种基于无通讯的微电网DBESS主动SOH协同控制方案。该方案研究下垂控制调节SOH机理,将DBESS放电深度(DOD)信息加入传统下垂控制,使DBESS能根据SOH状态平移下垂曲线,调节DBESS逆变器输出有功功率,实现DBESS组间SOH协同控制。建立小信号模型分析控制参
期刊
电力行业作为深入推进国有企业改革的重点领域,深化市场化改革为核心要义,面对当前电力市场产能过剩、能源结构优化的激烈行业竞争环境,电力企业在当前新的改革环境下如何实现企业的高质量发展,提高自身管理水平,推进与落地市场化的激励与约束机制,电力行业各企业均已面临不得不改革的局面,以便在行业竞争日趋激烈与改革压力激增的环境下生存发展。[1]本文的研究对象是HN电力运维公司,目的是针对当前改革环境以及企业自
学位
随着我国银行业发展,商业银行进入全面风险管理时代,如何构建、完善全面风险管理体系,以风险管理为基础不断成长、壮大,已成为商业银行综合实力的新标杆。贷中审查作为全面风险管理体系中“三查”制度的关键环节之一,其审查能力和审批效率是商业银行全面风险管理水平的重要体现。在小微企业贷款审批过程中,由于小微企业具备较强的信息不对称性,更容易产生风险,使得众多银行望而却步,不利于小微企业的发展,也反映出商业银行
学位
2017版《义务教育小学科学课程标准》的出台和新课程改革的深入对小学科学教学有了新的要求,提高小学科学教学的效率尤为重要。美国教育技术专家戴维·梅里尔教授提出了“五星教学模式”,旨在探讨提高教育质量的途径,这一模式由五个主要环节构成,即以聚焦问题作为根本,以激活原有知识作为开端,示证新知和尝试应用串通全过程,以融会贯通为最终目的。为了提高小学科学课堂的教学质量与效率,丰富课堂教学策略,本文将以五星
学位
<正>党的十一届三中全会拉开了中国农村改革开放的序幕,20世纪80年代全国上下实行联产承包责任制,充分调动了广大农民群众生产的积极性,中国农村经济一度出现欣欣向荣的繁荣景象,作为文化领域的漫画艺术也再度空前活跃,就在全国
会议
伴随着手机等移动设备的大量普及,电信业务快速发展,运营商之间的竞争愈发激烈,如何有效地发现潜在的流失用户成为了运营商关注的重点问题。考虑到保留原有客户的成本远低于吸引新客户的成本,有效的用户流失预测模型可以为运营商制定保留策略提供辅助,降低运营商的运营成本。现有的用户流失预测模型需要配合复杂的特征工程,耗费大量人力与时间成本,且容易导致维度爆炸问题,还忽略了不同特征之间的交叉关系。针对以上问题,本
学位
随着经济全球化的逐步深化和国际贸易的快速发展,随着国内成本的持续上升和沿海企业工人的日益短缺,外贸行业的竞争也越来越激烈。外贸企业的经营也从原来简单基本的找买家寻产家方式转向整合管理供应链的虚拟生产运营模式,由此产生了各种岗位的人才需求,从而对外贸企业的人力资源管理提出了更大的挑战。只有通过明确外贸企业内部各个岗位的责权利,建立科学有效的绩效管理体系,才能更好的激发员工的潜能,推动员工进步取得好绩
学位