跨域多模态数据分析关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zxjds
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨域多模态数据集在许多领域发挥重要作用,本文主要研究征信背景下的多字段分类数据和多元时间序列数据之间的数据融合问题。现有跨域多模态数据融合的研究主要集中在文本与图像间融合以及视频与音频间的融合,鲜有人研究多字段分类数据与多元时间序列数据之间的融合,且这两种数据间存在较大的结构和语义上的差异,如何设计模型使其既能够最大可能地挖掘每种模态数据所蕴含的信息,又能弥补两种数据结构和语义上的差异使其很好地融合,成为本文的一大难点。本文主要包括如下三部分研究内容。首先,本文提出分类多字段数据的特征表示模型CFM模型。该模型通过在FM模型的基础上引入Cat2vec模型的交叉层+K-Max池化层(Interaction Layer+K-Max Pooling Layer)结构,解决了传统模型无法挖掘特征间存在的高阶潜在模式且精度不足等问题。其次,本文提出了多元时间序列数据特征表示模型IA-RNN模型。该模型通过在基于基本LSTM单元的模型上引入Input-Attention,使得模型可以捕捉不同维度的输入数据在每个时间点拥有的不同程度的作用,从而可以更好地挖掘多元时间序列数据中蕴含的潜在信息。最后,本文提出三种不同方式的数据融合模型,分别为基于Early Fusion的端到端模型、基于Early Fusion的非端到端模型和基于Late Fusion的端到端模型。通过模型间的对比实验,总结了几种模型间的优劣。综上所述,本文采用基于深度学习的方法,分别针对多字段分类数据和多元时间序列数据设计了两种特征表示学习模型,最大限度地挖掘数据本身蕴含的信息,最后,基于学习到的特征向量,采用三种不同方式进行融合。实验结果表明,CFM模型与IA-RNN模型分别优于多字段分类数据在CTR预估领域的分类任务以及多元时间序列的分类任务的一些基准和先进模型。三种融合模型中,基于Late Fusion的端到端模型效果最优,且三种模型在准确率和AUC两种评价指标上的效果均不低于两种集成学习模型。
其他文献
目的:观察玻璃体腔注射康柏西普治疗糖尿病黄斑水肿(diabetic macular edema,DME)的有效性及安全性。方法:前瞻性研究。选取2015-12/2016-12在深圳市人民医院眼科就诊,经荧光素眼
随着新能源汽车市场迅速发展和我国全面禁售燃油汽车工作提示日程,新能源汽车对传统燃油汽车形成强有力的冲击并大有逐步替代的趋势。2017年国内新能源汽车销量77.7万辆,同比
利用输电线路杆塔基础设计与优化软件,对混凝土板式基础的不同结构型式与地脚螺栓预偏设置进行设计优化分析。研究结果表明,混凝土板式基础设计时的控制因素是基础底板的上拔
《雁叫长空》是厦门歌舞剧院2006年原创的一部原创音乐话剧,由蓝天作曲、姚远编剧、王晓鹰导演。该剧立意深刻、内容丰富、题材新颖、寓意深远、充满人性的光辉,雄厚的音乐贯
特斯拉(TESLAMOTORS)凭借IT和传统工业产品设计的完美结合,以销售业绩和股价双重优势成功“逆袭”美国电动汽车市场。在乔布斯所创建的IPHONE销售奇迹即将褪色之际,特斯拉成
报纸
生命的成长$$张丽军:您是如何对文学产生兴趣的?哪些文学作品最吸引您?您又是何时立志做一名学者的?$$朱德发:我为什么对文学发生了兴趣呢?这里面原因很多。从小在家乡教学,闲余时间
报纸
【正】 建国三十年来的实践证明,我们对银行这个以经营货币信用为基本内容的特殊企业的本质,认识并不十分清楚,对充分运用银行这个工具来管理和调节经济,还缺乏自觉性。每当
提出了一种将位图的灰度值与地形高程之间建立映射关系,并通过位图快速生成三维地形的算法.叙述了用VC++7.0和OpenGL编程实现该算法的流程.通过实际使用,证明该算法执行速度
为明确中国南荻(Miscanthus lutarioriparius)野生居群的分布及其表型多样性,该研究对54个南荻野生居群的8种表型性状的多样性进行分析,并测定其土壤pH和肥力指标,分析土壤对
目的探讨腹腔镜手术治疗子宫内膜异位症的效果。方法从我院于2008年1月-2014年4月接收的子宫内膜异位症患者中抽选典型病例作为研究对象,分成不同疗法组:研究组患者208例,给予