【摘 要】
:
实际系统往往由大量类型各异、彼此交互的组件构成.目前,大多数工作将这些交互系统建模为同质信息网络,并未考虑不同类型对象的复杂异质交互关系,因而造成大量信息损失.近年来,越来越多的研究者将这些交互数据建模为由不同类型节点和边构成的异质信息网络,从而利用网络中全面的结构信息和丰富的语义信息进行更精准的知识发现.特别是随着大数据时代的到来,异质信息网络能够自然融合异构多源数据的优势使其成为解决大数据多样性的重要途径.因此,异质信息网络分析迅速成为数据挖掘研究和产业应用的热点.对异质信息网络分析与应用进行了全面的
【机 构】
:
北京邮电大学 计算机学院, 北京 100876;智能通信软件与多媒体北京市重点实验室, 北京 100876
论文部分内容阅读
实际系统往往由大量类型各异、彼此交互的组件构成.目前,大多数工作将这些交互系统建模为同质信息网络,并未考虑不同类型对象的复杂异质交互关系,因而造成大量信息损失.近年来,越来越多的研究者将这些交互数据建模为由不同类型节点和边构成的异质信息网络,从而利用网络中全面的结构信息和丰富的语义信息进行更精准的知识发现.特别是随着大数据时代的到来,异质信息网络能够自然融合异构多源数据的优势使其成为解决大数据多样性的重要途径.因此,异质信息网络分析迅速成为数据挖掘研究和产业应用的热点.对异质信息网络分析与应用进行了全面的综述.除了介绍异质信息网络领域的基本概念外,重点聚焦基于异质网络元路径的数据挖掘方法、异质信息网络的表示学习技术和实际应用这3个方面的最新研究进展,并对未来的发展方向进行了展望.
其他文献
为了解决内核不可信带来的问题,很多工作提出了同层可信基的架构,即,在内核同一硬件特权水平构建可部署安全机制的唯一保护域.但是,实际过程中往往面临多样化的安全需求,将多种对应的安全机制集中于唯一的保护域必然导致只要其中任何一个安全机制被攻陷,同一个保护域内其他所有安全机制都可能被攻击者恶意篡改或者破坏.为了解决上述问题,提出了内核同层多域隔离模型,即在内核同一硬件特权水平构建多个保护域实现了不同安全机制的内部隔离,缓解了传统方法将所有安全机制绑定在唯一保护域带来的安全风险.实现了内核同层多域隔离模型的原型系
时序不变式反映了事件间的时序逻辑关系,被广泛应用于异常检测、系统行为理解、模型推理等技术.在实际使用中,一般通过分析软件系统的日志数据挖掘时序不变式.相比全序日志,偏序日志可为挖掘算法提供更为准确的数据来源.但是,现有的基于偏序日志的时序不变式挖掘方法存在效率较低等问题.为此,以系统执行路径为数据来源,提出了一种基于集合运算的时序不变式挖掘方法SOTIMiner,并研究了改进方案.相比现有方法,该方法不需要反向遍历日志数据,从而具有较高效率.实验显示.该方法在保证挖掘相同结果的基础上,效率平均是Synop
并发程序由多个共享存储空间并发执行的流程组成.由于流程之间执行次序的不确定性,使得并发软件系统的测试比较困难.变异测试是一种基于故障的软件测试技术,广泛用于评估测试用例集的充分性和测试技术的有效性.将变异测试应用于并发程序的一个关键问题是,如何高效地生成大量的模拟并发故障的变异体集合.给出了一种并发程序的变异测试框架,研制了一个并发变异体自动生成工具CMuJava.采用经验研究的方式评估了CMuJava生成的变异体集合的正确性与充分性,并且评估了变异体生成的效率.实验结果表明:CMuJava能够准确、充分
随着图结构化数据挖掘的兴起,超图作为一种特殊的图结构化数据,在社交网络分析、图像处理、生物反应解析等领域受到广泛关注.研究者通过解析超图中的拓扑结构与节点属性等信息,能够有效解决实际应用场景中所遇到的如兴趣推荐、社群划分等问题.根据超图学习算法的设计特点,将其划分为谱分析方法和神经网络方法,根据方法对超图处理的不同手段,可进一步划分为展开式方法和非展开式方法.若将展开式方法用于不可分解超图,则很有可能会造成信息损失.然而,现有的超图相关综述文章鲜有就超图学习方法适用于哪类超图这一问题做出相关归纳.因此,分
近些年来,作为一种新的有监督学习范式,标记分布学习(LDL)已被应用到多个领域,如人脸年龄估计、头部姿态估计、电影评分预测、公共视频监控中的人群计数等,并且在这些领域的相关任务上取得了一定性能上的进展.最近几年,很多关于标记分布学习的算法在解决标记分布学习问题时考虑到了标记之间的相关性,但是现有方法大多将标记相关性作为先验知识,这可能无法正确刻画标记之间的真实关系.此外,标记相关性通常用于在训练阶段调整假设空间,而最终的标记预测并未显式利用标记间的相关性.因此,提出一种新的标记分布学习方法——考虑标记间协
利用多种群遗传算法解决多路径覆盖问题,是测试数据自动生成领域一个重要的研究方向.为了提高多路径覆盖测试数据自动生成的效率,提出一种将关键点概率和路径相似度相结合的多路径覆盖策略.首先,将理论路径划分成易覆盖、难覆盖及不可达路径;然后,通过易覆盖路径统计关键点概率,依此概率计算个体对生成测试数据的贡献度,并利用贡献度改进适应度函数,同时根据关键点概率对目标路径进行排序;最后,使用多种群遗传算法生成覆盖目标路径的测试数据,在进化过程中,子种群覆盖当前目标路径后,继续尝试覆盖该目标路径的相似路径.实验结果表明,
时间序列数据广泛存在于我们的生活中,吸引了越来越多的学者对其进行深入的研究.时间序列分类是时间序列的一个重要研究领域,目前已有上百种分类算法被提出.这些方法大致分为基于距离的方法、基于特征的方法以及基于深度学习的方法.前两类方法需要手动处理特征和人为选择分类器,而大多数的深度学习方法属于端到端的方法,并且在时间序列分类问题中表现出不错的分类效果.但是,目前基于深度学习的方法很少能够针对时间序列数据中时间尺度选择的问题对网络进行改进,在网络结构方面,很少将网络进行融合,从而更好地发挥各自的优势.为了解决这两
我们的认知思维和概念系统建立在隐喻之上.隐喻理解的实现,是自然语言处理任务中关键的一环.为了让理解过程更好地切合隐喻的工作机制,基于隐喻的互动理论,提出了合作网模型,将隐喻理解的过程部署为一个网状结构,实现汉语句子隐喻的理解计算.相比于其他模型,合作网模型体现了目标域和源域之间“求同存异”的语义关系,强调概念之间的双向语义联结,通过计算各个关系的强弱,输出更适应于上下文信息的表述意义.实验结果表明,合作网模型合理、有效.基于合作网得到的理解结果,能够初步反映隐喻理解过程的动态性和突显性.
对抗鲁棒性指的是模型抵抗对抗样本的能力,对抗训练是提高模型对抗鲁棒性的一种常用方法.然而,对抗训练会降低模型在干净样本上的准确率,这种现象被称为accuracy-robustness problem.由于在训练过程中需要生成对抗样本,这个过程显著增加了网络的训练时间.研究了预测不确定性与对抗鲁棒性的关系,得出以下结论:预测不确定性越大,则模型对抗鲁棒性越大.结论解释为:用交叉熵训练得到的模型边界并不完美,为了使得交叉熵最小化,可能使得一些类的分类面变得狭隘,导致这些类的样本容易受到对抗攻击.如果在训练模型
多视角子空间聚类方法为高维多视角数据的聚类问题提供了大量的解决方案.但是现有的子空间方法仍不能很好地解决以下两个问题:(1)如何利用不同视角的差异性进行学习获得一个优质的共享系数矩阵;(2)如何增强共享系数矩阵的低秩性.针对以上问题,提出了一种有效的双加权多视角子空间聚类算法.该算法首先通过子空间自表达学习到每个视角的系数矩阵,然后采用自适应权重策略构建一个共享系数矩阵,最后利用加权核范数逼近系数矩阵的秩,使得系数矩阵的表示更加低秩,进而取得更好的聚类结果.采用增广拉格朗日乘子法来优化目标函数,并在6个广