【摘 要】
:
聚类是将给定的样本分成几个不同的簇,它在机器学习、数据挖掘等领域得到了广泛应用,并受到研究人员的广泛关注。但是,传统的聚类方法仍然存在3个方面的不足。首先,由于一些数据中存在噪声和异常值,传统的聚类方法容易产生误差较大的目标函数。其次,传统的聚类方法没有使用监督信息来指导构建相似矩阵。最后,加入图正则的聚类方法在计算相似度矩阵时,邻居关系都是确定的,一旦计算错误就会导致构造图的质量低,进而影响聚类
【基金项目】
:
国家自然科学基金(61572419,61773331,61801414,62072391)。
论文部分内容阅读
聚类是将给定的样本分成几个不同的簇,它在机器学习、数据挖掘等领域得到了广泛应用,并受到研究人员的广泛关注。但是,传统的聚类方法仍然存在3个方面的不足。首先,由于一些数据中存在噪声和异常值,传统的聚类方法容易产生误差较大的目标函数。其次,传统的聚类方法没有使用监督信息来指导构建相似矩阵。最后,加入图正则的聚类方法在计算相似度矩阵时,邻居关系都是确定的,一旦计算错误就会导致构造图的质量低,进而影响聚类性能。因此,提出了一种基于高斯场和自适应图正则化的半监督聚类(SCGFAG)模型。该模型通过高斯场及谐波
其他文献
随着城市化进程的不断深入,居民出行频繁模式挖掘成为一个研究热点。然而,现有的研究存在一些问题,如缺乏对频繁模式发生的目的和意义的描述,以及对挖掘结果分析不全面等。针对这些问题,文中提出了一种新颖的居民出行频繁模式挖掘方法(Mining Method of Residents’Frequent Travel Patterns,MMoRFTP)。首先,采用形态学图像方式将地图划分为多个区域,利用融合后的多源位置数据来构建出行模式,并采用主题模型识别每个区域的功能;然后,将缺乏语义信息的出行轨迹转化为具有区域和
为了提高电力知识文本挖掘的性能,采用FP-Growth算法对影响电力需求的强关联因素进行挖掘,运用广义回归神经网络(General Regression Neural Network,GRNN)算法实现电力需求预测。首先,对待挖掘的电力文本进行指标提取并编码,生成电力文本初始FP-Tree;接着采用FP-Growth算法遍历所有FP-Tree,生成频繁集,过滤掉小于最小支持度的项,留下频数较高的频繁项;然后根据更新后的FP-Tree统计关联项,选择与总用电量增长率关联强的变量生成训练样本;最后采用GRNN
高光谱图像在采集过程中经常受到混合噪声的干扰,严重影响了图像后续应用的性能,因此图像去噪已成为一个极其重要的预处理过程。文中采用非凸正则项代替传统的核范数重新构造逼近问题,使稀疏正则项更贴近本质秩函数的属性,进而提出了一种将非凸代理函数、全变分正则项和l_(2,1)范数集成于统一框架的混合噪声去除算法。所提算法旨在将退化的高光谱图像以矩阵的形式分解为低秩分量和稀疏项,并利用全变分正则化保持边缘信息
传统的基于k-匿名机制的假位置生成算法生成的假位置的合理性较低,易被攻击者利用边信息进行攻击。针对此问题,提出了SPDGM算法。首先,定义语义加权有向图,描述语义的时间分布和语义转移关系;其次,为解决仅考虑位置历史概率产生的抵抗能力弱的问题,提出了位置可信度,统一考虑了位置历史概率和大众的评价信息;再次,为避免假位置分布过于密集,定义了离散度,以控制假位置的分布情况;最后,生成语义安全且分布稀疏的匿名集。实验证明,在语义攻击下SPDGM算法具有更低的被识别率,更高的隐私保护强度;在考虑语义攻击的算法中,S
基于深度神经网络(Deep Neural Network,DNN)的自动调制识别(Automatic Modulation Recognition,AMR)模型具有特征自提取、识别精度高、人工干预少的优势。但是,业界在设计面向AMR的DNN(AMR-oriented DNN,ADNN)模型时,往往仅关注识别精度,而忽视了对抗样本可能带来的安全威胁。为此,文中从人工智能安全的角度出发,探究了对抗样本对ADNN模型的安全威胁,并提出了一种新颖的基于特征梯度的对抗攻击方法。相比传统标签梯度的攻击方式,特征梯度攻
裁判文书数量的快速增长对自动化分类提出了迫切要求,然而已有研究缺乏在民事案件这一细分领域下以判决结果为分类标准的方法的研究,无法实现对民事案件判决结果的准确分类。文中将深度学习技术应用于民事案件判决结果分类领域,通过横向对比多种深度学习模型得出了该领域下表现较好的模型,并依据裁判文书的数据特点对该模型进行了进一步的优化。实验结果证明,Transformer模型的判决结果分类的宏精准率、宏召回率和宏F1分数均高于其他模型。通过对数据预处理流程的优化和对Transformer模型位置嵌入方式的优化,模型的性能
离群点或异常检测是数据挖掘和机器学习等领域的研究热点之一,研究人员已提出了多种离群点检测方法,并将其应用于入侵检测和异常交易检测等问题。但多数离群点检测方法主要针对表数据或时间序列数据等,无法直接应用于离群文档检测。现有基于相近性的离群文档检测方法一般用文档与整个文档集的距离来衡量离群性,无法发现基于局部考量的离群文档,而且采用欧几里德距离可能无法刻画出文档间的语义相近性。基于概率模型的离群文档检测方法过于复杂,并且同样只从全局来定义文档的离群值。针对这些问题,文中提出了一种新的基于相近性的离群文档检测方
脉络膜新生血管(Choroidal Neovascularization, CNV)一般出现在老年性黄斑变性(Age-related macular degeneration, AMD)晚期,在光学相干断层成像(SD-OCT)中对CNV进行准确分割对AMD的诊疗具有重要意义。文中提出了一种融合时序模型与注意力机制的CNV分割网络。该方法将连续的SD-OCT图像输入分割网络,在编码器部分提取图片多尺
与传统媒体相比,社交网络在传播新闻、思想、观点等方面发挥着突出的作用,同时也是传播谣言、虚假新闻等负面信息的最佳途径。因此,对网络舆情演化趋势的准确预测和有效控制已成为重要的研究话题。目前,大多数研究从理论建模的角度对网络舆情事件的演化特性和发展趋势进行预测,基于用户行为特征的信息传播演化趋势预测模型的建模及分析有待进一步研究。考虑到信息传播过程中用户之间的相互影响,文中提出一种基于注意力机制的方法,旨在探究社交网络中用户在信息传播过程中的影响来预测信息的传播趋势。首先,利用基于长短时记忆神经网络(Lon
因编码问题的目的和对象不同,需要针对问题调整编码方法。针对轨道积木的编码问题,文中提出了轨道积木的二维函数表示方法,并利用相位相关对积木进行识别。首先,将三维轨道积木在二维极坐标系下展开,将轨道积木表示成二维离散函数,由于积木具有旋转不变性,同一积木的表示结果并不唯一,因此引入参数矩阵,以指定积木的标准型。其次,采用相位相关算法判断两个积木的相似度。最后,在二维离散函数表示的基础上,根据积木所包含