密度Canopy的增强聚类与深度特征的KNN算法

来源 :计算机科学与探索 | 被引量 : 0次 | 上传用户:sargelee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
K最近邻(KNN)算法作为目前使用最广泛的有监督分类算法,在大规模、多维度数据的处理方面往往是低效的,因此提出了一种适用于高维度大数据量处理的改进KNN算法.首先采用深度神经网络(DNN)作为特征提取器并进行降维,以学习到最合适的深度特征表示形式;然后通过密度Canopy算法获取到合适的集群数和初始聚类中心,成为之后K-means聚类的输入参数;最后对学习到的数据进行聚类,并采用近似相似性搜索(ASS)中的Hashing策略按其近似相似度进行集群划分,将结果作为KNN分类器的新训练样本.考虑到要查询的最近邻样本可能落在不同集群之中,导致KNN搜索的性能下降,在聚类时额外采用了一种聚类增强策略,有效缓解了这种情况的发生.使用五个不同的数据集进行对比测试,结果表明:与实验对比的算法相比,该算法不仅能够极大地提高KNN的分类精度,而且有效地提升了算法的分类效率,减少了搜索所需的距离数,对噪声数据还具有良好的鲁棒性.
其他文献
针对恶意安卓应用程序检测中存在的特征维度大、检测效率低的问题,结合卷积神经网络CNN良好的特征提取和降维能力以及catboost算法无需广泛数据训练即可产生较好分类结果的优点,构建一个CNN-catboost混合恶意安卓应用检测模型。通过逆向工程获取安卓应用的权限、API包、组件、intent、硬件特性和OpCode特征等静态特征并映射为特征向量,再在特征处理层使用卷积核对特征进行局部感知处理以增强信号。使用最大池化对处理后的特征进行下采样,降低维数并保持特征性质不变。将处理后的特征作为catboost分
对三维地形路径规划,为克服地形的不确定性,借鉴自然界生物视觉系统的工作机制,提出了路径规划中的视野范围概念,借助空间几何投影方法实现了视野范围的构建,建立了视野范围的检测算法,并融合到遗传算法的种群初始化和变异策略中,使得遗传算法的种群个体(行走路径)总在视野范围内,从而自然避开地形障碍,确保了路径的可行性,不必再设计修复算子,降低了算法复杂度。仿真实验以融合视野范围的遗传算法和蚁群算法分别求解,
在结合检测器检测信息的多目标跟踪任务中,目标漏检通常会导致目标漏跟,增加目标身份标签变换等问题,从而降低跟踪精度。针对该问题,提出了一种运动信息优化相关滤波的多目标跟踪算法。该算法在得到目标的检测信息后,采用核相关滤波(KCF)对目标进行跟踪,并融入目标的运动信息和图像信息,以处理检测器结果不精确,出现大量漏跟失跟问题,减少碎片化的轨迹。同时在核相关滤波的基础上引入置信图的平滑约束来评估目标被遮挡
Marine aquaculture in semi-enclosed bays can significantly influence nutrient cycling in coastal ecosystems.However,the impact of marine aquaculture on the dynamics of dissimilatory nitrate reduction processes(DNRPs)and the fate of reactive nitrogen remai
针对无人机航拍航道船舶影像中船舶目标较小、尺度变换大、背景复杂等问题,提出了一种基于FoveaBox网络的单阶段无锚框的航道船舶检测算法FoveaSDet。为提升小目标的检测精度,该算法使用基于残差网络改进的SEResNeXt-I作为骨干网。为改善尺度变换问题,FoveaSDet采用Foveahead实现无锚框目标检测。同时为提高复杂背景下检测框的定位精度,使用完全交并比损失实现边框回归。经实验测
针对新兴紧致密集仓储系统Auto Store具有短途挪库作业多、顶层AGV冲突多、货架结构性角落多等特点,提出一种离线-在线两阶段AGV优化调度方法。离线路径规划阶段,给出改进双层A*算法,在拓扑图建模划分搜索区域基础上,上层通过考虑冲突的启发式函数和考虑转弯的代价函数寻求可行区域,下层在此区域基础上搜索最优路径。在线AGV运行阶段,针对两AGV冲突,扩充了回退策略和路线重规划策略;针对多AGV冲突,提出一种基于贪心算法的区域避碰决策策略,以控制问题规模。最后利用Flexsim仿真进
针对直接法DSO(Direct Sparse Odometry)存在的明显的尺度不确定性问题,对尺度不确定性给系统定位精度带来的影响进行分析,提出将对单幅图像进行深度估计的深度学习网络和DSO相结合的融合算法;针对DSO后端耗时问题,提出运用预处理共轭梯度(Preconditioned Conjugate gradient,PCG)算法优化后端求解部分。在KITTI公开数据集上与ORB-SLAM2
尽管神经机器翻译已经成为目前机器翻译研究应用中的主流方法与范式,然而同时也存在译文流利但不够忠实、罕见词处理困难、低资源语言表现不佳、跨领域适应性差、先验知识利用率低等问题。受统计机器翻译研究启发,在神经机器翻译模型中融入语言学信息,利用已有的语言学知识,缓解神经机器翻译面临的固有困境,提升翻译质量,成为神经机器翻译研究领域的一个热门话题。根据语法单位分类体系,可以将这方面的研究分为三类:融合字词结构信息的神经机器翻译、融合短语结构的神经机器翻译和融合句法结构信息的神经机器翻译。目前的研究主要集中在这三方
当前出库货位优化研究对货物生产日期的考虑大多数仅仅是简单地使用先进先出原则,如何更合理考虑货物生产日期对货位优化的影响,是亟待解决的问题。针对此问题,提出以出库代价和货物剩余价值率为优化因素的货位优化模型,并采用基于自适应算子、精英策略和灾变算子的改进遗传算法结合基于仓库繁忙度的自适应优化权重对出库货位优化模型进行求解。采用企业实际生产数据进行验证,实验结果表明采用改进遗传算法的出库货位优化算法效果更优,并且使用基于仓库繁忙度的自适应优化权重,能够有效降低货物因过久存放而造成货物价值下降的风险同时又能在仓
形式概念分析能够使用概念格和(属性)蕴涵来对知识进行可视化和表示。决策蕴涵是一种特殊的蕴涵,而决策蕴涵的研究就是在蕴涵中建立并研究一个/多个封闭的子系统(包括决策蕴涵子系统及相应的语义和语构子系统)。为了进一步厘清蕴涵和决策蕴涵之间的关系,对由决策蕴涵子系统能不能得到整个蕴涵系统进行了研究。事实上,如果蕴涵可以由决策蕴涵推出,那么关于蕴涵和规范基的研究就可以转化为决策蕴涵和决策蕴涵规范基的研究。首先给出了蕴涵可以由决策蕴涵表示的充要条件;接着通过实例表明,存在一些蕴涵不可由决策蕴涵表示,因此进一步区分了直