【摘 要】
:
作为模式识别最基本的分类方法之一,聚类在各个科学领域的数据分析中都扮演着重要的角色.然而随着大数据的出现,聚类分析在前沿发展中不断地面临着计算复杂度和计算成本等新的问题和挑战.通过研究k-means聚类算法的时间复杂度O(nk),针对迭代过程中大量的最近邻计算和其特殊场景,引入KD树作为索引,提出了基于单KD树的近似近邻算法和基于多KD树的交叉搜索算法.将k-means聚类算法的时间复杂度降为O(nlog k),并通过实验验证,基于多树的交叉搜索算法具有与k-means聚类算法相当的聚类质量.
【机 构】
:
哈尔滨工业大学 计算机科学与技术学院,哈尔滨150001
论文部分内容阅读
作为模式识别最基本的分类方法之一,聚类在各个科学领域的数据分析中都扮演着重要的角色.然而随着大数据的出现,聚类分析在前沿发展中不断地面临着计算复杂度和计算成本等新的问题和挑战.通过研究k-means聚类算法的时间复杂度O(nk),针对迭代过程中大量的最近邻计算和其特殊场景,引入KD树作为索引,提出了基于单KD树的近似近邻算法和基于多KD树的交叉搜索算法.将k-means聚类算法的时间复杂度降为O(nlog k),并通过实验验证,基于多树的交叉搜索算法具有与k-means聚类算法相当的聚类质量.
其他文献
为了改善传统剪切波变换在零件表面缺陷图像中边缘不明显和去除噪声效果不理想的问题,本文提出了基于非下采样剪切波变换(NSST)和限制对比度的自适应直方图均衡化(CLAHE)的图像增强算法,在后续的Canny算子边缘检测中效果较好.首先,将缺陷图像进行NSST变换,获得相应的高频图像和低频图像;其次,将高频图像进行CLAHE变换,NSST逆变换的图像经过Canny算子应用于检测缺陷图像边缘.结果表明:该算法在面对零件的拉伤、倒偏角和碰伤缺陷时,均获得了较高的峰值信噪比和信息熵;在增强边缘的同时,能够更好的去除
本文利用Python语言获取某平台医药商品评论文本,采用正负预料库进行LDA模型训练和情感分值的计算,并使用Matplotlib方法和Wordcloud对处理之后的数据进行可视化.通过这种方法可以有效、精准获取京东商品评论,并对其进行情感分析,对提高工作效率和数据分析成效均具有积极的作用.
现阶段无人驾驶汽车主要依靠视觉技术来完成车辆的环境感知,在道路识别领域,视觉技术能准确识别出道路可行驶区域.为了增强无人驾驶车辆在非结构化道路对场景区域的判别能力,本文基于SegNet、ENet、UNet 3种在多分类任务中取得较好成果的分割网络架构,通过对模型网络或参数的调整和修改,提出一种能很好应用到非结构化道路区域分割问题的分割模型.通过拍摄并制作标签数据集,采取不同的评价指标进行分析,得到最佳的道路区域分割模型,用于预测非结构化道路的可行驶区域.实验证明,相比较于传统的非结构化道路分割的区域生长模
杭州市注重于传播自身文化、坚定文化自信、提高自身文化软实力,其中,西湖便被作为了当地文化名片之一.但目前介绍西湖文化景观的APP大多存在功能单一、界面简单、缺乏西湖独有特色及人文气息等问题,难以激发用户的兴趣.为解决上述问题,本文基于Android Studio开发平台,引入AR、VR和定位等特色功能,开发了一款运行于Android系统的西湖游览介绍APP.该APP通过各种手机操作,引导用户在游戏的过程中探索、学习西湖文化知识,极大地提高了用户学习西湖文化的积极性,真正意义上实现“指尖轻触,文化尽有;足不
消化道息肉和慢性炎症性疾病的进一步发展容易引发癌变,深度学习的方法能够辅助医生自动检查胶囊内镜图像中的病灶,实现医学图像分类,目前的自动检测研究模型很少权衡模型的准确度与速度,难以适应临床中对多病灶协同检出的需求.为此,本文提出一种基于轻量级网络的迁移学习方法,以辅助检测消化道常见病变.经与ResNet50和InceptionV4网络进行对比,在公开的CAD-CAP数据集上的实验结果表明,该方法对消化道血管畸形病变的敏感度达94.74%,炎症性病变的敏感度达89.76%,模型准确率为94.72%,平均AU
本论文以“互联网+”的思维模式、物互联为基础,根据当地的不同种类粮食作物每亩的产量,单价以及补贴计算得到模型收入方程,再根据市场的供求关系对方程进行调节,通过构建利润最大化模型,经过不断与实际情况进行比对,得出了最优科学配比组合,并利用信息手段将产销整合为一个有机体,通过大数据分析,实时掌握影响农业生产的各项因素,为提升农村耕地利用率,农业生产效率,找到了有效途径.
虚假数据注入攻击给电力系统的安全稳定运行带来严重威胁,研究其检测方法具有十分重大的意义.本文基于容积卡尔曼滤波提出了一种虚假数据注入攻击的检测方法,该方法首先利用容积卡尔曼滤波算法对系统进行状态估计;其次,将状态估计结果与加权最小二乘法的估计结果进行状态一致性检验;最后,以IEEE-14节点系统为试验对象,进行算例分析.结果表明,本文的方法能够有效地检测出注入到系统中的虚假数据.
针对随机点生成高度在海面模拟中浪尖处易失真的问题,尝试用Perlin噪声生成高度,并利用插值函数进行插值来模拟海浪.根据分辨率进行晶格的构建,计算各顶点的噪声值;通过插值函数,生成平滑的海浪.实验结果表明,该方法不仅可以高效模拟海面,而且能充分地表现海浪连续平滑的特征,解决了海浪浪尖处容易过于尖凸而出现的失真问题.
VANET受限于车辆的高速移动性,网络拓扑的动态性及无线信道的开放性,极易遭受来自网络内部的差评攻击和选票攻击.为了保障VANET通信安全,本文提出了一种基于动态聚类的信任模型,通过去除推荐信任中与主观信任偏离度较大的数据,最大化包含评估节点邻域内的有效信息,从而减少恶意攻击对信任计算造成的影响.实验表明,该模型具有较强的抗攻击性和鲁棒性.随着VANET中攻击节点所占比例的增加,网络能够保持较高的吞吐量和较低的丢包率,模型的计算结果能够保持较高的准确性.
上海市长期护理保险(长护险)制度正处于试点阶段,运行时间较短,尚未成熟,本文通过服务接触理论研究上海市长护险满意度评价指标,有针对性地对长护险提出解决对策.首先,基于服务接触理论影响被保险者满意度评价指标,分别为服务质量、护理项目、护理时间、评估等级4项;其次,运用层次分析法以及模糊综合评价,对满意度评价指标进行评分,选取的4个指标所占权重排序分别为护理时间、评估等级、服务质量、服务项目,指标满意度得分位于评价等级的“一般”与“差”之间.为了提高长护险的满意度,需要通过建立护理时间动态调整机制、考虑被保险