论文部分内容阅读
在对大规模流体数据进行可视化时,特征检测能够加速数据分析速度,并且能够对大量杂乱数据进行有效可视化。在数据集中确定特征的方法有两种:局部特征法和全局特征法。局部特征法,要分析邻近的一小部分数据;全局特征法通过汇总的分类策略从整体提取特征。对有些种类的特征来说,全局特征法能够更准确的识别出被关注的特征。但是对于某些大规模数据,进行全局特征检测的代价太高。在流体力学的应用中,漩涡是其中最主要的特征。由于缺乏严格的漩涡定义,目前存在的很多漩涡检测的方法的检测结果并不理想。而目前主流的检测算法,大部分都是局部检测算法,由于单次检测的数据量少,会显得特别脆弱。基于此,本文提出使用机器学习的方法来提高漩涡检测的鲁棒性,该方法能够综合目前已有的检测算法的优点,生成一个性能较好的检测算法。在专家的半监督下,最后生成的检测算法保留了各个局部检测算法的优势,并逐渐逼近于理想的检测算法。本文的主要贡献和创新点包括:1.提出了专家参与的样本标定方法专家借助流体数据中的流线来圈定包含流体特征的区域,作为机器学习的样本以及衡量其他检测结果优劣的标准。尽管流线会受不稳定因素影响,但其仍然是流体力学中常用的方法,能够提供全局和局部的物理数据的特征。专家以其他检测算法为参考,结合流线以及其他辅助的信息(局部最小压力等)标定流体特征。该方法结合了手动检测流体特征的准确性和其他自动检测算法的灵活性,为后续机器学习方法得到最佳性能提供了前提。2.提出了检测算法的最优阈值判定方法阈值对大多数检测算法是至关重要的。本文使用ROC空间坐标来比较检测算法的性能,对每个检测算法给出最接近最佳分类结果的阈值。在ROC空间定义衡量检测算法性能的变量,即给定的检测算法的性能坐标到完美检测算法坐标的距离。首先在可能包含阈值的区域中按照样本分布密度平均抽取临时阈值样本,计算这些样本在ROC空间的性能,比较之后改变样本抽取的区域重新抽取临时阈值。依此不断迭代,在精度的控制下逼近该检测算法的最优阈值。该方法结合了统计学上的多种衡量标准,易于实现,应用灵活。3.提出了基于Boosting技术的增强漩涡检测方法借鉴机器学习中经典的Boosting技术,结合流体数据自身的特征,通过对现有的检测算法的有机结合来提升漩涡检测的性能。因为目前能够使用的流体特征较少,检测算法数量有限而且性能相近,本文提出了有策略的增加子检测算法的方法,避免了最终检测结果被少数检测算法控制的情况发生。实验结果也验证该方法的可用性和有效性。4.提出了基于CAVIAR技术的增强漩涡检测方法CAVIAR是一种基于特征空间内相邻样本的学习算法。基于CAVIAR的增强算法,主要解决样本间的特征距离问题,即样本邻居的定义。除了流体样本自身的物理属性,该方法还引入了空间相对位置的信息对样本进行聚类,然后结合现有的漩涡检测算法对漩涡检测的性能进行增强。算法中,参数特征距离阈值用交叉验证的方法判定。基于CAVIAR技术的增强漩涡检测方法以样本自身的特性为指导,有侧重地训练学习,能为不同的样本生成各自独立的检测器,使得最后的增强检测算法更有针对性,检测性能更好。最后在实验中对算法的可用性和有效性进行了验证。本课题提出的算法能够极大的提升检测算法的性能,可以应用在大规模数据的多分辨率流体可视化中,能够更准确的分析流体属性,并对其进行高效快速的绘制。而机器学习还未被广泛的应用到可视化的领域,本课题中方法的提出能对这方面的研究提供参考。