论文部分内容阅读
粗糙集(Rough Set,RS)理论是一种刻划不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。粗糙集理论被广泛应用于机器学习、决策分析、过程控制、模式识别与数据挖掘等不确定环境下的信启、处理,其核心内容是属性重要性的度量和属性约简。应用属性重要性的度量可以分析数据中不同属性的重要程度,特别是基于属性重要性度量的属性约简手段,可以剔除数据中存在的冗余成分,提取关键信息,生成决策规则,从而为科学化管理,预测和决策提供支持。本文利用以波兰数学家Z.Pawlak为代表的研究者提出的粗糙集(Rough Set,RS)理论在分析和处理不精确、不一致、不完整等各种不完备信息方面的优势,以及它具有的模型简单、直观,无需数据先验信息等优点,结合天智公司旅游电子商务平台的技术支撑和服务环境,对属性约简算法进行了深入研究。针对天智公司旅游电子商务平台长期积累的数据资源,应用改进的属性约简算法,进行了属性约简和规则提取,帮助旅行社进行有针对性的宣传和为旅游者进行旅行社和旅游线路的合理选择,从而提高了该平台的综合服务能力,取得了良好的应用效果。首先,在分析基于波兰华沙大学数学家Skowron提出的区分矩阵的各类求属性核及属性约简算法的基础上,指出了不相容性对求属性核的影响。通过限定运用条件属性对论域划分所得的等价类中相应决策属性值构成的集合的基数为1,该影响仍然无法被修正。而在对非核属性进行约简时,忽略近似分类精度为0的属性对属性约简并没有太大的影响,反而能够有效降低算法的时空复杂度。其次,基于启发式信息来度量属性重要性的属性约简算法通常都能够取得较好的效果,但通过分析得出启发式信息通常都存在一些明显的不足,如属性依赖度的计算过于粗糙,而基于信息熵的计算过于精细,将两者结合的加权平均能够很好的修正两者的不足,但计算过于复杂。为了使得计算简单有效,我们采用了近似分类精度对属性重要性进行度量。虽然近似分类精度比较粗糙,但是计算量相对属性依赖度却明显降低。另外还通过引入了具有简单通用、鲁棒性强、适于并行处理以及高效、实用等显著特点的全局优化搜索算法——遗传算法来解决组合爆炸问题。最后运用这些属性重要性度量和优化算法,并根据实际情况,对约简算法进行了改进。再次,为了便于提取规则,我们在文献提出的属性值约简方法的基础上进行了改进。通过同时去掉除了属性值可以取任意值之外的其他属性值都相同且能够判定决策的重复规则,大大加快了算法的效率。最后,将数据库中存放的旅游电子商务平台中积累的数据清洗转换编码后导入到Excel工作表中,并实现Excel与Matlab链接,再运用Matlab编程实现本论文所提出各种属性约简算法对数据进行分析,提取出潜在价值比较高的规则并应用于实际,取得了较好的效果。