论文部分内容阅读
诸多实际应用中,由于确定数据集的类信息通常比较“昂贵”,因此研究者只能为其中很少量的数据标记类信息。针对上述“少量标记数据问题”,文中基于粗糙集理论和信息熵的概念,提出了一种基于信息熵的粗糙特征选择算法。通过分析给定数据集上有标记数据集和无标记数据的信息熵,重新定义了整个数据集上的信息熵。在此基础上定义了半监督意义下基于信息熵的特征重要度,设计了一种基于信息熵的可有效处理含有少量标记数据的半监督粗糙特征选择算法。实验结果进一步验证了所提算法的可行性和高效性。