论文部分内容阅读
现实中的数据往往具有多标记性。例如,一张图片可能同时包含“沙漠”、“骆驼”和“蓝天”等语义标注;一篇新闻报道可能同时包含“经济”、“战争”和“政治”等主题;一段话可能同时包含有“愉悦”和“悲伤”等情感。多标记数据的高维性,会增加分类、聚类等数据挖掘任务的困难性,如增加挖掘算法的时间复杂度以及模型的复杂度等。特征选择是一种保证对挖掘结果不变差的条件下,尽量使用较少的特征进行建模的数据预处理技术。目前的多标记数据特征选择研究还未对标记之间的关系进行充分利用,同时在特征选择后,直接使用已有的分类,未很好的利用特征选择的结果。为此,融合标记关系,开展多标记数据的特征选择以及针对特征选择结果的分类器的设计研究,主要研究内容和结论如下:(1)基于模糊不一致对的多标记属性约简本文将每个标记视做一个随机变量,利用KL散度度量标记关系,结合该标记关系,赋予每个标记以权重,结合标记权重定义模糊不一致样本对。用属性对模糊不一致样本对的区分能力定义属性重要度,提出了一种基于模糊不一致对的多标记属性约简算法。在对8个公开的多标记数据集当中,采用6种评价指标,证明了所提算法的有效性。(2)融合标记关系的K近邻多标记分类器由于在多标记数据集上,不同标记可同时出现0值或者1值,为此,我们考虑标记之间可能存在线性关系,并利用关联规则进行挖掘,结合挖掘结果赋予标记权重,得到标记排序序列。结合标记权重与已有属性约简算法,得到约简后的特征子集,用特征子集定义样本距离的度量公式,结合标记排序序列与标记之间影响力,提出一种融合标记关系的K近邻多标记分类器。在对5个公开的多标记数据集当中,采用6种评价指标,证明了所提算法的有效性。总之,本文在多标记数据的特征选择以及针对选择结果分类器中,融合标记关系,较以往未融合标记关系进行多标记数据的特征选择效果与分类效果有一定的提升,为多标记数据的处理提供新的方法。