弱标记数据不确定性度量及特征选择研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:a27155908
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
处理多标记数据是机器学习和数据挖掘当中一个非常重要的任务,它已经引起了诸多学者的广泛研究。然而,在实际应用领域中,例如图像识别、文本分类等场景下,想要获得数据的完整标记来进行学习和训练通常是一件非常困难并且代价十分昂贵的事情。我们获得的往往是部分标记的数据或者带有缺失标记的多标记数据,即弱标记数据。到目前为止,关于弱标记数据中不确定性度量问题的研究并不多。实际上,不确定性度量有助于我们发现蕴含在弱标记数据当中的潜在特征和更加实质性的内容。信息熵早已被用于评估和描述数据的不确定性,但是,它们往往针对的是单标记数据,并不适用于多标记数据,尤其是弱标记数据。因此,本文提出一种新形式的类似条件熵的度量来描述弱标记数据的不确定性,以期进一步挖掘弱标记数据的价值,助力弱标记数据的特征选择等任务及应用。本文紧密围绕弱标记数据的不确定性度量和特征选择展开研究,主要研究工作及贡献如下:(1)本文提出了一种单调相容条件熵的形式来描述和度量弱标记数据的不确定性。这一新形式的不确定性度量主要是借助模糊粗糙集当中的相似类及相容类的概念分别处理特征空间和不完备的标记空间,结合条件熵完成新的定义使其更加适应弱标记数据的度量需求。通过理论分析和公式推导证明了该弱标记数据不确定性度量定义的合理性,在实际数据集上的实验结果进一步验证了所提出的不确定性度量的重要性质。(2)本文提出了基于不确定性度量的弱标记数据特征选择算法。不确定性度量的一个重要应用是特征排序和特征选择。基于不确定性度量我们定义了弱标记数据的属性重要度、约简等概念,并提出弱标记数据的特征选择算法。通过与其他算法的对比表明了提出的特征选择算法是有效的。
其他文献
随着互联网的普及,尤其是近些年来移动互联网的飞速发展。人们越来越多的通过网络发表自己的意见和看法,从而产生了大量带有情感倾向的文本信息。这些文本信息对于商家决策,
随着当今社会和科技的发展,化石能源越来越匮乏,清洁可再生能源的开发利用得到极大的关注,水力发电、光伏发电、风力发电和核电等清洁能源发电成为分布式电网的重要组成部分
以高速磁浮列车定位测速系统状态检测和故障诊断问题为研究内容,在对其常见故障进行失效机理分析基础上,针对定位测速系统中相对位置传感器、绝对位置传感器以及信号处理机箱
商事登记是市场主体开展经营活动的第一道门槛,它起着确认市场主体合法经营地位、实现政府对市场主体有效监管的作用。传统的商事登记制度存在审批周期长、手续繁琐、注册资
伴随着绿色、环保、可持续的发展理念深入人心,新型绿色能源在发电行业占比越来越大。新能源发电技术如光伏发电、风力发电等相较于传统化石能源发电而言具有绿色无污染的优
汽车保有量的快速增长导致石油类能源的紧缺和严重的环境问题。在煤炭资源丰富的地区或国家选择煤基替代车辆燃料不仅可以实现煤炭的清洁利用,同时也可以提高能源安全。然而,
木材是自然界中一种重要的可再生生物资源,广泛应用于制浆造纸、建筑家具业、生物能源等领域。目前我国森林覆盖率低,木材供求矛盾突出,提高木材产量,改良木材性状,优化木材
近年来,我国开始推进农业供给侧结构性改革,调整农业种植结构,大力推进粮改饲,粮改饲的重点是调整玉米种植结构。玉米是河北省主要的粮食作物之一,但是现阶段籽粒玉米存在阶
随着通信技术的不断发展,人们对于位置服务的精度和实时性的要求不断提高,而传统的定位方案已经逐渐无法满足新的定位需求。本文针对该问题,研究了传统的LTE定位场景中的E-CI
对于目前的电子商务系统来讲,其自身在不断的发展过程中,为了实现更好的销售效果,商品的自动推荐技术已经在商务系统中得到广泛的应用,对于目前的推荐技术来讲,主要存在以下