数据集分类可用性评估的置信区间方法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:zhang5658
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何有效评价训练数据集的可用性,一直是困扰智能分类系统应用的难点问题。针对机器学习领域的数据分类问题,提出了一种基于区间分析和信息粒化的数据集分类可用性的评估方法,用于评价数据集的可分程度。该方法将待评估的数据集定义为分类信息系统,提出了分类置信区间的概念,通过区间分析进行信息粒化。在此信息粒化策略下,定义分类可用性的数学模型,并进一步给出单个属性以及整体数据集的分类可用性的计算方法。选择18个UCI标准数据集作为评估对象,给出了部分数据集分类可用性的评估结果,并且选取3种分类器对所选数据集进行分类实验,最终通过对上述实验结果的分析证明了该评估方法的有效性和可行性。
其他文献
证明利用邢育森等人提出的一种由n-2元正形置换直接构造n元正形置换的迭代构造方法构造的多输出函数并不是正形置换,指出了该构造方法存在的问题。通过对该方法构造的多输出函数的输出重新进行定义,对该方法进行了修正,并基于修正方法给出了正形置换的新的计数下界。
覆盖配置能有效缓解无线传感器网络中节点能量受限的问题,但现有的研究多是基于物理覆盖,这与实际的信号传播特点不符。针对这一问题,提出了分布式传感器网络概率覆盖保持协议(DPCCP),该协议基于概率探测模型,利用Voronoi划分在节点本地执行概率覆盖判断算法。仿真实验中,将DPCCP嵌入LEACH路由协议,形成LEACHE协议,验证算法效率。仿真结果表明,DPCCP在保持网络覆盖度的同时,可关闭大量
针对正交频分复用(OFDM)系统中归一化频偏所引起的载频间干扰(ICI)系数分布特点,设计了一种通用的OFDM预编码传输方案。可将ICI系数更好地集中在较少的子载波位置上,使接收端的干扰矩阵成为稀疏的矩阵,简化信号检测。从理论分析与系统仿真这2方面对这一算法进行了研究。与已有的基于均衡的ICI抑制算法相比,所建议的算法具有更低的计算复杂度;与ICI自身干扰抑制算法相比,具有更高的频带利用率。
基于身份加密体系的隐藏证书原始模型存在无法实现一对多的信息传输、对身份信息不具备容错功能且密文容易被共谋破解等缺点。提出的基于属性加密的隐藏证书扩展模型通过引入属性集合证书技术、基于加解密精度阈值等特性,解决了上述三个问题。在分析国内外相关研究进展的基础上,对扩展模型在体系架构、系统构造、双方信任协商协议、多方信任协商协议以及扩展模型解决复杂逻辑访问策略的方法等进行了详细的阐述,并对扩展模型的安全
为了提高多视角视频编码系统中运动估计速度,提出了一种基于马尔科夫链模型的快速运动矢量估计算法。该算法充分利用帧间、视角间相关性,建立预测矢量状态集合。通过马尔科夫链模型的状态转移概率,对预测矢量进行提前测试。然后利用提前退出准则,实现快速运动矢量估计。实验结果表明,与单独采用全搜索算法比较,该算法对于多视角视频序列运动估计速度可以提高99%以上,PSNR平均降低0.16dB。提出的算法对多视角视频
用HPLC法测定氟康唑软膏中氟康唑的含量,方法简便,快捷,精密度和稳定性好。回收率99.0%,RSD=0.61%。
以商业易得的(+)-内向3-溴莰酮-2为手性源合成了光学活性的(1’R,2S,2‘S)-2-(2-溴甲基-2-甲基-3-亚甲基)环戊基丙酸。
用高效液相色谱法建立了小鼠肝匀浆中乳梨醇的含量测定方法。乳梨醇的回收率为99.9%,日内和日间RSD均小于1.0%。
我国会计准则要求投资性房地产可以采用成本模式和公允价值模式进行后续计量,本文在对投资性房地产后续计量方法进行分析的基础上,借助多变量回归分析方法研究云南上市公司投
用 10种抗生素药与氧氟沙星注射液配伍 ,室温观察 6h内混合液的外观 ,pH值和吸光度变化