【摘 要】
:
在对文本进行分类时,大量的冗余特征会增加计算复杂度并降低分类的精度,因此需要对特征进行降维.论文提出了一种类依赖(CD)特征选择算法,通过训练集计算出所有文档的关联值(DR),根据类别,分别计算出对应类的阈值(CT),依次提取出大于阈值的文档中的最大特征,得到了对应类的特征向量,以确保每个类别都有不同数量的特征.仿真结果表明,与IG-PSO和GA两种特征选择算法相比,CD特征选择算法根据类别选择特征子集,使得分类的准确率和F1指标得到提升.
【机 构】
:
昆明理工大学信息工程与自动化学院 昆明 650500
论文部分内容阅读
在对文本进行分类时,大量的冗余特征会增加计算复杂度并降低分类的精度,因此需要对特征进行降维.论文提出了一种类依赖(CD)特征选择算法,通过训练集计算出所有文档的关联值(DR),根据类别,分别计算出对应类的阈值(CT),依次提取出大于阈值的文档中的最大特征,得到了对应类的特征向量,以确保每个类别都有不同数量的特征.仿真结果表明,与IG-PSO和GA两种特征选择算法相比,CD特征选择算法根据类别选择特征子集,使得分类的准确率和F1指标得到提升.
其他文献
论文针对答案选择任务进行研究,利用深层神经网络结合外部知识库信息的方法,提出基于知识库关系信息的双向长短时记忆网络(Knowledge Based Relation-Bidirectional Long Short Term Memory,KBR-BiLSTM),引入知识库中实体信息及实体关系信息去优化基准模型中的注意力机制;并利用知识库关系信息结合上下文丰富了问答的句子编码信息,提升模型效果.在维基问答(Wiki QA)数据集和TREC QA数据集上进行对比实验,证明了KBR-BiLSTM模型的有效性.
为更全面规划城市公交线网,缓解公交企业运力压力,通过采集公交出行OD客流数据,推算公交出行OD矩阵,运用客流分配算法,对各条公交线路上的客流进行分配.运用公交线网、路网评价方法,对所有运行公交线路的道路断面客流量进行评价,公交负荷度为0.4~0.85时,符合城市公交线网规划的要求.对公交站点公交车流量进行评价,车流量饱和度为0.65~0.85时,需设置较多的同名站点,降低公交车的拥挤程度,表明此站点在公交线网规划中具有一定的现实意义.对客流分布质量进行评价,线路的断面客流不均衡系数小于1.20,表明此公交
针对使用BPEL进行Web服务组合过程中,复杂业务流程的正确性验证繁琐且易出错问题,论文提出了一种自动化构建BPEL流程的SMV模型方法.该方法将BPEL流程自动化映射到Petri网,借由Petri网直观展示组合流程并进行边界值、死锁等性质的检查,再由Petri网可达图自动化生成SMV模型,使用模型检测工具验证系统的安全性和行为属性,从而在流程的设计阶段发现服务组合中可能存在的问题.实验结果表明论文工作可以有效地减少验证过程的复杂性,有助于提高服务组合流程的正确性.
社交网络中社区划分问题的研究不仅为网络演化、信息传播和影响力分析等方向提供了理论依据,而且在好友推荐、商业营销和舆情检测等领域有着重要应用价值.针对基于贪婪优化的社区划分算法AGSO不稳定问题,提出了一种基于度中心性局部扩展的社区划分算法(DCLE).首先计算所有节点的度中心性(Degree Centrality),其次将链接两端节点度中心性之和作为链接的度中心性并降序排序,其后将度中心性最大链接作为初始链接加入网络,最后基于贪婪策略局部扩展并迭代,得到最终的社区划分结果.通过在公开的数据集和大型人工网络
DNA甲基化几乎与所有类型的癌细胞和基因组区域异常有关,识别与肿瘤相关的差异甲基化位点可作为肿瘤纯度的估算指标,进而评估样本的肿瘤纯度.传统的信息差异位点的选择多关注肿瘤间的异质性,忽略了肿瘤生长空间的异质性,导致评估的肿瘤纯度忽视了样本的特异性.因此,论文基于DNA甲基化数据及样本位点的信息熵,通过选择具有样本特异性的信息差异甲基化位点来估算肿瘤样本的纯度.实验结果表明:论文方法估算出的肿瘤纯度结果与其他方法具有高度一致性.
定位人耳空间深度坐标是车内主动降噪研究的关键环节。论文基于YOLOv3深度卷积网络的目标检测算法对乘员耳部进行检测,并结合RGBD多源视觉传感系统动态定位车内人耳深度坐标。首先,采集车内乘员侧面RGB图像作为人耳数据集,并在人耳区域进行标定。然后结合YOLOv3的Darknet-53网络训练得到人耳检测模型。最后,融合RGBD视觉传感系统,完成人耳识别与深度坐标定位系统。实验表明,该方法在多种光照
为解决工业供应链中存在的精度低、非智能以及无法处理复杂样本的问题,提出一种基于改进人工神经网络的销售预测方法.以加拿大某机电产品销售公司的真实销售数据作为输入样本,利用基于实验数据改进的人工神经网络进行学习训练,进行销售预测,将结果与未改进的人工神经网络和较先进的卷积神经网络和高斯混合模型以及销售公司的销售数据作比较,从准确率、召回率和F值三个指标分析改进人工神经网络的预测精度.实验结果表明,改进后的人工神经网络在三个指标方面均表现出更好的性能,能够较好地预测销售成交情况.
针对当前数据信息处理领域技术发展变化,总结了数据分析研究方法范式的演进过程,分析了第四范式分析方法的内涵本质与对数据分析的影响作用,提出更加符合信息数据特点的处理模式,为抓住数据时代的机遇并全力应对挑战、夺占新的主动权提供参考.
针对鼠笼电机在时变转速状态下运行时破坏了电机电流信号特征分析(Motor Current Signature Analysis,MC-SA)的使用条件,使MCSA方法没办法诊断出时变情况下电机断条故障的问题.基于长短期记忆(Long Short-Term Memory,LSTM)网络提出一种高效准确的鼠笼电机断条诊断方法.首先通过采集故障鼠笼电机电流信号对LSTM网络进行训练,应用训练好的网络预估下一时间状态故障电机的电流值,然后通过对比采集信号和预估信号检测出故障,最后该方法通过时间域电流信号直接进行检
目前如何对互联网上的海量数据进行文本分类已经成为一个重要的研究方向,随着云计算技术和Hadoop平台的逐步发展,文本分类的并行化方式将能够更有效的解决当前的问题.论文针对文本分类中特征选择阶段对文本分类性能有很大影响的缺点,提出了一种改进的特征选择算法——类别相关度算法(Class Correlation Algorithm,CCA),同时根据Hadoop平台在海量数据存储和处理方面所具有的优点,利用MapReduce的并行编程框架和HDFS分布式存储系统对文本分类的各个阶段实现了并行化编程.最后通过实验