特征权重相关论文
朴素贝叶斯算法在给定输出类别的情况下,需假设属性之间相互独立,然而现实中这个假设一般不成立,导致在属性个数较多或者属性之间相关......
针对协同过滤算法在为用户商品相关性建模时未考虑用户/商品对特征属性的不同关注度及不可解释性问题,提出基于特征权重与情感偏好......
由于互联网和自媒体的快速崛起,人人都可以是内容生产者,各种信息文件呈爆炸式增长。我们不缺乏信息的来源,但找到需要的信息却愈......
如何对多视图无标签数据进行特征选择已经成为数据挖掘领域中的一个重要问题。现有的多视图无监督特征选择方法大多存在以下问题:样......
期刊
针对机器视觉场景图像中由于雨线影响导致背景信息模糊、损失的问题,提出一种基于倍频卷积和注意力机制的图像去雨方法。首先,建立基......
随着经济全球化进程的推进和国内外经营环境的越来越复杂多变,企业的生存也面临更多的挑战,而准确高效的管理决策能为企业持续经营......
随着科学技术的迅速发展,尤其是计算机、人工智能等技术的进步,离散装备制造业正在进行新一轮的产业变革,将智能化、信息化和工业......
液压系统作为自动化生产设备的重要组成部分,一旦出现故障将会严重影响系统安全可靠运行。利用系统状态数据挖掘深层特征信息进行......
随着通信技术的飞速发展,5G通讯的普及,电子邮件数据呈现爆发式增长。垃圾邮件日益泛滥,对垃圾邮件的分类和过滤变得越来越迫切。......
微表情是一种不受控制的面部肌肉运动,其通常出现在人类试图隐瞒或者压抑真实情绪的时刻。而与普通的面部表情有所区别的是,微表情......
针对案例推理(case-based reasoning,CBR)检索过程中特征权重的分配结果直接影响CBR预测模型性能的问题,提出了一种基于自私牧群优......
随着互联网时代的来临,每一刻都会产生海量数据,其中文本数据以传输效率高、便捷性高、普及范围广的优势存在于各个领域中,而如何......
随着科学技术的快速发展,各个行业每天都会产生海量的数据。并且,数据维度的迅速扩张,造成了数据中噪声、冗余以及不相关特征越来......
分类问题是数据挖掘的主要任务之一。分类算法是指通过训练得到一个分类模型并对未知类别的样本进行预测,它在数据分析中的应用极......
数据挖掘顾名思义就是从海量数据中挖掘出对于企业或者个人来说有用的信息,因为数据挖掘能够为企业创造出更大的利益,所以数据挖掘......
针对SMOTE方法对所有少数类样本进行过采样的缺陷,提出一种基于特征加权与聚类融合的过采样方法(WKMeans-SMOTE),由此进行不平衡数......
气候分区是根据某些气象要素对特定区域进行划分,在农业生产和建筑节能领域都有着重要的应用价值。现有的气候分类方法大多只考虑......
基于向量空间模型的分类方法是目前各种分类方法广泛使用的文档结构表示方法,在对基于向量空间模型的分类方法的研究发现,基于向量空......
文本分类是自然语言处理的应用领域中比较重要的一个部分.为了适应因特网上大规模在线文本的分类要求,提出一种过滤网页噪音数据的......
研究以三特征链式因果网络类别为实验材料,检验了依存模型、因果模型理论和类别"本质论"观点对特征间因果关系强度在归类中作用的......
为解决传统聚类算法初始中心易陷入局部最优、耗时长的问题,提出一种改进的K-means聚类优化算法.该算法引入最大最小距离和加权欧......
期刊
为挖掘数据的非独立同分布关系并解决传统KNN算法中存在的分类结果不准确的问题,提出一种非独立同分布下数值型数据的KNN改进算法......
文本是互联网上的主要信息载体,文本自动分类技术能够有效地将文本信息组织管理起来,帮助人们准确高效的定位文本信息,为用户获取所需......
智能算法是一种受自然界中自然现象或生物体的机理启发而开发的仿生算法。随着人工智能的迅猛发展,各种智能算法不断涌现,其应用领域......
基于主题查询的多文档自动摘要是计算语言学领域和信息抽取领域的一个重要研究课题,依据给出的主题查询,将多篇相关文档的内容浓缩为......
随着信息产业特别是互联网的高速发展,人们可以很容易地从互联网、数字图书馆以及公司内部网络获得海量的数据。这些数据按照其组织......
随着Web2.0的出现和发展,越来越多的人开始在网上表达他们对一些产品和服务的意见。用户的意见通常包括对该产品的整体评分以及一......
传统的聚类算法,如k-means算法、EM算法等,都是建立在凸形分布的样本空间上,若样本空间不为凸,算法将会陷入局部最优,因此不能对任......
随着Web资源的迅速增长,互联网中的信息越来越丰富。Web信息资源分类的质量将直接关系着现有信息资源能否高效的服务于信息需求者,......
随着Internet网络的高速发展,信息爆炸时代也随之到来。由于Internet的开放性、动态性、异构性使得用户很难快速、准确的从WWW上获......
互联网信息资源日渐激增,如何高效地从中取出有用信息成为学术界的一个重要研究方向。信息抽取是从半结构化或非结构化的数据中抽取......
伴随着信息技术的快速发展,网络成为了人们的一种社交平台,人们的生活、工作及学习也变得越来越网络化,电子邮件作为常用的网络交流工......
为了更好地表示文本语义信息,提高文本分类准确率,改进了特征权重计算方法,并融合特征向量与语义向量进行文本表示。首先基于文本......
在特征选择领域,现有的大多数方法不能同时捕获不同特征有差异的权重,不能对投影子空间施加正交约束来提高特征的判别力。为此,本......
断路器是电力系统中不可缺少的组成部分,断路器的机械健康状态是其能否稳定运行不可忽略的因素。因此,本研究的课题是中压断路器机......
伴随着现代旅游行业的飞速发展,网上酒店预订已然成为人们出行住宿选择的主要方式,日常生活中人们更倾向于在互联网中得到大量的出......
针对局部均值伪近邻(LMPNN)算法对k值敏感且忽略了每个属性对分类结果的不同影响等问题,提出了一种参数独立的加权局部均值伪近邻......
为了解决传统的基于上下文图形爬行模型爬取效率低、特征词提取不精确的问题,本文采用了在现有的技术支持上,融入机器学习算法的思......
期刊
特征权重是文本分类中分类计算的核心,对文本分类的效果有着重要的影响。现阶段特征权重计算中广泛采用TF*IDF方法,但这种方法忽......
人名消歧是自然语言理解中的一个重要问题,该问题解决的好坏直接影响信息自动处理中的诸多问题。目前人名消歧研究多是针对英文进行......
通过对CBR传统模型的分析与研究,针对传统CBR检索中主观确定特征权重的不足,本文提出了CBR检索的线性回归模型,该模型利用最小二乘......
多光谱对地观测激光雷达是一种新型植被监测手段,其应用越来越广泛。现有多光谱对地观测激光雷达系统大多采用光栅分光、多通道光......
首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数TF-IDF(term frequency-inverse document frequency)及其......