特征项相关论文
基于多重共现的视角,提出可适用于研究领域主题发展趋势的分析模型,并对Morris的交叉图技术进行改进,使其适用于研究领域主题发展......
信息科学高度发达的当今世界,每时每刻都会有大量的数据产生,在我们的周围充斥着各式数据信息,这些数据往往是高维的,高维数据难以被人......
当前,随着Internet技术的推广和应用,国际互联网已经成为世界上最大的信息资源库和全球范围内传播信息的最主要的渠道.如何帮助用......
随着Internet的不断发展,互联网上的信息越来越多,互联网也随之成了人们获取信息的巨大资料库。但是网上的信息错综复杂,人们在搜......
本文以规则学习算法RIPPER为基础,提出一个改进的规则学习算法hRIPPER,其中重要的一个部分就是层次特征选择算法HFS,它为每个层次......
为了网页信息的有效组织和检索,针对网页中的超文本结构特征,在研究网页间的超链接、超文本标记对信息提取的作用的基础上,阐述了......
【目的】针对现有预警体系多以企业自身和监管部门为主体、忽视网络舆情,导致预警力度不强、缺乏透明度及敏感性、使突发性安全问......
本文在对中文邮件关键词提取方法、关键词的降维处理与优化提炼以及垃圾邮件识别概率等方面进行理论探讨的同时,较为详细地阐述了......
角度编码设备是转台类天线完成位置闭环,实现精确指向的关键设备,该设备输出角度的质量对于系统位置控制功能和系统指向精度以及空......
当前,利用非结构化数据进行信息提取是地理信息领域的研究热点。针对这一热点,本文提出了基于中心向量的KNN分类方法。首先,对向量......
TFID作为文本特征权重计算常用方法,其不足之处是忽略了特征词在文本中的分布情况和文本长度。修正特征词后的改进TFIDF算法召回率......
提出了一种个性化元搜索系统模型,详细描述了它的实现算法。该模型可以提高搜索系统的搜索覆盖率,同时在模型中整合了用户的兴趣,......
为准确判断网民言论与所关注话题的相关性,根据输入的关键词,运用查询扩展技术设计特征项提取和赋权算法,构造了话题向量空间模型,......
直觉模糊集的术语相似度方法基于直觉模糊集进行术语相似度评估。首先采用TFIDF方法提取特征项。然后定义特征项之间的直觉模糊相......
互联网上视频数据以各种形式充斥着人类的视听,然而,人们想要手动处理、分析这些视频数据变得非常不实际。于是,如何有效和快速地......
针对企业物料主数据标准化应用的内在需求,提出了物料主数据标准体系设计方法,包括分类标准设计、特征项标准设计和编码设计,同时......
包装印刷行业的产品设计与众多设计要素相关。传统的产品设计依赖于设计者的主观判断,设计效率较低。可以通过对网络数据的分析提供......
文本分类领域中,TF-IDF特征权重是一种常用的分类算法。本文介绍了TF-IDF特征权重算法,对于能够表征文本特征的文本特征词,常常按......
1 引言在多种问题的数值模拟中均涉及抛物型对流扩散方程的数值求解问题,由于配置法无需计算数值积分,计算简便,收敛阶高等优点,使之在......
研究了受限语境下中文文本语义相似度计算,提出一种文本语义形式化表示方法——语片表示法,实现了《〈操作系统〉课程主观题自动判......
研究了游动者在给定约束条件下的一种基于网格的自回避随机游动算法的实现,并利用该算法实现了对曲流河河道形态的建模。影响游动......
本文意在提高文本分类的准确度和速度。利用tf算法对特征项进行初步赋予权值,再使用屏蔽词对特殊非实意词进行屏蔽。本文独创概率......
不良信息特征项的挖掘精度制约着不良信息鉴别与过滤的效果。文章从数据挖掘的角度对不良信息特征项的识别进行研究,提出了一种自......
为了网页信息的有效组织和检索,针对网页中的超文本结构特征,在研究网页间的超链接、超文本标记对信息提取的作用的基础上,阐述了......
文本表示中特征项的权值计算方法决定了文本特征的提取,在很大程度上影响了文本聚类的准确率。通过系统总结常用的几种特征项权值计......
系统地探讨了在范例库中引入一系列可以使用的数据挖掘技术,以期提高范例推理系统中知识获取的自动化程度.为了准确地表达范例比较......
在传统的信息检索方法中,对检索返回结果的处理较少,导致检索的精确率不高.针对该问题,讨论了基于熵原理对大量的召回结果进行加工......
针对Html网页结构的特点,网页的不同标记信息所辖的特征项包含不同的类别信息,通过抽取网页不同标记信息内的特征项并赋予不同权重来......
针对Type-3克隆代码映射方法少且效率低等问题,提出了一种基于改进向量空间模型(VSM)的映射方法。该方法将改进的VSM引入到克隆代码......
目前,在网页分类中,对HTML主要结构特征进行加权的常用方法是绝对数值加权方法。这种方法的缺点是加权系数为定值,其对长文本和短文本......
在数据抽取中,主要是对文本的处理。文本分类是文本处理的基本过程。文本分类技术同时还在自然语言处理、信息检索、文本挖掘等领......
提出了一种基于朴素贝叶斯模型的中文关键词提取算法。该算法首先通过训练过程获得朴素贝叶斯模型中的各个参数,然后以之为基础,在......
传统的文本分类多以空间向量模型为基础,采用层次分类树模型进行统计分析,该模型多数没有结合特征项语义信息,因此可能产生大量频......
基于词频统计思想的传统文本相似度算法,往往只考虑特征项在文本中的权重,而忽视了特征项之间的语义关系。综合考虑了特征项在文本......
PageRank基于链接分析计算页面的权威度,衡量网页的权威性,实现搜索结果的等级排序。文章针对传统PageRank存在的主题漂移问题提出......
文章研究受限语境下中文文本语义相似度计算,提出一种文本语义形式化的表示方法——语片表示法,实现《操作系统》课程主观题自动判分......
本文的研究背景为精细化工云平台的建设,其目的就是为了处理现阶段大量关于精细化工领域的文本信息,方便使用者能够及时有效的获取......
特征权值的选择是文本分类的基础环节,TFIDF是文档特征权值表示常用方法之一。但其过于简单的词频和反文档频率表迭式会忽略在一个......
针对传统VSM方法中选取特征项的不足之处,在文本相似度计算研究领域中中,提出了一种新的特征项选取方法——用语言片段作为特征项.介......
对于海量的网络信息而言,文本自动分类算法的合理应用决定了当今网络服务商所能提供服务的优良与否。因此,文章在对现今流行的分类......
在信息化时代的今天,随着存储容量的翻倍增长和网络通讯速度的不断提高,海量文本信息的传输和保存已变得异乎平常。很显然的是传统......
根据中文文本的特点,不仅考虑‘文本中词汇概率信息,还结合文本语义等多方面信息来计算文本特征项的权值,从而提出一种基于多重因子加......
4G时代的到来,各大通信运营商业务迅速发展,客户投诉量也飞速增长。不同于传统投诉只是为了收集客户反馈,为客户提供更好的服务,如今大......
Rough集方法是一种处理不确定或模糊知识的重要工具.文章对汽车故障诊断中的基于Case推理方法进行了研究,介绍了不确定知识的事例......
探讨“相关性”的概念,简述文献相关性数据库的研究现状,提出基于词表和特征项提取的向量空间模型,并在此基础上设计、构建中国生物医......
基于后缀树结构与向量空间模型来设计西文二次文献的文献相关性判定算法。给出了文献相关性判定的流程,分析了后缀树算法的优势,并采......
为增强向量空间模型(VSM)中项的语义描述性,克服VSM中各语义单元相互独立的缺陷,提出一种基于短语的特征粒度描述方法。该方法从文本的......