动态自适应特征权重的多类文本分类算法研究

来源 :计算机应用研究 | 被引量 : 6次 | 上传用户:baichuan817
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是研究文本数据挖掘、信息检索的重要手段,文本特征项权重值的计算是文本分类算法的关键。针对经典的特征权重计算方法 TF-IDF中存在的不足,提出了一种动态自适应特征权重计算方法(DATW)。该算法不仅考虑了特征项在文本中出现的频率及该特征项所属文本在训练集中的数量,而且通过考查特征项的分散度和特征向量梯度差以自适应动态文本的分类。实验结果表明,采用DATW方法计算特征权重可以有效提高文本分类的性能。
其他文献
研究了基于临空平台和GEO卫星的空间IP网络一体化结构以及端到端的服务质量(QoS)方案。依据临空平台和卫星通信网络的特点,首先设计了临空平台-GEO卫星空间IP网络的基本结构,进一步分析了各中转节点的处理职能、空间链路组成形式和建立过程。在通信业务的划分基础上,分析了传统IP网络的端到端QoS方案—综合服务(IntServ)和区分服务(DiffServ)的优缺点,结合临空平台-GEO卫星空间IP
本文描述山西省五台山蚋属(Simulium)蚋亚属(Simulium)杂色蚋组(Variegatum-group)二新种,山西蚋S.(5.)shanxiense sp.nov.和仙人蚋S.(S.)immortalis sp.nov..两种蚋与喜马拉
本文从媒介、宿主、传播途径及其遗传学基础对埃立克体传播循环中获得的最新进展进行综述性回顾。为人埃立克体病的预防提供技术支持和基础资料。
为推进离散制造企业RFID系统的成功实施,提出了面向离散制造企业的RFID实施方法论框架。从应用领域、应用层次、产品生命周期三个维度分析了离散制造企业的RFID应用需求。以信息技术采纳理论为基础,构建了包括RFID技术采纳决策和RFID系统实施两个阶段的RFID实施过程框架,并对各阶段的实施步骤和实施方法进行了阐述。利用上述RFID实施框架在重庆某整车生产厂进行实际应用,验证了可行性。
国际上久赋盛名的虫媒病研究专家、《寄生虫与医学昆虫学报》外籍编委Chris Curtis教授于2008年5月13时与世长辞。我们痛失一位虫媒病研究大师,追思他在虫媒病遗传防治中首开
本文简要介绍了一种新型媒介生物采样系统的研制与应用情况。新型媒介生物采样箱突破了以往单一目标采样的局限,实现了多目标复合采样的目的。同时,针对流行病学侦检和生物入侵
本文报道采自福建省的埃蠓二新种:环纹埃蠓Allohelea annulata sp.nov.和闽西埃蠓Allohelea minxiasp.nov.
目前,生物医学的研究已集中在寻找新的干预措施来控制寄生虫性公共卫生问题.分子生物学和细胞生物学惊人的成就,提供了发现和评价药物分子靶的机会.DNA拓扑异构酶--"细胞内的
凭借光镜和电镜、切片和涂片技术相结合之手段,作者对斯氏艾美耳球虫(Eimeria stiedai)大配子发育及其超微结构进行了研究.大配子发育历经早、中、晚(成熟)3期.早期虫体以大
分别从长春小白鼠、徐州人和南京黄牛的粪便中分离纯化了3株微小隐孢子虫(C.parvum)卵囊,根据C.parvum 18S rRNA基因序列设计合成引物,用PCR扩增卵囊基因组DNA,其大小为586bp