基于聚类的文本分类属性加权

来源 :第二届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:wuchen2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有的文本自动分类方法通常是基于向量空间模型并使用TF-IDF表示,忽略了属性在不同类别中重要性的差异,因而影响到分类的性能.本文提出一种基于聚类的文本分类属性加权方法:把训练集中的每个类别看作已知的聚簇(cluster),通过优化属性权重(每个类对应一组分类属性权重)以达到聚类效果最佳的目的,使在此权重下不同类别的文档得到尽可能的区分.运用kNN方法对Reuters-21578和20-Newsgroups的分类测试表明,使用C-Weighting的分类效果明显优于不使用C-Weighting时的效果.
其他文献
高强度帆布与普通帆布的主要区别是纱线的弯曲程度更小,因此主要采用直经直纬或经二重结构.采用高强度帆布生产的输送带强度利用率更高、生产工艺更简单、质量更稳定、尺寸稳定性更好、抗冲击性更好,而且可降低对输送机辊简直径和张紧长度的要求,并可更多地应用新型高模量材料。同时介绍了可用于生产高强度帆布的DORNIER刚性剑杆织机.
本文以三种不同粒径的微米氢氧化镁和一种新型的纳米氢氧化镁粉体为研究对象,考察了粒径这一重要因素对橡胶补强作用和阻燃效果的影响规律,进一步证实了橡胶增强需要纳米增强的观点,同时发现粒径效应对阻燃效果影响不大。以丁腈橡胶、三元乙丙橡胶、丁苯橡胶、硅橡胶等4种橡胶为基体材料,研究了该复合材料的力学性能和阻燃性能,结果表明,纳米阻燃剂不但赋予了复合材料良好的“无卤”阻燃性能,还对非自补强性的合成橡胶产生了
研究了投料比、反应温度和时间、升温速率、泄压速度等因素的变化对产品收率的影响,确定了最佳的合成工艺条件,使产品收率大于83%。
本文对一种改进型不溶性硫黄-CRYSTEXHDOT 20进行了介绍。该产品利用一种特殊的添加剂改善了分散性能,与其它的充油20%的不溶性硫黄相比,生产成本增加轻微。Crystex HD OT 20改善了产品的流动性能,使得产品易于处理,并可实现自动称量配料。
本文介绍了橡胶硫化剂硫磺和不溶性硫磺的用途,区别;简述了国内外硫磺及不溶性硫磺制备路线及生产概况。作者强调:目前国内不溶性硫磺生产能力已远远大于需求,提高产品质量才是根本。
从防老剂RD的发展过程和反应机理,分析了防老剂RD聚合体的分子结构与其抗热氧老化、抗屈挠龟裂性能的关系,指出了防老剂RD质量改进的方向。并且通过研究改进,使南京化工厂生产的防老剂RD质量达到国外先进水平。
本文对AB嵌段型均匀剂的分子设计与合成进行了研究。文章围绕AB嵌段型均匀剂的基本原理、AB嵌段分散剂的合成方法、影响B段分子量的主要原因等进行了阐述。
本文对环己胺生产现状与市场进行了探讨。文章介绍了环己胺的苯胺催化加氢法及环己醇催化氨化法合成技术与生产现状,对环己胺市场进行了分析,并提出了发展建议。
以新一代单指令微控制器ADμC842为核心实现IC总线,多片微控制器分别实现IC主机和IC设备,并实现主机与设备之间的数据通讯.该接口在微型飞行器(MAV)机载控制系统中实现并且成功对微型飞行器试飞数据进行实时采集和记录.
研究了(Ba,Sr)TiO基电容器陶瓷中掺杂稀土氧化物DyO对材料介电性能的影响,得到了DyO影响其性能的规律,即随着DyO加入量的增加材料的介电常数开始增大随后减少,当W(DyO)=0.5﹪时介电常数最大,而介质损耗逐渐减少.得到了介电常数为5245,介质损耗为0.0026,耐压为5.5kV/mm的高压低损耗陶瓷电容器瓷料.探讨了DyO掺杂改性的机理.这些结果为DyO掺杂改性电容器陶瓷提供依据.