基于类别区分度的文本特征选择算法研究

来源 :北京化工大学学报:自然科学版 | 被引量 : 0次 | 上传用户:hwcf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对词频反文档频率(TFIDF)算法的缺陷,引入类别区分度理论改进传统的TFIDF算法.通过比较改进TFIDF算法与其他几种常用特征选择算法的分类效果,证明了改进TFIDF算法用于中文文本分类时,准确率和召回率要优于其他算法,改进TFIDF算法具有较好的特征选择效果.
其他文献
以低分子量聚丙烯酰胺(PAM)为模板,通过液相化学还原法首次制备了类毛线团表面银微球,并采用扫描电子显微镜(SEM)、X射线衍射(XRD)及氮气吸附法对银微球形貌及分散性进行表征。结果表
采用两步接枝方法,研究了芴酮(FL)引发丙烯酸(AA)在低密度聚乙烯(LDPE)膜表面的接枝聚合过程,探讨了单体浓度、聚合温度等因素对表面接枝的影响。结果表明:在单体质量分数为5%~20%,聚合温
利用高效液相色谱法分别测定表没食子儿茶素没食子酸酯、表儿茶素、茶氨酸、槲皮素、黄嘌呤和次黄嘌呤在普洱茶发酵过程中的含量变化,发现在发酵过程中,表没食子儿茶素没食子酸
利用原子转移自由基聚合(ATRP)法合成了一种新的供体-受体双嵌段聚合物聚对(二苯胺基)苯乙烯-聚(2-(2-蒽醌甲酰氧基)甲基丙烯酸乙酯(P1-b-P2)。供体段是富电子的三苯胺段,受体段是缺电
对一株产吡咯喹啉醌(PQQ)假单胞杆菌Pseudomonas 0813的发酵条件进行了优化,通过单因素试验确定碳源、氮源及无机盐成分,之后用正交试验法优化各成分配比,考察了发酵温度、初始pH
采用Y型微通道,通过反溶剂沉淀法研究了聚乳酸-羟基乙酸共聚物(PLGA)透明纳米分散体的制备过程。实验考察了在丙酮-水体系条件下,PLGA丙酮溶液浓度、总流量、反溶剂流量、溶剂
针对目前遥感图像受云雾覆盖导致利用率较低的问题,通过分析Retinex理论在云雾去除上的不足,提出了一种基于图像云雾区域识别的Retinex云雾去除改进新方法。通过划分出遥感图像的云雾覆盖区域和无云区域,并对不同的区域有针对性地进行处理,达到同时进行图像云雾去除和地面信息增强的效果。对仿真实验结果的分析表明,此种新方法能够在图像云雾去除、色彩恢复及细节增强等方面提供更好的处理效果,大大提高了遥感图
针对现今垃圾短信泛滥的现状,给出了一种基于依存文法的组合特征选取的中文短信过滤方法.该方法通过对短信进行句法分析,将依存关系较强的词合并处理,组合成更能代表短信内容
采用复乳法制备脂质体,使用3因素3水平的Box-Behnken响应面设计,以脂质体的包封率、载药量和综合评价为响应值,考察龙胆苦苷药液质量浓度、第一次乳化超声时间及膜材中磷脂与胆
基于db小波包变换,采用频率分级阈值方法对三维荧光光谱数据进行了压缩。建立了数据的小波包分解树,根据对数能量熵最小原则确定最优树,通过频率分级阈值方法对最优树中的小波包系数进行压缩,并且用实验获取的数据加以验证。实验结果表明,和小波变换相比小波包变换能够更有效地保留数据的细节信息。通过和其他阈值法比较可知,频率分级阈值法具有更好的压缩率和数据恢复能力,其压缩分数达到90%,恢复分数大于98%,谱线