基于类别信息和特征熵的文本特征权重计算

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:zhoudm2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于类别信息的特征权重计算方法对特征与类别的关系表达不够准确,即对于类别频率相同的特征无法比较其对类别的区分能力,因此要考虑特征在类内的分布情况。将特征的反类别频率(inverse category frequency,ICF)和类内熵(entropy)相结合引入到特征权重计算方案中,构造了两种有监督特征权重计算方案。在维吾尔文文本分类语料上进行的实验结果表明,该方法能够明显改善样本的空间分布状态并提高维吾尔文文本分类的微平均F1值。
其他文献
《语文课程标准》指出:"学会运用多种阅读方法。能初步理解、鉴赏文学作品,受到高深情操与趣味的熏陶,发展个性,丰富自己的学生广泛的阅读兴趣,扩大阅读面,增加阅读量,提倡少做
预应力混凝土连续箱梁顶推施工质量直接关系到桥梁的整体质量及安全,因此,对其质量控制展开探讨十分必要。以某跨铁路线桥梁工程为例,详细阐述预应力混凝土连续箱梁顶推施工
循环经济是实现可持续发展的一种最佳模式。在系统查阅国内外循环经济发展现状、循环经济指标体系研究进展的基础上,确立了区域循环经济指标体系的设置原则、思路及指标筛选方
当前,我国城市化不断的发展,城市的规模不断扩大,水平也不断的提高,为了更好的保证人们的生活质量和生活水平,市政在建设的过程中需要建设大量的市政给水管网,从而使得城市的
目的:探究用甲硝唑联合克林霉素治疗细菌性阴道炎的疗效.方法:应用随机数表法将2017年1月至2018年12月慈溪市逍林中心卫生院收治的76例细菌性阴道炎患者平均分为experimental
有学者提出了一种在压缩语音编码过程中进行QIM(Quantization Index Modulation)隐写的方法.该方法可用于在G.729A压缩语音流中高隐蔽性地嵌入秘密信息,研究其隐写分析方法很有
淮北煤田孙疃煤矿位于童亭背斜东翼中段,为一地层走向近南北的单斜构造,被一系列走向NE的正断层所切割。在系统分析煤矿地质资料基础上,结合淮北煤田区域构造特征,探讨了不同
2004年在图书情报界相继出现了三部有关参考咨询方面的新著:初景利编著的《图书馆数字参考咨询服务研究》(北京图书馆出版社,2004年6月)、詹德优主编的《信息咨询的理论与方
钙钛矿及尖晶石型化合物是两种不同结构的新型半导体光催化材料,具有可见光利用率高、光催化效率高的特点,在处理污水、净化空气等方面具有广阔的应用前景.本文分别介绍了这
旅游业的兴起,促进了湘西芙蓉镇社会文化变迁,主要表现在:在旅游场景下,人们的经济结构、经营方式发生改变;民族传统文化资源被大量征用;人们的生活态度与价值观念出现多元化;