【摘 要】
:
文本表示是使用分类算法处理文本时必不可少的环节,文本表示方法的选择对最终的分类精度起着至关重要的作用。针对经典的特征权重计算方法TFIDF(Term Frequency and Inverted
论文部分内容阅读
文本表示是使用分类算法处理文本时必不可少的环节,文本表示方法的选择对最终的分类精度起着至关重要的作用。针对经典的特征权重计算方法TFIDF(Term Frequency and Inverted Document Frequency)中存在的不足,提出了一种基于信息熵理论的特征权重算法ETFIDF(Entropy based TFIDF)。ETFIDF不仅考虑特征项在文档中出现的频率及该特征项在训练集中的集中度,而且还考虑该特征项在各个类别中的分散度。实验结果表明,采用ETFIDF计算特征权重可以有效地提高文本分类性能,对ETFIDF与特征选择的关系进行了较详细的理论分析和实验研究。实验结果表明,在文本表示阶段考虑特征与类别的关系可以更为准确地表示文本;如果综合考虑精度与效率两个方面因素,ETFIDF算法与特征选择算法一起采用能够得到更好的分类效果。
其他文献
目的:了解当前宣木瓜、资丘木瓜与川木瓜资源与采收加工现状。方法:实地调查了安徽省宣城市、湖北省长阳县及重庆市綦江县等木瓜产区。结果:宣木瓜与资丘木瓜的种质为贴梗海
目的:探究Roy适应模式护理对胃癌术后化疗患者依从性及自护能力的影响。方法:选取137例胃癌术后化疗患者为观察对象,根据患者入院先后顺序分为对照组68例和研究组69例,对照组予
旅游业是一个关联度高、综合性强、带动力大的产业,加快酒泉丝路文化的开发.对促进酒泉产业结构升级,增强城市整体功能,扩大对外开放,加快现代化城市建设具有十分重要的现实意义。
根据铁路车辆轴承的服役条件和失效形式.提出了等温淬火处理是提高其强韧性的重要途径;介绍了轴承钢等温淬火工艺及其对常规力学性能、断裂韧性、接触疲劳性能、耐磨性能和车辆
教师压力问题是一个世界性的研究课题。国内外的众多研究证明,教师职业是一个高压力职业。从四个方面对国内外教师压力研究进行总结与分析,发现目前教师压力研究存在的若干问
<正> 一、界定“城市社区”服务范畴是研究城市社区服务的出发点社区是社会学的一个基本概念。就一般而言,社区是指聚集在一定区域范围内的社会群体或社会组织,按照一定的规
咳嗽是呼吸系统疾病中的主要症状,不仅见于感冒病,而且常常见于急慢性支气管炎、支气管哮喘、肺炎、肺癌等疾病中。每种病都有其各自不同的特点,病因复杂,症状各异,若采用经
飞机发动机故障往往表现出一种故障表征出多种特征信号,同一特征信号还可能反映了不同的故障的特点,而传统的基于灰色理论的飞机发动机故障预测由于只考虑表征发动机故障的一
水资源分布的不均衡,工业化对水资源的需求猛增,居民节水意识的薄弱等多种原因造成我国水资源面临着严重紧缺的现状。广大农村地区随着城市化与工业化的发展,大量地下水与湖
对14例狂犬病患者发病原因进行回顾性分析。结果表明:犬密度高、管理不到位、疫苗接种率低、疫苗管理不规范、医护人员对狂犬病认识不够是狂犬病发生的主要原因。提示为预防