基于特征选择方法的新闻文本分类研究

来源 :山西大学 | 被引量 : 5次 | 上传用户:zous111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,随着计算机技术的不断普及以及互联网的快速发展,人们可以接触到不同行业的各种信息,这些户预先定义的不同类别中,进而帮助人们快捷、高效地找到所需要的信息。本文对新闻文本经过分词,去停用词后,得到一个词语集合,该集合包含5万多个词语。词语集合中词语数目太多会导致向量空间维数太高,以至于影响分类器的性能和效率,因此需要对词语进行特征选择,即选取对分类性能影响较大的词语。本文对特征选择方法进行了改进,第一种是对卡方统计特征选择方法进行了改进。该方法只考虑了特征词出现的文本数,而没有考虑特征词的词频,并且对于高词频的词语,需要考虑其在文本集中普遍出现的现象,因此本文引入特征词的TF-IDF权重对CHI进行了改进。第二种是对XGBoost重要性评估思想进行了研究,该思想一般用在风控领域,对属性重要性进行解释及属性选择。在风控领域迭代地选择属性进行模型训练,但是在文本分类中,文本中包含的特征词的数量很多,不可能一一进行选择。针对这种不足,本文提出了适合于文本分类的XGBoost特征选择方法。针对效率低的缺点,本文提出了采用XGBoost进行特征选择前,采用词语的权重进行筛选。其中重要性值的计算,本文采用特征词在所有树中被选作最优划分属性的次数。本文采用宏平均F1分数,准确率等多个指标对分类结果进行综合分析,通过SVM,NB和神经网络算法进行模型的训练和测试,证明CHI-TFW和XG-TI两种方法的可行性。
其他文献
该试验通过对添加了增稠剂A、B、C及其不同组合的甜酒酿进行饭粒悬浮稳定性研究.结果表明:在密度不变的条件下,甜酒酿饭粒悬浮稳定所需的粘度值与增稠剂种类有关,且不能单靠
近年来,教育技术学科虽取得了长足的发展,但在繁荣与发展背后也不乏质疑、抱怨和指责。教育技术学需要通过审视与守望来实现一种“知止”式发展。审视过去、守望未来不仅是教育
目的分析卵巢恶性黑色素瘤(MM)诊断陷阱并复习相关文献。方法对1例冷冻曾误诊的卵巢转移性小圆细胞性恶性黑色素瘤的临床、镜下特点、免疫组化结果和鉴别诊断以及误诊原因进
以粉煤灰为主要原料,添加少量的高岭土及微量的添加剂为辅料,采用泡沫浸渍法制备粉煤灰泡沫陶瓷。采用X射线衍射、场发射扫描电镜研究了泡沫陶瓷的生成相及其分布,以及泡沫陶瓷
<正>据全国养成教育总课题组专家对北京市20多所学校的调查显示,由于不爱学、不会学而烦恼的孩子,初中达到58.6%,高中达到72.4%。导致厌学有三个非体制原因:一是教育者一厢情
期刊
基于稀疏变换的地震数据插值可提供有效、可靠的波场,但为了适应不断增加的计算量和减少CPU计算时间,必须探寻更快速稳健的方法。本文提出一种基于曲波变换的快速梯度投影法
夏日夜晚,人们在坟地偶尔看见磷火,这是由于人和动物体内的磷的化合物经过复杂的化学变化后,所产生的磷的氢化物的一种自燃现象。白天由于阳光太强,同时P_2H_4在光照或受热
随着国家经济的发展,计算机网络技术的快速发展,互联网经济的发展越来越迅猛,互联网产业正迅速的在各行各业融合并发挥着不可缺失的作用。与国家经济的发展和人们日常的生活
以2013年十八届三中全会为起始点,本轮国企改革拉开序幕。本轮国企改革的主要任务是积极推进混合所有制改革、完善国有资产管理体制、推动国有企业完善现代企业制度、准确界
随着市场经济的深入发展.人们的物质生活得到了极大的丰富,但是当人们充分享受生活的同时也被市场上大量假冒伪劣产品所困扰。为了保护消费者的权益和商家的经济利益,各种防伪技