一种基于改进的TF-IDF和支持向量机的中文文本分类研究

来源 :软件 | 被引量 : 0次 | 上传用户:xixiyibobo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
TF-IDF是一种应用在文本分类中常用的权值计算方法,传统的TD-IDF单纯考虑特征词频率以及包含特征词的文本数量,并没有很好的考虑特征词在文本中的重要程度以及类内分布均匀情况和类间分布离散的问题,可能会导致文本分类结果的偏差。本文引入卡方统计量 CHI 和特征词在文本中的位置作为修正因子并结合传统 TF-IDF 权值计算公式,很好的解决了特征词在类间分布以及关键词重要程度不足的问题,并应用支持向量机构建分类器,进行文本分类的实验验证。改进后的TF-IDF计算公式与传统TF-IDF相比,在查准率、查全率、
其他文献
急性胆源性胰腺炎(acute biliary pancreatitis,ABP)在我国占急性胰腺炎(AP)总数的一半以上.随着胆道疾病内镜器械的发展,操作技术的不断提高,通过内镜逆行性胰胆管造影术(ERCP)、
少花蒺藜草为入侵中国北方农牧交错带干旱半干旱地区的一年生恶性杂草,具有极强的耐旱、耐贫瘠、抗寒等特性,其产生的刺苞还对人畜造成伤害,严重破坏了入侵地的生态系统结构
急性心肌梗死起病急,病死率高,严重威胁着人类的生命和健康,冠状动脉造影作为冠心病诊断的"金标准",可以更加准确的评估冠脉病变程度。红细胞分布宽度(red blood cell volume di
发回重审是世界普遍采用的一项诉讼制度,在保障公平正义和实现权利救济方面发挥着重要作用。我国刑事二审程序中的发回重审制度在司法实践中存在着不容忽视的问题,在一定程度上
中美规范均采用以可靠度理论为基础的极限状态设计法,但抗力项中国规范采用的是设计强度,美国规范采用的是名义强度,然后乘以强度折减系数后获得设计强度.同时荷载项中荷载分
玉米蛋白粉是淀粉加工业的副产品,主要含有60%以上玉米醇溶蛋白以及20%左右的谷蛋白和微量的球蛋白,由于其缺乏人体必须的色氨酸等,限制其在食品加工领域的应用。因此很多学
近年来,因酒吧不断在居民区附近开业,造成经营噪声扰民造成居民上访的案件日益增多,已成为各地环保信访案件的新增长点。本文针对酒吧噪声污染的主因进行分析,并对酒吧噪声污
通过对使用风光电互补路灯杆进行基站建设的方案进行了介绍,提出了一种新型绿色的建设模式,有助于后续5G大力发展建设的应用。
定价:110.00(含邮费)本书描述了2009年全球、我国及北京生物医药产业的最新进展和趋势。第一、二章介绍了一年来全球及国内生物医药产业的发展状况、趋势及热点。
针对微博短文本特征难以提取的特点,结合微博文本的3种专属特殊符号:"@"、"//"和"#"分析微博文本的特点,从而对TF-IDF算法进行改进,并且考虑用户兴趣时间的长短来进行微博短文本特征