基于改进TF-IDF特征的中文文本分类系统

来源 :计算机与数字工程 | 被引量 : 0次 | 上传用户:olivehht
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的发展,人们不仅可以从网络获取信息,也能够在网络上表达个人观点、分享自身体验。自Web2.0以来网络已经由原来的阅读式网络转换成为了当今的交互式网络。而伴随网络发展的是成几何速率增长的网络信息。文本信息是网络信息的重要组成部分,不同文本信息可以分成新闻、娱乐、时评、财经等不同类别。进行中文文本分类不仅能为建立文本语料库提供便利还能够应用到其它数据挖掘领域。论文基于改进TF-IDF特征并结合SVM模型设计了一种自动化的中文文本分类系统。实验证明,对比传统特征提取方式,采用改进TF-I
其他文献
为了客观评价煤层水力压裂效果,优化抽采钻孔布置方式,基于统计损伤力学原理修正了水力压裂后煤体有效应力值,建立了能够描述煤层在水力压裂过程中的流固耦合模型。以寺河矿3
针对目前互联网导医服务的需求,借助人工智能技术,采用软银人形机器人"Pepper"作为服务机器人,基于从LabVIEW到python的交叉编译技术和前端技术,进行软件设计,开发智能导诊综
生莱是北京地区主要的叶类蔬菜,为筛选出适合北京春季种植的散叶生莱品种,本文以引进的7个散叶生莱品种为试材,并以北京主栽散叶生莱品种美国大速生作为对照,研究不同生莱品种的
针对空中移动目标识别问题,提出了一种基于动态行为学习的识别方法。首先,从数据源中提取目标要素,经过标注形成目标数据特征集;其次,基于应用场景进行特征组合,形成特征模型
为了提高垃圾邮件过滤系统的对邮件过滤的准确性和返回率,论文改进了传统的贝叶斯定理。提出一种改进的垃圾邮件过滤方法,该方法使用基于单词提取特征值和使用特征向量来描述
随着互联网时代的发展、大数据的喷发,网络安全不仅是各国政府必须要慎重考虑的问题,而且与人民群众的生活也息息相关,人们对数据的保密性、传输安全性更加重视。论文以Strut
现有马克思主义理论文本研究主要围绕马克思主义经典作家、西方马克思主义、中国化马克思主义三个方面展开。以当代理论文本学研究规范为参照,现有研究存在着欠缺现代文本解
针对卫星轨道连续跟踪采样的时间窗口传统计算方法计算量大、效率低的问题,提出了一种新的快速算法。为减少参与计算的采样点数量,算法通过预测参与计算对象之间距离动态调整采样步长;为使算法适于解决各类时间窗口计算问题,提出广义可视概念进行时间窗口判定。分别研究了卫星与地面点目标可见时间窗口、星间可见时间窗口、卫星对地面目标覆盖时间窗口、地面大范围区域卫星过境时间窗口的广义可视判断方法和预测距离计算模型。实
为解决采场瓦斯涌出量达20 m^3/min以上的上隅角瓦斯治理难题,基于回采过程中顶板上覆岩层动态运移规律和现场实际考察,确定出距顶板15~38 m、回风巷8~40 m为卸压瓦斯富集区
基于东北地区伪满殖民教育特色文献资源收藏与服务现状,论证了伪满殖民教育特色文献资源的不可再生性和原始文献的实证性等历史价值,提出了文献资源共享平台建设在成立组织机构