基于粒子群算法和支持向量机的中文文本分类研究

被引量 : 0次 | 上传用户:boge09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的迅猛发展和Internet的日益普及,人们面临的信息数据呈现爆炸式的增长,如何对海量、重复、异构的文本数据进行快速有效的提取一直是本学科的前沿研究课题。文本自动分类作为处理海量信息的关键技术,通过对文档集的分类提炼,抽取有用的知识、规律等信息,建立良好的组织结构,以提高文档存取和检索等操作效率。在数字存储技术日益普及的今天,文本自动分类技术应用范围更加广泛,如数字图书馆、电子邮件的自动分类、电子商(政)务、新闻分类等。因此对文本自动分类技术的研究不仅具有重要的学术价值,而且具有广泛的应用前景。本文首先分析了现有的中文文本分词算法,在深入研究常用分词算法的特点的基础上,设计了一种改进的词典机制,并提出了一种改进的逆向最大匹配分词算法,所提出算法显著提高了分词处理速度和分词正确率。深入分析了文本分类中传统的特征选择评估算法,在此基础上提出一种基于类别的特征选择算法。实验结果表明,与传统特征选择方法相比,所提出特征选择方法获得的特征具有更好的文本分类效果,能够更好地提高分类系统的性能和精度。最后,基于粒子群算法,对支持向量机的模型参数选择问题进行了研究,通过将粒子群算法与支持向量机相结合,给出了PSO-SVM算法。PSO-SVM算法是建立在SVM数学模型的基础上,在支持向量机分类算法的训练过程中引入粒子群算法,对误差惩罚因子和核函数参数进行优化,并同时优化最佳特征子集,在此基础上,将SVM的参数选择问题转化成整数规划问题,通过粒子设计和适应度函数的设计,最终集成了粒子群算法的全局搜索特性和支持向量机的良好的分类性能,改善支持向量机的学习、分类能力,提高文本分类的正确率,减少特征数量。通过对中文文本分类数据集进行的测试,结果表明该算法与GA-SVM算法相比,可以获得较高的学习能力和更好的分类正确率。
其他文献
农膜的使用对促进节水农业的发展无疑起到了一定的促进和提高作用,但其所带来的环境污染及土壤的破坏问题也日渐突出,如何建立旧膜的回收机制,减少土地的污染,保护环境,促进
<正>长蛸[Qctopus Varibilis(sasaKi)],俗称章鱼,是一种属于八腕目蛸科的经济头足类,主要分布在暖温带的浅海、滩涂。其肉质鲜美,营养丰富,深受消费者的青睐,供不应求,经济价
本文以土地整理项目案例分析为切入点,借助于经济学、公共财政学等理论工具,采用规范与实证相结合、案例分析与调查研究等方法,对土地整理项目作了系统的描述和分析。全文分
目的:依据肾病综合征湿热证与感染关系密切的研究基础,探讨原发性肾病综合征(PNS)湿热证与抗炎因子IL-4I、L-10I、L-13水平的相关性。方法:按纳入标准选择PNS湿热证患者60例,
动物福利壁垒正成为新一轮的贸易壁垒,作为农业大国的中国,动物及动物源性产品的出口是事关我国经济发展的大问题。本文试图分析动物福利壁垒产生的原因、作用机理和其产生的
缺血性脑卒中(Ischemic stroke IS)是临床的常见病,具有高发病率、高致残率、高死亡率和高复发率等特点,是一种严重威胁人类健康的疾病,占所有脑卒中的70%~80%,发病机制复杂,
随着工农业生产的发展,对温湿度环境的要求越来越高,使得温湿度的测量与控制应用更加广泛。许多产业对温湿度环境提出了较高要求:在粮食储藏、生物化学制药、制造集成电路和
在改革开放30年后的今天,我们可取得巨大的成就。在中国市场化的进程中,房地产、教育和医疗对人们的生活影响较为直接并且十分重大,这些领域的市场过程出现的问题并引起的争
随着信息时代的到来,企业的生存和竞争环境发生了根本性的变化,越来越多的企业认识到,利用信息技术,可以改善及提高企业的运作效率,降低企业的运营成本,提高企业的核心竞争力
目的:为中医甲诊提供血管形态学依据。方法:用血管铸型标本、手术显微镜及扫描电镜观测等方法研究了甲床的血供。结果:甲床的血供主要来自指掌侧固有动脉的尺侧支和桡侧支共