支持向量机文本分类算法的研究及其应用

被引量 : 0次 | 上传用户:zhizu81748
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和信息网络的飞速发展,从大量数据中挖掘出有用知识的数据挖掘已成为具有重要意义的研究领域。支持向量机(support vector machine)是近年来在统计学习理论的基础上发展起来的一种新的模式识别方法,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。虽然统计学习理论(SLT)有比较坚实的理论基础和严格的理论分析,但是其从理论到应用还有很多尚未得到充分研究和解决的问题。例如,目前该领域的相关研究大多是试图设计某种分类器,使其对未来所有可能样本的预期性能最优,而在很多实际问题中,没有可能也没有必要用这样一个分类器对所有可能的样本进行识别,而往往只需要对一些特定的样本进行识别。于是可以考虑设计这样一种更为经济的分类器,用它来建立一种直接从有标签样本出发对特定的无标签样本进行识别和分类的方法和原则。相对于传统的归纳推理方式,这种推理方式被称为直推式学习(transductive inference)。直推式学习试图根据已知样本对特定的未知样本建立一套进行识别的方法和准则。渐进直推式支持向量机学习算法(progressive transductive support vector machine,PTSVM)可以较好地适应各种不同的训练样本分布,实现了较一般意义上的直推式学习。本文针对PTSVM中的区域成对儿标注法学习过程不自然且易出错和标签重置法纠错能力不强的缺陷,提出了一种改进的基于Cache的渐进直推式支持向量机学习算法。该算法用值域成对儿标注法和Cache纠错法分别取代了PTSVM中的区域成对儿标注法和标签重置法,不仅大大减少了错误标记的次数,提高了算法的速度和准确度,而且消除了PTSVM算法的死循环现象。通过UCI的Wisconsin Breast cancer和CWH03a的Svmguide3两个数据集的实验,表明该算法是有效的。将本文改进的基于Cache的渐进直推式支持向量机学习算法应用于大连市公安局警务综合应用平台的全文检索系统,显著提高了信息检索的准确性,提高了工作效率。同时由于本文给出的系统的设计和实现方案具有通用性,对不同领域的检索系统的实现具有一定的指导意义。
其他文献
在线教育和数字出版是伴随互联网科技产生的新兴事物。在线教育不断对传统教育的教学体系提出挑战,成为教育领域改革创新的重要推动力量。数字出版则颠覆了传统的印刷出版业
地震快速处理能力是反映一个台网地震监测能力的一项重要指标。全球数字地震台网的快速发展和地震自动化处理技术的研究与应用,大大提升了地震快速处理能力。近年来,随着经济
企业文化是现代企业管理研究的重要课题.在当今全球化和信息化的冲击之下,阿拉伯企业将自身的传统习俗和宗教信仰与现代先进企业管理理念相结合,创造出独特的阿拉伯特色企业
为确定低渗透油藏混合井网极限注采井距,以新疆油田某低渗透油藏为例,引入压力梯度特征等值线的概念,并借助于comsol仿真软件建立物理模型,在模型中采用试算法,达到实际注采
大学的本质任务是教学,但是现在对大学和大学教师科研的要求越来越高。本文从经费来源与大学排名的角度,解释为什么大学的科研很重要。从教师个人发展的角度论述大学里面教师
路遥小说世界里的真正主角是农村知识青年。农村知识青年在当代中国的命运和他们在苦难中奋斗向上的人生体验,是路遥建造小说艺术世界的动力之源。从《人生》开始,路遥开辟了
本文详细地分析了LDD结构高温CMOS集成电路闩锁效应.文中提出了亚微米和深亚微米CMOS集成电路闩锁效应的模型.在该模型中,针对器件的尺寸和在芯片上分布情况,我们认为CMOS IC
汶川地震造成了巨大的人员伤亡和经济损失,而房屋建筑的损失又占了很大比重,因此如何快速准确的了解我国各城市地区群体建筑的抗震能力和震后损失情况是近年来研究的重点问题
随着校本管理理念的落实与推广,校长问题成为研究的焦点。校长是学校的神经中枢,处于学校管理系统的核心、领导与决策地位。因此,要提高中小学教育质量,必须提高校长的领导和
扬中县是全国食管癌高发区之一。43例早期食管癌X 线低张双对比造影检出率最高达到88.2%。糜烂型和乳头型早癌易检出、斑块型次之,平坦型X 线难显示。癌组织浸润粘膜下层X 线