【摘 要】
:
文本分类作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书管等领域的技术基础,有着广泛的应用前景。而支持向量机是基于统计学习理论的新一代机器学习技术,能较好
论文部分内容阅读
文本分类作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书管等领域的技术基础,有着广泛的应用前景。而支持向量机是基于统计学习理论的新一代机器学习技术,能较好地处理小样本情况下的学习问题,并且利用核函数思想把非线性问题转化为线性问题来解决,降低了算法的复杂度。目前,支持向量机已经成为国际上机器学习领域新的研究热点。该课题从文本的特征提取、支持向量机的增量式算法、多类文本分类三个方面系统的研究了支持向量机在文本分类中的应用。在文本分类中,特征空间的维数高达数万是非常普遍的现象,为了使分类算法有效,必须选用特征选择方法降低特征空间的维数。本文对常用的文本特征选择方法进行了分析比较,阐述了基于支持向量机的特征选择方法,实验验证该方法是可行的。在本文中深入分析了支持向量集的特性,介绍了一般的增量学习算法。通过分析,指出在增量学习中确定学习参数比较困难,本文利用v-SVM方法阐述了一种支持向量机的增量式学习策略,可以自动的调整增量训练参数,并对此方法的原始优化问题、拉格朗日函数和对偶问题进行了描述。传统的文本分类器,需要做大量的预处理工作,来收集正负样例。由于负例的收集非常困难,为了取消在预处理时手工收集负的训练样例的需要,有效的将支持向量机应用到多类文本分类中,本文对三种常用的多类分类方法进行了介绍和分析,并阐述了一个只有正例的基于SVM的多类分类方法。该分类方法的目的是从正的无标签的数据中学习,进行多类分类,得到象所有有标签数据一样的分类精度。
其他文献
目的 变应性鼻炎(Allergic rhinitis AR)是最常见的呼吸道疾病之一,据世界卫生组织下属的“变应性鼻炎及其对哮喘的影响(Allergic Rhinitis and its Impact on Asthma,ARIA)”
《弟子规》是一部传统的蒙学教材,其文以孝悌、仁爱、勤谨、信义为核心,主要指出了为人子弟在家、外出、待人、接物、处世及求学时应有的礼仪行为规范。那么,它在当代大学生
当音乐进入电视,它就成为电视节目的一个重要组成部分,它从属于服务于电视节目。结合实际,针对音乐在电视节目中的作用进行了阐述。
在研究世界风电主流市场区域风电并网规程高电压穿越技术规定的基础上,总结了各国并网规程高电压穿越技术要求和关键技术指标。分析了两种主流风电机组在电网侧电压骤升时的
于山溜冰场工程具有周围环境复杂,技术要求高,施工难度大的特点。在钻爆施工过程中,必须采用控制爆破技术,一方面要尽量减少爆破振动对周围建筑物及文物的影响,另一方面又要控制飞
孙子说:"兵无常势,水无常形。"这句用兵作战的名言,对于高考备考复习来说,非常贴切。尽管每年考题都标新立异,但只要我们抓住了规律,掌握了命题的特点和趋势,备考复习就会有
在计算机显示器能效标准和能效测试的基础上,通过分类统计的方法,分析了被测显示器的能效等级和能效指标的分布,讨论了计算机显示器的能效水平和制约因素,说明能效标识制度的
旅游摄影并非简单地在旅游中给自己留此存照,更多的是为了拍摄到独具特色的自然风光和民风民俗等。文章从旅游摄影的准备工作、旅游摄影的主要内容、旅游摄影的禁忌等三个方
低空风切变是飞机起飞和降落阶段的重要危险因素,监测低空风切变,并进行主动避让是至关重要的。多普勒测风激光雷达从工作原理上可分为相干和非相干(直接探测)两种。论文中采
为改善纳米二氧化硅的分散性,以硅烷偶联剂KH-570,分散剂BYK-163和钛酸酯偶联剂NDZ-201对纳米二氧化硅进行表面改性.通过沉降率、FTIR和SEM等表征评定方法,对产物结构和性能