基于机器学习的文本分类算法研究与应用

被引量 : 18次 | 上传用户:buctdai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年信息网络技术飞快发展,特别是网络使用率的大幅提升,用文本形式表示的信息已经越来越多,人们早已经不能单纯依靠人工劳力达到高效率地获取到海量信息中的关键内容。为了解决这个问题,基于机器学习的文本分类方法开始为人们所知道并逐渐呈现热门趋势。本文主要的研究内容如下:1.本文提出了一种能有效降低空间维度的概念索引及主成分分析算法。该算法通过计算分类的原型向量,通过原始文本向量和原型向量做内积,将原始文本投影到子空间,从而将原始空间的维度大大降低。然后,分别计算每个内部文档分类的协方差矩阵,进而得到其特征值与特征向量,将每一个向量被转移到新的子空间。通过两种技术的结合来实现在不影响分类精确度的情况下达到维数降低的目标。2.本文提出了一种基于语境的文本学习算法。该算法的核心分为分类训练集与语境学习分类。分类训练集主要根据关键词词频分类,并给每个类一个相应的指数,计算每个分类中所有的文档里的特征词权重,通过反复迭代从而给出特征词的评分。语境学习分类先通过关联规则挖掘算法得到特征词,再将特征词构成语境特征词矩阵,所有矩阵的值都是用于评分的参考值,并且都是通过训练所有语境的数据而获得的,评分的参考值强调了该特征词对于语境的重要性,对每一个特征词而言,求出所有语境评分参考值的和,那么具有最高评分参考值的语境就被设置为输入文本的语境。该算法结合传统统计分析和语境分析,能够一次性地学习一个文档内的所有分类。3.本文对提出的算法进行了详细的实验并给出了相应的分析与结果。本文采用了5个经典的数据集作为实验对象,每个数据集都超过上千条数据。在不同的数据集上,本文提出的算法与经典高效的算法进行了详细比较,评价算法性能。实验表明:两种算法都能够高效地分类文本,且具备较强的实用性。本文提出的两种学习算法从不同角度处理训练集,前者通过降维,而后者通过评分排序,但都可以降低学习成本,提高分类准确度。通过仿真实验可以清晰地看出,该算法在各类数据集,尤其是复杂度很高的数据集上,优于现有的很多高效算法。最后对本文所提出的两种算法的研究与实现进行总结,并提出其中的不足和需要改进的地方。
其他文献
目的探讨我省高等护理人才需求状况。方法对全省各级各类医院护理人员进行抽样问卷调查,了解现阶段临床护理人员学历结构、职称结构、年龄结构及临床对护理人才需求情况。结
随着网络信息化的迅猛发展,世界经济发展处于全球的信息发展大背景执行,因此,企业要提升自身竞争力,实现自身可持续发展,企业的信息化管理无疑是重中之重。本文对鲁特公司人
《理想国》对教育的论述除学校教育外,字里行间渗透着公民教育思想。它以正义、善为终极目标,培养精英、教化公民,注意导引、尊重个性,注意节制、勇敢等美德的培养,它与共产
120例肺脾两虚型鼻鼽患者随机分为鼻通穴组(30例)、下迎香穴组(30例)、通天穴组(30例)3个穴位刺血治疗组及中药补中益气丸治疗对照组(30例).观察不同配穴治疗前后症状及体征
肝靶向药物的研究开发,为肝脏疾病诊断治疗开辟了广阔的前景。鉴于我国传统中药的特点,中药肝靶向药物的研究有望为肝脏疾病的治疗提供一个安全、可靠、有效的治疗方案,加强
目的:探讨护理风险管理应用于宫颈癌患者术后化疗的效果。方法:选取180例宫颈癌术后化疗患者并采用信封法随机分为观察组和对照组各90例,对照组90例采用常规护理,观察组90例
<正> 一、适用范围阴阳学说与矛盾法则同具有对立统一的内核,但二者的适用范围有很大的差异。阴阳是我国古代的一对哲学范畴,是对自然界多种事物对立统一现象的概括和特定的
中国政治文明中具有&#39;官民相得&#39;的优良传统,其赖以存在的思想基础是&#39;道&#39;与&#39;德&#39;,其表现形式是&#39;公&#39;与&#39;私&#39;的配合和交融,其实现途径可
<正> 祖国医学的阴阳学说,是关于认识疾病根本规律的学说。是中医学理论体系的重要组成部分。它认为,人是物质性的整体,人的存在、发展和变化都是阴阳运动的结果。中医学用此
期刊
检具作为车身尺寸工程管理流程中的核心工具越来越受到重视,像螺钉车、综合检具等国外常用的车身品质保证工具在国内已经兴起,但总成检具的开发和应用利用率还是很低,为了节