基于自然语言处理及机器学习的文本分类研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:qiaoqiao06242005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息技术的不断发展,电子文本信息日益增多。为方便用户可以快速、精准地从文本中找到用户所需求的信息,并且可以使用什么方法有效地组织和管理这些文本信息将成为信息技术面临的一大挑战。文本自动分类作为处理海量文本信息的关键技术,可以在很大程度上解决信息复杂混乱的问题。把相关信息资源归类,这样既方便用户准确地搜索到所需的信息,又能实现数据的有效管理。本文从提高文本自动分类准确率的角度出发,主要对文本自动分类及相关技术进行研究分析,从自然语言处理到分类的整个过程中,每一环节都紧密相连,其中最重要的是在自然语言处理过程中,要保证分词的准确性,才能保证后续分类的正确率。自然语言处理过程中,基于匹配词库考虑,本文以《铁路工程地质勘察规范》(TB1002-2007)为训练标准,首先对文本文档进行自然语言处理,由于分词的局限性及词的歧义识别问题,在构建语料库的过程中,计算机与人工结合进行分词,最终的分词结果选择词频大于某个预定阈值的词条作为最终的地质勘探语料库。为避免同一地勘专业词条被分开,在研究地勘文本自动分类的过程中,分词时把该语料加入Python库内进行字符串匹配。基于上述自然语言处理过程的描述,针对文本文档的分词结果进行特征降维技术处理,即词频大于某个阈值的词条作为特征词,然后对该类文本文档进行词云分析。词云图中词条形状的大小表示词条频率的高低,词频越高的词条所呈现的字体越大。最后利用机器学习方式对分词后的文本文档进行自动分类,本文中主要采用K近邻分类和贝叶斯分类两种机器学习的分类方式,在两种分类方式呈现的结果中,K近邻分类测试集的预测正确率明显高于贝叶斯分类测试集的预测正确率;在K近邻分类算法中,从最终结果分析,分十类的预测正确率比分十六类的预测正确率更高;控制文本长度时,K近邻分类算法处于最理想状态,正确率达到100%。
其他文献
中国现当代文学的多数作品功利性较强,比如反映时代风云,在作品中提出政治主张,表现某一时期的风云变幻,要求文学担负起重要历史使命几乎成为现代文学的主流;文革之后的文学
近年来,正义问题与正义理论成为国内学界关注的热点论域。在此背景下,由西安财经大学张全胜副教授撰写、中国社会科学出版社出版发行的《马克思社会正义思想研究《一书,该书
提出了一种包含在线采样、离线学习两个阶段的基于数据驱动的迭代自适应动态规划(ADP)算法,仅通过在线数据,解决输入约束的连续未知模型的非线性系统的H∞控制问题。通过策略
《四库全书总目》的底本来源众说异词,莫衷一是,有鉴于此,在对《总目》的底本来源进行全方位统计的基础上提出自己的看法;同时就《总目》在著录方面缺乏“一以贯之”的标准,
Backlund变换、守恒律对于非线性偏微分方程的研究有重要作用.本文对修正的Camassa-Holm和Degasperis-Procesi方程的Backlund变换和守恒律作了详细的介绍,并说明了研究其Back
人口流动与艾滋病病毒传播因素相结合,导致艾滋病病毒加速传播。流动人口的素质偏低,医疗卫生条件不良,以及不良行为习惯,加之对流动人口管理的法律法规滞后,实际管理和监测
<正>一、当今人类社会的主要问题和解决方案1.当今人类社会发展面临的主要问题当今人类社会发展面临的主要问题有资源危机、土地沙漠化、环境污染、生态破坏和物种灭绝。大家
猪伪狂犬病是一种高死亡率的急性传染病,给畜牧业发展带来了很大的损失。综述了各种伪狂犬疫苗的类型、特点、发展动态以及应用前景。
1998年城镇住房制度改革以来,我国的房地产市场不断发展壮大。房地产业已经成为国民经济的支柱行业。住房需求是每个人的基本需求,会受到人口因素的制约。通过从理论层面上探
背景 慢性阻塞性肺疾病(COPD)是一种具有气流受限特征的疾病,气流受限不完全可逆、呈进行性发展,与肺部对有害气体或有害颗粒的异常炎症反应有关。COPD是一种主要的慢性致残