基于自然语言处理的文本分类分析与研究

被引量 : 0次 | 上传用户:ecoffe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今,随着信息技术不断向前发展,在机器学习这门计算机学科中,有关模式识别的理论知识已经日趋成熟,同时应用到了许多领域,其中一个重要的研究方向是基于统计的自然语言处理。由于互联网的兴起,基于自然语言表述的电子文本信息越来越多,在这么多的电子文本信息中,基于自然语言的信息处理的一个最大目标是怎样有效地获取和管理这些信息。对于提出的这些问题需要对自然语言进行研究和其相关应用,文本分类在这里显得特别重要,它是作为信息检索等问题的基础。文本分类主要分为两个阶段,分别采用了自然语言处理、机器学习、模式识别、文本挖掘技术来实现。因此,文本分类在理论研究上的价值体现在对这些技术的推动。文本分类能够有效的提高网上信息检索的效果,不仅是改进信息获取模式的重要方面,也是内容安全的基础部分。因此分类性能的好坏已经成为关注的焦点,研究文本分类任务的理论和工程应用,将具有重要意义。在现有的研究成果上,本论文对文本分类及其相关技术做了一些研究。首先介绍了文本分类技术的研究现状及该课题研究意义;接着介绍了文本分类的过程和在这个过程中所用到的相关技术,主要对中文分词方法、特征选择方法和文本分类算法做了研究;然后介绍文本分类设计的整个过程,在预处理的过程中为了对三字长交集型歧义字段消除歧义及对停用词的处理,对最大匹配分词法进行了改进,同时在基于KL散度的特征选取法基础上并且结合了特征项的TFIDF权值,这样选取出的特征项能比较准确的表达文本内容,为分类打好基础,最后对贝叶斯算法、简单向量距离分类法和KNN(K最近邻居)算法进行了比较,找出其分类效果最佳并结合时间复杂度选出一种实用性比较好的算法。
其他文献
为了探索电路板设计新方式,通过电路原理图设计、电路的仿真分析、印刷电路板设计等流程,介绍了EDA设计工具Protel DXP的应用,并对其在应用过程中需要注意的问题作了较详尽的
针对2台C6-35/8型汽轮机存在的油中带水、油质乳化等问题,从设备本体、运行方式、检修管理、操作调整和管理维护、蒸汽品质等方面查找了原因.在运行状态下采取了调整运行方式
针对某矫直机没有二级控制系统,矫直机辊缝控制通过操作工在操作台人工输入,不同操作工对同一块钢板会输入不同的辊缝,矫直效果因操作工不同而不同,因此提出了加入矫直机二级
我国自 8 0年代以来的电价改革解决了电力严重短缺与国民经济高速发展的矛盾 ,促进了电力工业建设的快速发展。但是随着各项改革的深入 ,现行电价形成机制的弊端日益凸显。本
目的定量描述营养不良带来的社会劳动生产力损失及其对经济发展消极影响。方法根据2002年“中国居民营养与健康状况调查”得到的人群贫血状况及儿童生长迟缓的调查数据,分析
<正> 自从地震勘探的资料采用数字处理以来,根据速度谱计算层速度并将层速度资料运用于资料解释已经显得日益重要。但是,计算层速度的迪克斯公式乃是一个四个变量的函数,计算
期刊
q《里斯本条约》,以其开创的旨在提高欧盟效率、透明度和民主化的一系列革新,被誉为欧盟一体化建设史上的又一座里程碑。欧盟对外行动署的成立是欧盟外交领域的一次重要改革
对企业而言,人才引进与选拔工作是企业人力资源管理的核心内容和重中之重,是人力资源管理成败的关键,但要发现、挖掘人才,就必须吸收和借鉴先进的招聘与选拔模式,努力建立适
目的探索建立颈动脉粥样硬化动物模型的有效方法。方法将29只日本大耳白兔随机分为3组,分别给予高脂饲料喂养加球囊损伤术(球囊损伤组n=12)、单纯高脂饲料喂养(高脂组n=9)和