基于向量空间模型的中文文本分类技术研究

被引量 : 0次 | 上传用户：knight282

【摘要】

：

互联网的迅猛发展导致了网络中的文本数据成指数级的增长,因此如何高效处理这些文本信息成为一个重要的研究课题。而自动分类技术作为文本信息处理中的一个重要环节引起了人

【作者】

：

柳培林

【发表日期】

：

2006年期

【关键词】

：

文本分类迭代TFIDF算法主动学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网的迅猛发展导致了网络中的文本数据成指数级的增长,因此如何高效处理这些文本信息成为一个重要的研究课题。而自动分类技术作为文本信息处理中的一个重要环节引起了人们的广泛关注。随着我国的网络普及率越来越高,网络用户越来越多,各种各样的网站中蕴涵着海量的中文信息,这些信息绝大多数是以文本的形式存在着,由于中西文之间的巨大差异,国外在文本分类方面的研究成果无法直接应用于中文文本分类,因此对中文文本分类技术的研究具有非常重要的现实意义。本文对中文文本分类的相关技术进行了研究,对文本表示模型及常用的文本分类算法进行了评价,并且对这些算法在中文文本分类中的应用进行了讨论。对单字词和多字词作为文本特征的优缺点进行了分析研究。在此基础上,本文提出了一种可快速分词的两层结构分词表模型、一种新的特征选择算法和一种新的特征加权算法。文本分类算法是有监督的学习算法,需要一个已分好类的文本数据集来训练分类器,然后用训练好的分类器对新文本分类。一般分类器的精度随着训练文本的增多而提高,但人工分类的文本是一种昂贵的资源,因此在保证分类精度的前提下如何减少训练集中已分类文本数,成为一个需要解决的问题。针对这一问题,本文采用未标识文本来扩充训练集,提出了迭代TFIDF算法,该算法利用大量未标识文本结合少量人工分类文本,通过迭代训练出较高精度的分类器,由于该算法属于爬山算法,容易收敛到局部最优值,针对这一问题,本文引入了主动学习的概念,提出了基于主动学习的迭代TFIDF算法,实验结果表明,主动学习可以有效抑制算法收敛到局部最优值,并且在同等条件下,该算法精度明显高于已有的TFIDF算法。

其他文献

对比分析《英语教学大纲》和《英语课程标准》

在新一轮基础教育改革中,《英语教学大纲》在人们的视线中悄然隐退,替而代之的是《英语课程标准》,本文旨在通过对《英语教学大纲》和《英语课程标准》的比较,努力为《英语课

学位

英语教学大纲英语课程标准对比思考

反事实思维与内疚和羞耻关系的实证研究

反事实思维是个体在心理上对过去已经发生的事情进行否定而重构一种可能性假设的思维活动，作为人类的高级意识活动，其思维过程受到个体情绪状态、动机水平和态度等非认知特征的

学位

反事实思维内疚羞耻“自我和行为”假设自我报告法情境模拟法

先秦两汉诗歌的狂欢化色彩

诗歌研究一直是中国古代文学研究领域一个历久弥新的工作。中国古代的诗歌博大精深,内容丰富而且庞杂,被各朝各代的诗歌评论家们从各个角度评论着。特别是先秦两汉的诗歌——

学位

狂欢节狂欢化狂欢式话语民俗

混凝土受损河岸生态修复的初步研究

本研究以流经东北师范大学净月校区的部分河流为研究对象,在已建设的混凝土河岸上构建适宜生物生存的生境缀块,修复被混凝土护岸隔断的水陆两类生态系统。同时检验所构建的生

学位

混凝土河岸生态修复生境缀块河岸生态系统

谈一年级学生行为习惯的养成教育

期刊

养成教育学生行为习惯一年级

深圳城市更新研究历程及发展方向探讨

以深圳城市更新为背景,以探求一条高速发展中的城市和谐发展的道路为目的,探讨深圳城市更新研究的成败和未来发展的方向:主要进行了以下几个方面的研究: 1)、深圳城市更新

学位

城市更新深圳研究历程研究趋向

应对危机出台救市政策工具的中美比较研究

为了应对金融危机中美两国采取了各具特色的货币政策、财政政策、汇率政策等救市政策,各自取得了不同的效果。美国通过一系列的政策措施,经济获得了较好的发展,而中国经济虽

期刊

金融危机救市政策改革持续增长

数说新中国财政70年

期刊

支出规模《中国财政年鉴》医疗卫生

当代展示空间设计研究

所谓展示空间就是能够容纳展览活动的建筑场所。本文从空间中“人的活动”入手,提出展览活动的本质即信息的交流,并将展示空间的发展与建筑思潮及文化运动结合起来考虑,划分

学位

展示活动展示空间信息交流软化动态构成新媒介技术世博会展示空间

浅谈构建幼儿园管理新模式——基于对西安市公办、私立幼儿园管理模式的调查研究

随着人们对学前教育不断重视,幼儿园管理的问题也不断突显出来。我们经过问卷调查以及多次对在职幼教的访谈,对西安市幼儿园管理中存在的问题进行了调查研究,并查阅相关资料

期刊

公办幼儿园私立幼儿园教师队伍残障儿童

基于向量空间模型的中文文本分类技术研究

与本文相关的学术论文