基于向量空间模型的中文文本分类技术研究

被引量 : 0次 | 上传用户:knight282
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅猛发展导致了网络中的文本数据成指数级的增长,因此如何高效处理这些文本信息成为一个重要的研究课题。而自动分类技术作为文本信息处理中的一个重要环节引起了人们的广泛关注。随着我国的网络普及率越来越高,网络用户越来越多,各种各样的网站中蕴涵着海量的中文信息,这些信息绝大多数是以文本的形式存在着,由于中西文之间的巨大差异,国外在文本分类方面的研究成果无法直接应用于中文文本分类,因此对中文文本分类技术的研究具有非常重要的现实意义。本文对中文文本分类的相关技术进行了研究,对文本表示模型及常用的文本分类算法进行了评价,并且对这些算法在中文文本分类中的应用进行了讨论。对单字词和多字词作为文本特征的优缺点进行了分析研究。在此基础上,本文提出了一种可快速分词的两层结构分词表模型、一种新的特征选择算法和一种新的特征加权算法。文本分类算法是有监督的学习算法,需要一个已分好类的文本数据集来训练分类器,然后用训练好的分类器对新文本分类。一般分类器的精度随着训练文本的增多而提高,但人工分类的文本是一种昂贵的资源,因此在保证分类精度的前提下如何减少训练集中已分类文本数,成为一个需要解决的问题。针对这一问题,本文采用未标识文本来扩充训练集,提出了迭代TFIDF算法,该算法利用大量未标识文本结合少量人工分类文本,通过迭代训练出较高精度的分类器,由于该算法属于爬山算法,容易收敛到局部最优值,针对这一问题,本文引入了主动学习的概念,提出了基于主动学习的迭代TFIDF算法,实验结果表明,主动学习可以有效抑制算法收敛到局部最优值,并且在同等条件下,该算法精度明显高于已有的TFIDF算法。
其他文献
在新一轮基础教育改革中,《英语教学大纲》在人们的视线中悄然隐退,替而代之的是《英语课程标准》,本文旨在通过对《英语教学大纲》和《英语课程标准》的比较,努力为《英语课
反事实思维是个体在心理上对过去已经发生的事情进行否定而重构一种可能性假设的思维活动,作为人类的高级意识活动,其思维过程受到个体情绪状态、动机水平和态度等非认知特征的
诗歌研究一直是中国古代文学研究领域一个历久弥新的工作。中国古代的诗歌博大精深,内容丰富而且庞杂,被各朝各代的诗歌评论家们从各个角度评论着。特别是先秦两汉的诗歌——
本研究以流经东北师范大学净月校区的部分河流为研究对象,在已建设的混凝土河岸上构建适宜生物生存的生境缀块,修复被混凝土护岸隔断的水陆两类生态系统。同时检验所构建的生
以深圳城市更新为背景,以探求一条高速发展中的城市和谐发展的道路为目的,探讨深圳城市更新研究的成败和未来发展的方向:主要进行了以下几个方面的研究: 1)、深圳城市更新
为了应对金融危机中美两国采取了各具特色的货币政策、财政政策、汇率政策等救市政策,各自取得了不同的效果。美国通过一系列的政策措施,经济获得了较好的发展,而中国经济虽
所谓展示空间就是能够容纳展览活动的建筑场所。本文从空间中“人的活动”入手,提出展览活动的本质即信息的交流,并将展示空间的发展与建筑思潮及文化运动结合起来考虑,划分
随着人们对学前教育不断重视,幼儿园管理的问题也不断突显出来。我们经过问卷调查以及多次对在职幼教的访谈,对西安市幼儿园管理中存在的问题进行了调查研究,并查阅相关资料