中文Web文本分类技术研究

被引量 : 0次 | 上传用户:satan0wei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web文本分类是指将Web文档集合中每个文档归入一个预先定义的类别之中,是Web文本挖掘的一项重要技术,同时也是智能信息检索和处理领域的一个新兴和重要的研究方向。由于国内相关技术起步较晚,加上中文语言的特殊性,中文Web文本分类技术相对落后。本文分析了Web文本分类的重要意义,介绍了国内外文本分类研究现状特别是中文Web文本分类研究现状,详细介绍了中文Web文本分类的过程与关键技术:首先是Web文本预处理,然后是文本表示、索引生成、特征选取等步骤,包括多种特征选取方法;接着,详细介绍了几种文本分类算法,包括KNN和SVM、朴素贝叶斯等;然后,介绍了常用的文本分类算法的评价指标。本文重点对中文Web文本分类技术进行了发展和改进。本文将SVM和KNN的结合算法SVM-KNN算法应用于Web文本分类,以弥补传统SVM算法的一些缺点,获得更好的分类效果;提出了一种基于密度的调整KNN训练集的方法,通过对训练集的调整,降低了KNN算法的分类计算复杂度,同时提高了分类准确性;提出了一种用无监督聚类算法指导文本分类的方法,以解决没有训练集的文本分类问题。对于所提出的每种算法,本文都给出了相关的实验数据,通过实验,验证了改进效果,证实了算法的有效性。最后,本文设计并实现了一个中文Web文本分类系统,详细介绍了系统的各个模块的设计以及系统训练集和测试集的选取。本文的实验均是在这个系统上完成的。
其他文献
我国的海相白垩系在西藏南部沿特提斯-喜马拉雅带广泛分布。该地区由于大化石相对稀少,微体化石的研究就显得尤为重要。特提斯-喜马拉雅南亚带白垩系已经建立了较为系统的生
"十八反"是中药配伍禁忌的核心内容,笔者收集整理近50年来十八反"诸参辛芍叛藜芦"的现代文献105篇,从理论探究、临床应用、实验研究3个方面综述其目前研究成果和现状,为临床
在移动信道环境中可靠、高速的传输数据是移动通信技术发展的目标和要求,并且第四代移动通信系统要求能够以最低的代价(带宽、功率、复杂性)来为各种用户提供高质量的宽带业
目的:探讨补中益气汤7、14、21d对荷瘤小鼠肿瘤中肺耐药蛋白(LRP)表达的影响。方法:体外培养A549/DDP细胞,接种健康BALB/c裸鼠,建立荷瘤裸鼠模型,随机分为:A549/DDP荷瘤对照
小曲线半径隧道的盾构法施工在地铁工程建设中应用越来越多,但国内外对盾构法施工最小曲线半径取值的研究相对滞后。因此有必要对盾构法施工最小曲线半径取值进行研究,以便地
脉络膜新生血管是湿性黄斑变性(neovascularage-related macular degeneration,n AMD)的主要发病机制,而血管内皮生长因子(vascular endothelial growth factor,VEGF)促进新
内蒙古草原位居我国五大牧区之首,是我国重要的畜牧业生产基地和生态安全屏障。受气候变化和人为因素的影响,草原生态系统破坏严重。为恢复和改善草原生态环境,国家对内蒙古
集装箱运输是交通运输现代化的产物,同时也是现代物流的重要载体。国际集装箱多式联运正日益成为国际物流活动的主导运输组织形式,其功能和效益将在更深程度上得到发挥和体现
上个世纪,经过70年代的大幅下降和80年代的缓慢下降之后,到90年代中国大多省份育龄妇女的总和生育率接近或低于更替水平,在20世纪末成功地完成了生育率的转变,进入了低生育水
斜拉桥由于跨越能力好、通航影响小、整体刚度大、抗震性能好以及造价低等优势成为了大跨度桥梁结构中最主要的桥型之一,我国现代化桥梁也越来越多的选用了斜拉桥桥型。随着