中文文本自动分类方法的研究和实现

被引量 : 0次 | 上传用户:taomeizi2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是指在给定的分类体系下, 根据文本的内容自动判别文本类别的过程。它是文本挖掘的基础与核心。对国内外该课题的研究分析可知,如何提高大规模语料库环境下文本分类器的分类性能是研究的关键。特别对中文文本分类,目前还没有一个统一的标准。通过分析研究现有中文文本自动分类系统的实现技术,本文对该课题进行了进一步的探讨,设计并实现了一个基于分词的中文文本自动分类系统。在系统的构建过程中,重点针对中文分词技术,特征选取算法和训练分类算法三部分进行了详细的分析和深入的研究,并在现有方法的基础上分别予以改进,给出了改进算法。最后通过实验分析了系统的分类性能。实验结果表明改进后分类系统的性能较改进前更加令人满意,证明了算法的有效性。
其他文献
随着我国改革开放和社会主义市场经济体制建设实践的推进,社区治理的主体开始向多元化方向发展。社区治理是公共管理的重要研究内容,如何实施社区治理模式的革故鼎新,探讨建
针对掘进机后支撑部的结构设计进行讨论,分别从支撑器的安装形式、第1输送机的连接形式以及二运回转台的连接形式3个方面探讨后支撑结构,逐个论述各种连接方式的具体结构及其
综采、综掘技术的不断发展,是我国的煤炭生产水平得以长足发展的主要动力。随着矿井产量的大幅提升,综掘速度慢已经成为制约矿井生产的主要因素。如何在影响煤矿生产这一瓶颈
政府掌握并垄断大量社会有用信息和信息对现代社会的重要作用产生了一定矛盾;同时,政府拥有控制行政的能力并保持封闭的行政体系和行政过程与公平、开放的市场经济环境之间不
本文综述了国内外有关硬质合金冲击疲劳行为的研究进展,旨在认识和揭示硬质合金在反复冲击载荷作用下的失效和断裂机理。重点总结了实验室中常用的硬质合金冲击疲劳性能评价
法治建设是我国现在学术界探讨的一个热点,多有著述文章发表。但是对于古罗马共和国的法治建设的研究,虽有不少学术著作涉及,可专门系统阐述古罗马共和国的法治建设的文章尚
用户参数存储是电力电子装置一个重要技术环节,TI TMS320F2812是被用做变流器数字控制的主流芯片之一。本文介绍了一种基于TMS320F2812芯片的串行外设接口(SPI)模块与串行EEP
贪污罪在我国刑法分则中占有重要地位,贿赂型犯罪、渎职罪以及职务侵占罪都涉及到对贪污罪相关理论的研究。随着改革开放的深入及市场经济的确立及发展,传统意义的贪污罪也面
一、天癸学说探讨 1、天癸溯源 天癸一词最早见于《内经·上古天真论》“七七,天癸至……”。后世医家对天癸的含义有多种不同的理解,概括起来大致有如下几种认识:
为防御旱灾、减缓损失,开展大旱发生年的预测工作非常重要。采用统计方法和优化的GM(1,1)模型对浙江省未来干旱发生趋势进行预测,结果表明,浙江省在未来50年中,大旱年至少发