中文Web文本分类关键技术研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:tigermin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息处理技术和计算机网络的普及,Internet上的Web页面数量呈指数增长,为了快速、方便地处理这些信息,Web文本自动分类技术应运而生,并且已经成为信息检索和文本数据挖掘领域的一个研究热点。本文在对国内外文本自动分类系统分析研究的基础上,从文本分类知识的自动获取到分类器设计,详细地讨论了中文Web文本分类系统中影响分类结果的几个关键技术,并且深入研究了如何提高中文Web文本分类的精度、速度和稳定性,最终实现了一个中文Web文本分类系统。首先本系统利用MapReduce原理对大量Web文本进行并行化预处理,然后利用改进的向量空间模型表示特征,同时通过对文本特征的提取方法研究,提出了一种新的联合特征提取方法,在分类器设计方面,利用改进的独立分量分析算法提升了朴素贝叶斯分类器的性能,另外为了提高系统的整体分类性能,本文实现了将SVM分类器和改进的Bayes分类器集成到一个系统中,构造多分类器引擎,获得了比单个分类器更好的分类性能。通过在该系统上的大量评估性实验及对实验数据的统计分析,证明本文采用的中文Web文本分类方法基本达到了上述目标。针对以上研究成果,本文描述了原型系统的设计实现细节。
其他文献
认知诊断性测验(Cognitive Diagnostic Test, CDT)不同于传统的纸笔测验(Paper and Pencil Test, PPT)和计算机自适应测验(Computerized Adaptive Test,CAT),它是一种全新的
容迟网络作为一种新兴的挑战性网络,具有节点移动性强、网络拓扑频繁割裂、极高的端到端传输时延等特征。在消息的源节点与目的节点之间很难实时维持一条稳定的端到端通路,因
Internet的快速发展使计算机病毒的数量急剧增加,但病毒分析人员对计算机病毒的鉴定和排查依然是靠手工确定的,面对大量要处理的可疑文件并要做出快速反应,进行预处理显得非
广西北部湾地区是客家民系的重要居住地之一.北部湾地区的客家围屋正是体现了本区域客家为了适应环境,在保留自身传统的基础上,既保留了自己的风俗与特性,也吸取了南方少数民
移动视觉搜索作为新兴的研究领域有诸多困难与挑战,如:移动端的计算能力与存储能力有限,在大规模图像搜索中面临着检索实时性和数据存储的难题;在海量图像数据库中搜索,面临搜索