论文部分内容阅读
基础教育搜索引擎是面向基础教育领域的专业搜索引擎,文本自动分类技术是实现专业搜索引擎的关键技术之一。本文以自然科学的方法,从理论、算法和应用三个层面探讨文本自动分类,着重于对实验数据的分析和研究。
本文研究的主要内容包括:基础教育搜索引擎分类体系的构建,基础教育资源的分类主题特征库的构建,基础教育文本自动分类研究。
基础教育搜索引擎的分类体系对系统各模块的设计有指导作用。本文以网络基础教育资源的现状和潜在用户的资源需求的调研结果作为事实依据,同时借鉴网络信息分类方法,构建合理的基础教育资源分类体系。
基础教育资源的主题特征库的建立是文本自动分类的前提,本文通过对训练文档进行特征选择和权重计算建立特征词库。首先,对6种特征选择算法进行实验,并提出了改进型互信息算法,实验结果表明,改进型互信息算法要好于其他算法。然后,对TF<*>IDF和基于熵函数的权重算法进行了实验比较,结果TF<*>IDF效果要好于其他算法。因而,系统最后采用改进型互信息算法和TF<*>IDF算法建立特征词库,每类选择3000维特征词。
基础教育资源之间具有隶属关系和并列关系,本文根据属性关系将其组织成层次结构,首先探讨了层次分类方法与平面分类方法,提出改进型层次分类方法,即阈值降低法和限制投票法,实验结果表明,层次分类方法优于平面分类方法,并且阈值降低法比较适合本系统。然后,探讨了网页中主要结构特征(即标题、锚文本、meta)对网页分类的影响,并提出了对主要结构特征采用相对数值加权的方法,实验结果表明标题和锚文本等对网页分类有正面影响,相对数值加权方法要好于传统的绝对数值方法。
最后,本文研究了对锚本文进行基于规则的分类方法,实验结果表明,基于规则的分类能够提高网页分类的精确率,但召回率太低。而规则分类与统计分类相结合的实验结果使系统的分类效果和效率都得以提高。所以,本系统采用规则