基于Web的基础教育资源自动分类技术研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:ppc8xzf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基础教育搜索引擎是面向基础教育领域的专业搜索引擎,文本自动分类技术是实现专业搜索引擎的关键技术之一。本文以自然科学的方法,从理论、算法和应用三个层面探讨文本自动分类,着重于对实验数据的分析和研究。 本文研究的主要内容包括:基础教育搜索引擎分类体系的构建,基础教育资源的分类主题特征库的构建,基础教育文本自动分类研究。 基础教育搜索引擎的分类体系对系统各模块的设计有指导作用。本文以网络基础教育资源的现状和潜在用户的资源需求的调研结果作为事实依据,同时借鉴网络信息分类方法,构建合理的基础教育资源分类体系。 基础教育资源的主题特征库的建立是文本自动分类的前提,本文通过对训练文档进行特征选择和权重计算建立特征词库。首先,对6种特征选择算法进行实验,并提出了改进型互信息算法,实验结果表明,改进型互信息算法要好于其他算法。然后,对TF<*>IDF和基于熵函数的权重算法进行了实验比较,结果TF<*>IDF效果要好于其他算法。因而,系统最后采用改进型互信息算法和TF<*>IDF算法建立特征词库,每类选择3000维特征词。 基础教育资源之间具有隶属关系和并列关系,本文根据属性关系将其组织成层次结构,首先探讨了层次分类方法与平面分类方法,提出改进型层次分类方法,即阈值降低法和限制投票法,实验结果表明,层次分类方法优于平面分类方法,并且阈值降低法比较适合本系统。然后,探讨了网页中主要结构特征(即标题、锚文本、meta)对网页分类的影响,并提出了对主要结构特征采用相对数值加权的方法,实验结果表明标题和锚文本等对网页分类有正面影响,相对数值加权方法要好于传统的绝对数值方法。 最后,本文研究了对锚本文进行基于规则的分类方法,实验结果表明,基于规则的分类能够提高网页分类的精确率,但召回率太低。而规则分类与统计分类相结合的实验结果使系统的分类效果和效率都得以提高。所以,本系统采用规则
其他文献
《砖瓦》杂志1971年创刊,是国内外公开发行的、面向我国墙体屋面材料行业的核心优秀科技期刊,中国学术期刊综合评价数据库(CAJCED)统计源期刊、中国期刊全文数据库(CJFD)全文
新课标要求小学英语要走向生活化,具有情境性.小学英语学习是学生学习英语课程的基础,创设情境的方式能够让教学走向生活化,使学生了解更多的语言知识和生活知识,在生活中提
学位
听力理解通常被认为是一种被动接受的过程,然而恰恰相反,听力理解是一个主动的过程。在这一个主动的过程中听者必须辨别声音、懂得词汇和语法、理解语调及其它韵律线索、记忆丰
朋友、友谊在人一生的成长与发展中都发挥着重要的作用。人格类型是一个人身上相对稳定的心理特征的综合,人格类型上的相似之处是个体结交朋友时的一个重要影响因素。友谊认知
组织承诺和工作倦怠是组织行为与人力资源管理领域研究的热点。本研究以问卷调查为主要研究方法,对高校图书馆员工的组织承诺和工作倦怠进行了探讨。研究结果显示:(1)理想承诺和
高等教育理论与实践的改革与社会的进步、发展密切相关。高等教育思想的改革必然带来课程体系和课程内容的变革。教材作为课程内容的载体,是随着课程的改革而发展变化的。课程
后备人才的培养是竞技体育发展的战略问题,只有重视后备人才的梯队建设,竞技体育的发展才有后劲。湖南是我国羽毛球运动强省,担负着保持中国女队的优势地位、增强男队的竞争势力
为解决二次资源的浪费和环境污染问题,该课题组应用了大量高需水量比的粉煤灰及其它工业废渣,采用双搅拌二次复合成型工艺,在常温下,制成了物理力学性能优良的高强度铝酸盐粉
目的研究锰对神经细胞内钙稳态的影响,重点观察神经元细胞钙离子浓度、Na+-K+-ATPase和Ca2+-ATPase活性的改变。方法选用原代培养神经元为模型,待细胞生长至最佳状态时,予以