基础教育搜索引擎中的网页文档特征提取研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:byfa21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的快速发展使得网络上基础教育资源数量快速增长,越来越多的人开始利用互联网进行学习,搜索引擎已成为获取教育资源的一条重要渠道。为了向用户提供更有效的教育信息,提高搜索的准确性,需要对海量的网页进行自动分类处理,而自动分类的前提又在于网页的特征提取。本文围绕网页文档特征提取展开,对其中包含的若干关键问题进行了系统研究。 前一部分简要介绍了本文的研究背景并对与特征提取相关的文档表示理论、自动分类技术等进行了概述;后一部分重点研究了针对网页文档的特征提取方法:首先阐述了网页文档标记预处理及中文分词的方法,接着构建了一个基础教育文档集,并在此基础上对特征提取所包含的特征选择和权重计算两部分做了重点探索,其中,特征选择部分比较研究了文档频率、信息增益、期望交叉熵、互信息、X~2统计、文本证据权等算法,在分析实验结果的基础上提出了增加词频因子P(w)的改进型互信息算法,实验证明,改进型互信息算法要明显优于原来的互信息算法;权重计算部分比较研究了TFIDF以及其他六种基于熵函数的算法,得出了在基础教育资源分类体系下,TFIDF算法要优于其他算法的结论,最后本文还设计开发了一个包含上述特征选择和权重计算算法的网页特征提取系统,并投入到了基础教育搜索引擎的实际应用中。
其他文献
尽管颜色颇为低调,骤看之下也与路上常见的普通宝马4系并无太大差别,但这的确是辆货真价实的宝马M4,并且还是敞篷版.或许有不少人会对这辆车抱有迟疑的态度,认为作为一款高性
期刊
教师专业化是现代教育发展的要求和必然趋势,而当前我国教师处于“半专业化”的状态。因此,大力推进教师专业化发展,加快教师专业化进程是我国教育改革亟待解决的事情。我国高中
我国首家干线物流联合创新中心日前在上海国际汽车城汽车创新港正式启动,该中心由赢彻科技和上海汽车城汽车创新港联合发起,首批成员为12家来自干线物流自动驾驶领域的领先企
期刊
车型:配备5速变速器、V12?275发动机.rnVIN:WDDNG76X37A××××××.rn故障现象:客户投诉车辆停放一段时间后,无法启动rn故障诊断:客户投诉车辆停放了2h后,车辆不能启动.接
期刊
现状:山多坡急 多临水临崖路段rn宜昌市是典型的山区道路形态,辖区内山高路险、弯陡坡急、临水临崖道路较多,历来是湖北省重特大交通事故的高发区域.主要表现在:农村地区人、
期刊
2018款英朗全系采用三缸涡轮增压发动机,也许有人觉得它会抖动,但平衡轴、钟摆式双质量飞轮和锻造曲轴、连杆等技术工艺的加入将发动机怠速时的抖动抑制得非常到位.不过,在夏
期刊
国家安全是国防教育的重要内容。在构建社会主义和谐社会的进程中,国家安全所面临的问题日益复杂,既有来自传统的政治和军事方面的威胁,也有来自伴随着经济、科技、文化、社会等
2014年1月各项生产经营指标均通过省农业厅专家组的审核,并由江苏省农业委员会核发食用菌一级菌种生产经营许可证,许可证号;(苏)菌种生经许字(2014)第001号。新品种7887(杂交
车型:配置274发动机、9速自动变速器.rn行驶里程:12058km.rn故障现象:客户反映两前座椅不能正常调节.rn故障诊断:接车后同客户一起验证故障现象,发现两前座椅调节正常,经询问
期刊
为了社会的发展培养高层次人才是高等教育的责任和使命。当今社会一直不断在发展,知识更替速度更加迅速,对教育的要求也相对更高,特别是高等教育的发展,更要与社会接轨跟上时代的