教育浏览器下的网页分类算法的研究与设计

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:lygcctv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,网络中的资源越来越丰富,网络已成为人们获取各种信息、资源的主要渠道。搜索引擎在网络信息检索中发挥着重要作用,但在搜索效率与搜索结果的准确度上,仍不能充分满足人们的需求。此外,网络上还充斥着大量涉及色情、暴力、赌博或者毒品等不健康内容。如何过滤掉这些不良信息,营造绿色安全的网络环境,也给搜索引擎提出了挑战。网页分类技术可为解决如上问题提供一种实现途径。如果一个网页具有了能够代表其自身特征的标签,那么当我们需要从海量数据中搜索自己想要的信息时,网页标签就有助于提高检索效率和精度;当需要过滤掉某些不感兴趣或者具有不良内容的网页时,我们可以通过对网页标签的识别,提高过滤的准确度。基于项目组正在研发的教育浏览器,本研究对网页分类问题进行了研究,以找到一个高效的网页分类算法。主要研究工作包括:1、对网页分类问题的国内外研究和应用现状进行了调研,明确了相关技术基础和研究方法,包括文本分类问题的一般处理过程及分词技术等。2、对网页分类问题中的几个关键机制进行了研究,包括通过编写有针对性的网络爬虫以获取网页信息;对网页进行预处理,以得到网页文本内容;利用中文分词技术对网页文本进行处理,以及对处理后的文本进行特征提取。3、设计并实现了网页分类算法。除了朴素贝叶斯和支持向量机这两种经典文本分类算法,本文还将随机森林算法这一新兴机器学习算法引入到网页分类研究中,并针对网页分类问题进行了改进,提出了一种“半随机森林算法”。通过对三个分类算法进行数据实验,结果表明,本文改进后的随机森林算法具有更优的分类效果,而且它在结构上比SVM还要简单。本文研究不仅丰富了教育浏览器的功能,并为基于教育浏览器的用户行为分析、个性化内容推荐等智能服务与应用奠定了基础。
其他文献
11月26日,中国设备监理协会第二届常务理事会第一次会议召开。会议审议通过了《中国设备监理协会第二届理事会工作要点》、《关于加强设备监理行业人才队伍建设工作指导意见》
近年来呼吸道疾病已成为各大小养猪场最常见、危害最严重的疾病之一,尤其是寒冷季节(秋冬季节)。多发生于保育期及以后各生长阶段,尤其是18~20周龄(又称18周龄墙)的猪只多发.主要症状
鹅胚化小鹅瘟活疫苗,由扬州大学兽医学院首创研制.经农业部兽药审评委员会审查通过,于1996年8月9日被批准为国家新兽药,[证号:(96)新兽药证字第33号1,2006年1月由扬州大学控股的扬州
病犬常因水或电解质的平衡发生紊乱而超过了其自身的调节能力,甚至危及生命。输液疗法就是在这种情况下由静脉输入和补给机体一定的液体和电解质,充分调动机体对水盐代谢的调节
1949年新中国成立以来,我国一直奉行独立自主的和平外交政策,中国政府多次声明:中国谋求的是和平发展、和平崛起。中国的发展不会威胁到任何国家任何地区,中国的发展将给世界
一、材料与方法1.药品与试剂思诺沙星+磺胺间甲氧嘧啶注射液,规格:每10毫升含恩诺沙星0.1克、磺胺间甲氧嘧啶0.5克,批号:2005108,由江苏某公司生产;恩诺沙星注射液,含量2.5%(125毫克/5毫升),批
1.现状 近年来,我市实施国务院统一部署的“菜篮子工程”,畜牧生产获得了持续、协调的发展。1992年,市区继水产品、家禽、牛羊肉多年放开之后,猪肉、禽蛋供给取消了票证,实行
<正> 国有企业改革的方向是建立现代企业制度。我市从1994年10月开始,选择部分企业进行建立现代企业制度试点工作。按照分类指导、梯式推进、重点突破、逐步深入的原则,全市
丙烯腈是石化行业中重要的化工原料,国内绝大多数生产丙烯腈的厂家均采用BP公司开发的丙烯氨氧化法工艺技术,生产过程中吸收塔会排出一定量的有机废气,包括C3H3N、CO、C3H6和C3H8等多种污染物组分。随着环保标准越来越严格和规范,能够协同脱除多污染物组分的组合催化技术成为工业废气有效治理的一种迫切需要。本课题通过大量文献和实验研究确定用于丙烯腈尾气有效脱除的最佳催化剂(Cu/ZSM-5和Pd/A