基于覆盖的中文网页分类研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:bell0521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,尤其是World Wide Web的全球普及,Web网络上信息资源己经涵盖了社会生活的各个方面,网络信息过载(Information Overload)问题日益突出,这又促使Web挖掘技术和Web网络信息检索技术迅速发展。其中,通过什么样的方法和途径来使网站的网页信息资源得到合理有效地组织,提高网络信息检索的速度和准确度,是个颇让人们感兴趣的问题。网页分类恰恰提供了这样一种合理而有效组织信息的方法。网页分类提供了处理和组织大规模文本信息的关键技术,它是使网络信息资源得以合理有效组织的重要方法。它为使用在网络上存在的海量信息提供了可能性并大大提高了网络资源的利用率。  由于我国的互联网起步较晚,因而与之相对应的网页分类也发展较晚。近年来,中科院软件研究所、北京邮电大学模式识别与智能实验室、微软亚洲研究院等多家研究机构都在进行着与中文网页分类相关的理论研究。我校的张铃老师提出的覆盖算法也为这一研究提供了理论及算法上的支持。  前向神经网络的覆盖算法是由张铃老师提出的一种机器学习方法。本文将覆盖算法应用到中文网页的分类中,结合各种经典的分词和降低特征维数的方法进行分类,并与SVM方法,贝叶斯算法的分类结果进行比较分析。  本文所做的主要工作和创新点如下:  1)对HTML文本进行了简要的介绍,说明如何通过预处理从HTML文本中取出对后期分类有价值的中文文本。  2)本文对以往中文网页分类的预处理过程加以改进,对在分类中作用显著的等标签下的文本给以较大权重值。  3)对文本内容进行处理时,为了减少特征向量的维数,本文使用文本分类中常见的几种特征降维方法(文本频度、χ2统计量方法、互信息方法、信息增益方法、期望交叉熵方法、文本证据权方法)分别对中文网页样本进行了测试。实验结果表明,χ2统计量方法和期望交叉熵方法对文本分类最为有效,文本频度方法和文本证据权方法稍差,而互信息方法和信息增益的方法效果最差;  4)获得有效的网页文本特征向量后,需要使用合适的分类器进行分类。本文首次将张铃、张钹教授提出的前向人工神经网络基础上的覆盖算法应用到中文网页的分类中。本文对使用覆盖算法和SVM方法作为分类器进行了对比,实验表明覆盖算法是一种优秀的分类器,可以有效的进行中文网页的分类。  本文在中文网页分类方面完成了一定的工作,但还存在一些不足,今后可以在以下方面继续研究:  1)本文的研究对象是针对中文网页,今后可以对非中文网页进行研究,将非中文网页也纳入研究范围中;  2)多模式识别方法下的中文网页分类可以进一步深入研究。   </div> </section> <!-- 其他文献块 --> <section class="article-other"> <div class="article-other-header" style="color:#2162e4"><span>其他文献</span></div> <div class="article-other-content"> <div class="tit"><a href="/degree/d994c53173cb64fa170e99feb89eca7c.html" target="_blank" title="小波变换在数字图像水印技术中的应用研究"> 小波变换在数字图像水印技术中的应用研究 </a></div> <div class="con"> 本文首先介绍了数字水印技术的研究背景及现状,并且对当前研究较多的小波域图像水印算法进行了阐述,介绍了小波变换的基本概念和常见的小波域图像水印算法。在此基础上,本文提出 </div> <div class="typ"> <div class="typ-nam"> <span>学位</span> </div> <div class="typ-con"> <span><a href="/tags/%E5%B0%8F%E6%B3%A2%E5%8F%98%E6%8D%A2" target="_blank">小波变换</a></span><span><a href="/tags/%E6%95%B0%E5%AD%97%E5%9B%BE%E5%83%8F" target="_blank">数字图像</a></span><span><a href="/tags/%E6%B0%B4%E5%8D%B0%E6%8A%80%E6%9C%AF" target="_blank">水印技术</a></span><span><a href="/tags/%E5%A4%9A%E5%AA%92%E4%BD%93%E6%8A%80%E6%9C%AF" target="_blank">多媒体技术</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/degree/32fe42df64209cff439f91d702306d4f.html" target="_blank" title="英文多文档查询型自动文摘研究"> 英文多文档查询型自动文摘研究 </a></div> <div class="con"> 随着信息技术和互联网的发展,人们置身于浩瀚的信息海洋,可获取的信息也越来越多,越来越纷繁复杂。人们越来越迫切地希望能够对信息进行标引、提炼与浓缩,以较少的文字表达主 </div> <div class="typ"> <div class="typ-nam"> <span>学位</span> </div> <div class="typ-con"> <span><a href="/tags/%E8%87%AA%E5%8A%A8%E6%96%87%E6%91%98" target="_blank">自动文摘</a></span><span><a href="/tags/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0" target="_blank">机器学习</a></span><span><a href="/tags/%E6%9C%80%E5%A4%A7%E7%86%B5%E6%A8%A1%E5%9E%8B" target="_blank">最大熵模型</a></span><span><a href="/tags/%E8%AF%AD%E4%B9%89%E5%85%B3%E7%B3%BB%E7%89%B9%E5%BE%81" target="_blank">语义关系特征</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/degree/f4f5a9d52c78674b3f287e2b16890958.html" target="_blank" title="基于移动终端的网络设备管理系统的设计与实现"> 基于移动终端的网络设备管理系统的设计与实现 </a></div> <div class="con"> 目前,移动互联领域发生着深刻的变革,传统的的技术和设备已经被新的技术和设备所取代。特别是云计算和大数据的出现给整个人类的生活带了巨大的变革。基于此社会的各行各业也都 </div> <div class="typ"> <div class="typ-nam"> <span>学位</span> </div> <div class="typ-con"> <span><a href="/tags/%E7%A7%BB%E5%8A%A8%E7%BB%88%E7%AB%AF" target="_blank">移动终端</a></span><span><a href="/tags/%E7%BD%91%E7%BB%9C%E7%AE%A1%E7%90%86" target="_blank">网络管理</a></span><span><a href="/tags/%E4%BF%A1%E6%81%AF%E7%AE%A1%E7%90%86" target="_blank">信息管理</a></span><span><a href="/tags/MVC%E6%A8%A1%E5%BC%8F" target="_blank">MVC模式</a></span><span><a href="/tags/%E7%B3%BB%E7%BB%9F%E8%AE%BE%E8%AE%A1" target="_blank">系统设计</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/degree/c524c4da7232512671525a8c9cbfb772.html" target="_blank" title="基于并发覆盖准则的线程调度序列生成方法研究"> 基于并发覆盖准则的线程调度序列生成方法研究 </a></div> <div class="con"> 多核处理器的出现使得多线程技术发展迅速,多线程并发程序的软件质量保障受到业界的普遍关注。多线程并发程序由于线程调度序列(Thread Scheduling Sequence, TSS)的不同,使 </div> <div class="typ"> <div class="typ-nam"> <span>学位</span> </div> <div class="typ-con"> <span><a href="/tags/%E5%A4%9A%E7%BA%BF%E7%A8%8B%E5%B9%B6%E5%8F%91%E7%A8%8B%E5%BA%8F" target="_blank">多线程并发程序</a></span><span><a href="/tags/%E5%90%8C%E6%AD%A5%E5%AF%B9" target="_blank">同步对</a></span><span><a href="/tags/%E5%85%A8%E5%90%8C%E6%AD%A5%E5%AF%B9%E8%A6%86%E7%9B%96%E5%87%86%E5%88%99" target="_blank">全同步对覆盖准则</a></span><span><a href="/tags/%E7%BA%BF%E7%A8%8B%E8%B0%83%E5%BA%A6%E5%BA%8F%E5%88%97" target="_blank">线程调度序列</a></span><span><a href="/tags/%E6%B5%8B%E8%AF%95%E7%94%9F%E6%88%90%E6%95%88%E7%8E%87" target="_blank">测试生成效率</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/degree/c8fa019da5bd7ea0d2c88fe3b5fbfffb.html" target="_blank" title="基于高可靠R80515的控制流检测算法研究"> 基于高可靠R80515的控制流检测算法研究 </a></div> <div class="con"> 当前,微处理器正越来越多地被应用于各种恶劣环境中,但是高能粒子产生的单粒子效应会对微处理器的正常工作产生影响,尤其对应用在太空环境中的微处理器而言,影响更严重,成为 </div> <div class="typ"> <div class="typ-nam"> <span>学位</span> </div> <div class="typ-con"> <span><a href="/tags/%E6%8E%A7%E5%88%B6%E6%B5%81%E6%A3%80%E6%B5%8B" target="_blank">控制流检测</a></span><span><a href="/tags/%E5%AE%89%E5%85%A8%E7%BC%96%E8%AF%91" target="_blank">安全编译</a></span><span><a href="/tags/CFCSS" target="_blank">CFCSS</a></span><span><a href="/tags/%E5%8D%95%E7%B2%92%E5%AD%90%E7%BF%BB%E8%BD%AC" target="_blank">单粒子翻转</a></span><span><a href="/tags/%E9%94%99%E8%AF%AF%E6%81%A2%E5%A4%8D" target="_blank">错误恢复</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/degree/8b9cc5fea8c42a4dd5e518cb59403fc3.html" target="_blank" title="基于数据挖掘的煤价预测及其质价分析"> 基于数据挖掘的煤价预测及其质价分析 </a></div> <div class="con"> 随着网络、数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。数据挖掘(Data Mining)是从大量的实际应用数据中提取隐含信息和知识,它利用了数据 </div> <div class="typ"> <div class="typ-nam"> <span>学位</span> </div> <div class="typ-con"> <span><a href="/tags/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98" target="_blank">数据挖掘</a></span><span><a href="/tags/%E6%95%B0%E6%8D%AE%E5%BA%93%E7%AE%A1%E7%90%86" target="_blank">数据库管理</a></span><span><a href="/tags/%E7%85%A4%E7%82%AD%E4%BB%B7%E6%A0%BC%E9%A2%84%E6%B5%8B" target="_blank">煤炭价格预测</a></span><span><a href="/tags/%E5%86%B3%E7%AD%96%E6%A0%91" target="_blank">决策树</a></span><span><a href="/tags/%E4%BA%BA%E5%B7%A5%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C" target="_blank">人工神经网络</a></span><span><a href="/tags/%E6%A0%B8%E8%A6%86%E7%9B%96%E7%AE%97%E6%B3%95" target="_blank">核覆盖算法</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/degree/7eb4f06b5c6d0a498737b80c6560a64d.html" target="_blank" title="基于彩色图像的人脸检测与识别技术研究"> 基于彩色图像的人脸检测与识别技术研究 </a></div> <div class="con"> 由于人脸检测识别技术在安全部门、电视会议、身份鉴别、数字监控等领域的应用越来越广泛,它作为一项极具发展潜力的生物特征识别技术,已成为近年来科学研究的热点,也已引起 </div> <div class="typ"> <div class="typ-nam"> <span>学位</span> </div> <div class="typ-con"> <span><a href="/tags/%E4%BA%BA%E8%84%B8%E6%A3%80%E6%B5%8B" target="_blank">人脸检测</a></span><span><a href="/tags/%E4%BA%BA%E8%84%B8%E8%AF%86%E5%88%AB" target="_blank">人脸识别</a></span><span><a href="/tags/%E7%9C%BC%E7%9D%9B%E5%AE%9A%E4%BD%8D" target="_blank">眼睛定位</a></span><span><a href="/tags/%E9%9A%90%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E6%A8%A1%E5%9E%8B" target="_blank">隐马尔可夫模型</a></span><span><a href="/tags/%E5%B0%8F%E6%B3%A2%E5%8F%98%E6%8D%A2" target="_blank">小波变换</a></span><span><a href="/tags/Canny%E7%AE%97%E5%AD%90" target="_blank">Canny算子</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/degree/6e10c1d8882705cb23e075589d03e97f.html" target="_blank" title="系统仿真数据分布式计算环境的研究与实现"> 系统仿真数据分布式计算环境的研究与实现 </a></div> <div class="con"> 目前,系统仿真数据的计算都是在一台机器上进行计算的。系统仿真数据是用来评价支撑业务系统的网络系统的性能的,这就需要实时的计算系统仿真数据,以便向用户展现业务系统运 </div> <div class="typ"> <div class="typ-nam"> <span>学位</span> </div> <div class="typ-con"> <span><a href="/tags/%E7%B3%BB%E7%BB%9F%E4%BB%BF%E7%9C%9F%E6%95%B0%E6%8D%AE" target="_blank">系统仿真数据</a></span><span><a href="/tags/%E5%88%86%E5%B8%83%E5%BC%8F%E8%AE%A1%E7%AE%97" target="_blank">分布式计算</a></span><span><a href="/tags/Web+Services" target="_blank">Web Services</a></span><span><a href="/tags/%E8%9A%81%E7%BE%A4%E7%AE%97%E6%B3%95" target="_blank">蚁群算法</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/degree/5d5dda16f6e7a2d52b78c52d125b5e43.html" target="_blank" title="多视图三维重建中特征点检测并行化研究"> 多视图三维重建中特征点检测并行化研究 </a></div> <div class="con"> 在计算机视觉领域,三维重建技术已成为其中的一大研究热点。而基于多视图的三维重建算法又是三维重建技术中的重要一支,该算法的核心思想是以多张对同一物体或场景从不同角度 </div> <div class="typ"> <div class="typ-nam"> <span>学位</span> </div> <div class="typ-con"> <span><a href="/tags/%E4%B8%89%E7%BB%B4%E9%87%8D%E5%BB%BA" target="_blank">三维重建</a></span><span><a href="/tags/%E5%B9%B6%E8%A1%8C%E8%AE%A1%E7%AE%97" target="_blank">并行计算</a></span><span><a href="/tags/Harris%E7%AE%97%E6%B3%95" target="_blank">Harris算法</a></span><span><a href="/tags/DoG%E7%AE%97%E6%B3%95" target="_blank">DoG算法</a></span><span><a href="/tags/GPU" target="_blank">GPU</a></span><br /> </div> </div> </div> <div class="article-other-content"> <div class="tit"><a href="/degree/47a58f3fcb016c07296ba36d63ef5e08.html" target="_blank" title="基于短波通信的飞机类型识别"> 基于短波通信的飞机类型识别 </a></div> <div class="con"> 在军用和其它用途的短波无线电通信中,由于短波无线电通信信道自身的特点以及飞机舱内的环境特点,其噪声来源异常复杂,声学环境极其恶劣,信号质量一般来讲也很差。而目前对截 </div> <div class="typ"> <div class="typ-nam"> <span>学位</span> </div> <div class="typ-con"> <span><a href="/tags/%E7%9F%AD%E6%B3%A2%E9%80%9A%E4%BF%A1" target="_blank">短波通信</a></span><span><a href="/tags/%E5%A3%B0%E4%BF%A1%E5%8F%B7" target="_blank">声信号</a></span><span><a href="/tags/%E9%A3%9E%E6%9C%BA%E7%B1%BB%E5%9E%8B" target="_blank">飞机类型</a></span><span><a href="/tags/%E5%B0%8F%E6%B3%A2%E5%8C%85" target="_blank">小波包</a></span><span><a href="/tags/%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA" target="_blank">支持向量机</a></span><br /> </div> </div> </div> </section> </div> </div> <!-- 右侧边栏 --> <div class="col-lg-3 col-md-3 hidden-sm hidden-xs"> <div class="content-right"> <div class="sid"> <div class="tit"> <h3>与本文相关的学术论文</h3> </div> <div class="con3"> <ul> </ul> </div> <!-- <div class="bot"> <a href="#" target="_blank"><button class="btn btn-default btn-block">更 多</button></a> </div> --> </div> <div class="sid-img-ad"> <script src=/d/js/public/new5.js></script> </div> </div> </div> </div> </section> </main> <!-- 页面底部 --> <footer class="public-footer"> <section class="top"> <div class="container"> <div class="row"> <div class="col-xs-120 gongjujianjie">学位论文基于覆盖的中文网页分类研究发表于2008年期安徽大学作者闫屹,本篇论文的所有权归原作者闫屹所有,如果您对本文有版权争议,可与客服联系进行内容授权或下架。 </div> </div> </div> </section> <section class="bottom"> <div class="container friend-link"> <div class="row"> <div class="col-xs-12"> <span class="title">友情链接:</span> <a href="https://www.soolun.com/" target="_blank">搜论网</a> <a href="https://www.soolun.com/" target="_blank">论文下载</a> </div> </div> </div> <div class="container service-link"> <div class="row"> <div class="col-lg-9 col-md-9 col-sm-12 col-xs-12"> <div class="aboutus"> <a href="/about.html">关于我们</a> <a href="/about.html">联系我们</a> <a href="/about.html">广告服务</a> <a href="/about.html">版权声明</a> <a href="/about.html">新手指南</a> <a href="/about.html">网站地图</a> </div> <div class="kefuqq"> 客服qq:184688754 客服qq:184688754 </div> <div class="disclaimer"> <span>声明:本文档内容版权归属内容提供方,如果您对本文有版权争议,可与客服联系进行内容授权或下架</span><span>搜论网</span> © CopyRight 2018-2024 </div> </div> <div class="col-lg-3 col-md-3 col-sm-12 col-xs-12 wechat"> <div class="wechat-item"> <img src="/image/weixin.png" alt="微信客服" > <div class="img-name">微信客服</div> </div> <div class="wechat-item"> <img src="/image/weixin.png" alt="微信服务号"> <div class="img-name">微信服务号</div> </div> </div> </div> </div> </section> </footer> <script src="/js/jquery.min.js"></script> <script src="/js/bootstrap.min.js"></script> <script src="/js/bootstrap-hover-dropdown.min.js"></script> <script src="/js/bootstrap-select.min.js"></script> <script src="/js/js.js?v=1.0"></script> </body> </html>