基于朴素贝叶斯的中文网页分类研究

被引量 : 0次 | 上传用户:sdadlu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着web网页的迅速发展,海量的网络信息大量涌现,如何在繁杂的信息中快速找到需要的信息是网页自动分类研究的重要内容。由于文本分类技术研究开始的时间较早,目前已经拥有相对成熟的技术,网页分类的方法仍以文本分类的方法作为研究基础。同时由于网页作为一种半结构化的文档,含有丰富的结构信息,如何利用网页中的结构信息和超级链接信息能够更好的得到网页分类效果,已经成为目前网页分类的热点问题。  本文的研究工作主要包括以下几项,首先根据网页的链接关系,在网页采集的过程中,考虑网页中超级链接指向的网页对待分类网页的影响,提出根据URL判断网页的相似性,并设计相应的爬虫算法来采集网页;接着对网页的构成信息进行了分析,按照基于DOM树的模型抽取网页中重要的标签,由于网页中title标题、各级子标题hn、meta标签中keywords和description的内容、以及超级链接的锚文本等描述的内容对于页面的主题相关度具有突出贡献的意义,在网页分类中对这些内容进行加权处理,增大这些信息的权重。然后提出了文档频率(DF)和2c统计量(CHI)法相结合的特征选择算法,基于朴素贝叶斯方法训练组合分类器进行分类,利用平均投票法判断出网页最终所属的类别。  最后本文从一些门户网站中采集大量的网页数据,利用本研究中提出的方法对网页进行分类实验.实验证明本方法相对于将单一的待分类网页作为分类的输入对象,分类精度有了明显的提高。
其他文献
科里奥利质量流量计(CMF)具有两大优势:直接测量质量流量;并行地测量流体密度。然而其高科技附加值高,核心技术掌握在少数几家大公司内,因而其价格一直居高不下。此外在国外CMF
学位
增强现实(Augmented Reality,简称AR)技术也称为虚实融合技术,是在虚拟现实技术基础上发展起来的一项分支技术,增强现实的技术是将计算机设计的二维或者三维虚拟图像文字和现实世
并联型能量回馈系统可以将电力拖动负载减速产生的电能回馈至三相电网,实现传统变频调速系统的“能量再生”,提高能源利用率。然而并联型能量回馈系统在回馈能量时会有环流电流产生,环流电流会恶化并网电流谐波,增大开关损耗,给系统的控制性能带来不利影响。论文旨在对并联型能量回馈系统工作时的环流电流特性进行详细研究,并探讨合适的环流电流抑制策略。论文首先讨论了能量回馈系统的基本工作原理,给出环流研究简化模型,介
带式干燥床干燥过程中物料的水分含量是干燥工艺的核心问题,物料水分的均匀性直接决定了生产成品的效率。而传统的控制方式只是单纯地设定干燥时间,这样无法保证干燥物料水分
随着科学技术的发展与人类研究水平的提高,结合智能机器人技术与人类双耳机理模型,针对声音的全向性及衍射等特性,听觉感知机器人的研究已成为很多科研院所及高校的重要研究焦点
在钢铁企业的生产过程中,生产计划与调度的优化是实现其产品质优价廉、准时交货的重要途径之一。炼钢-连铸是钢铁生产的瓶颈工序,科学地制定生产调度计划可以提高设备率,减少
随着脑科学和计算机科学研究的迅猛发展,脑-机接口技术取得了长足的进步。脑-机接口是一种不依赖大脑与外周神经和肌肉组织正常输出通道的通信系统。脑-机接口能够为那些具有
随着经济和对外贸易的飞速发展,物流行业通过对货物在时间和空间上的转移创造了很高的经济效益。仓储是物流的重要组成部分,由于科技和工业生产的不断进步,传统仓库已经不能
本课题立足于目前国内外多媒体通信操作终端的研究现状和对多媒体通信操作终端的相关理论和技术的深入研究与探讨,提出了一种基于S3C6410处理器、WinCE环境的多媒体通信操作