【摘 要】
:
随着Internet的飞速发展,网上信息正在呈指数级增长。面对杂乱的网页信息资源,人们需要对海量的网页信息进行分类整理,从而可以快速检索到期望的目标及其关联信息。网页自动
论文部分内容阅读
随着Internet的飞速发展,网上信息正在呈指数级增长。面对杂乱的网页信息资源,人们需要对海量的网页信息进行分类整理,从而可以快速检索到期望的目标及其关联信息。网页自动分类提供了处理和组织大规模网页的关键技术,是使信息资源得以合理有效组织的重要方法。如何提高网页分类的准确率和召回率,是研究人员不懈追求的目标。本文通过中文网页正文提取方法,较好地提取出中文网页中的正文文本,将网页标记的处理、噪音信息过滤和网页正文提取三个方面结合起来。网页中的链接主要分为两类,与本页主题相关的链接称为相关链接,与本页主题无关的链接称为无关链接,例如导航条和广告链接等等。本文提出的相关链接提取算法,能够较好地抽取出中文网页中的相关链接,该算法时间复杂性低,准确率和召回率都令人满意。本文基于向量空间模型,采用词频法选择网页中的特征词,采用机器学习算法KNN对中文网页进行分类,设计实现了一个中文网页分类器。比较了基于网页标题分类、基于网页正文分类、基于网页相关链接分类,以及将正文与相关链接结合分类、将标题与相关链接结合分类的分类效果,印证了中文网页中相关链接对网页分类具有积极影响的设想,同时也提出了一种分类方法。通过开放测试,实验数据表明,本文提出的网页正文和相关链接结合分类的方法所需的训练集较小,各个类别的分类F1值均在92%以上,比传统的网页分类效果有了一定的提高。
其他文献
VPN即虚拟专用网络(Virtual Private Network)是指利用隧道协议和安全措施在公用网络上构建的专用网络,这里的公用网络主要指Internet。“虚拟”的含义是指在开放、不安全的
计算视觉是计算机利用其图像采集设备拍摄目标物、分析处理,以帮助或代替人眼和人脑完成相关视觉分析任务的一项科学技术。计算视觉的典型任务包括:识别、运动分析、场景重建
视频监控系统是安全防范系统的组成部分,它是一种防范能力较强的综合系统。视频监控以其直观、方便、信息内容丰富而广泛应用于许多场合。嵌入式视频监控系统是以应用为中心、
随着计算机技术和网络应用的迅猛发展,人们的日常生活与工作越来越趋于数字化和网络化。大量私有数据在网络上的传播、网络交易日益风行,使传统的版权保护手段和数据安全技术
随着XML应用的日益广泛,快速准确的查询XML文档中的数据已经越来越受到重视。这涉及到XML存储,查询和索引等技术。论文分析了当前XML索引技术的研究现状,目前基于区间编码和
近年来,服装CAD技术取得了快速的发展,其使用极大地提高服装设计与生产的质量和效率。在服装CAD中,无论是二维结构设计还是三维效果设计,都涉及了到曲线或曲面造型。不同的曲线或
肺癌已跃居世界癌症死亡率的首位,造成肺癌高死亡率的主要原因是肺癌早期症状不明显而难以诊断,因此“早期发现,早期诊断,早期治疗”是降低肺癌患者死亡率的重要举措之一。临
目前市场上关于网络视频监控的主流产品有两大类:网络摄像机和网络视频服务器。网络摄像机结构简单,使用方便,但其对多用户并发访问支持不够,所以主要适用于小规模的视频监控
按键控制播放器系统是一个典型的手持设备产品,它通过外部按键来控制音频播放,以达到用户交互功能。本文主要以ARM9处理器为目标平台,深入分析ARM公司提供的相关资料,介绍了A
由于异构多核处理器能够提供更高的性能,越来越多的公司致力于研发异构多核处理器,业界对异构多核处理器的热衷促进了该类处理器系统软件的研究,其中任务调度是重要一环。本