一种提高网页辨识度的分类算法的研究及其应用

来源 :中国地质大学(北京) | 被引量 : 0次 | 上传用户:hawkwang2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,互联网上的信息量也呈指数倍增长。今天,网络已成了人们获取信息的主要途径之一。然而,网页没有统一的结构和管理,质量也就参差不齐,其中不乏一些不符合大众阅读价值标准的垃圾网页。另一方面,由于搜索引擎技术的发展,随之产生了欺骗搜索引擎的SPAM网页。这些网页都严重影响了互联网用户获取目标数据。   对于搜索引擎来讲,如何能为用户找到最符合用户利益的网页就变得重要而迫切。而如果能在抓取后、索引前有效的过滤质量较低的网页,引擎的搜索结果集的就有了质量保证,从而提高引擎性能,节省存储资源。   本文以基于机器学习的分类方法为基础技术,针对网页的质量特点进行分类,旨在为抓取来的网页进行打分,控制搜索引擎中的网页质量。主要贡献如下:   1)网页质量样本数据收集平台的开发:根据互联网数据的特点,基于LAMP环境开发了一个网页质量典型样本提交平台,解决了SVM对训练数据依赖性强,而网页质量标准难统一的问题,保证了本文的训练数据的实时性和客观性。   2)特征选择和特征抽取方法的实验:依据特征选择和特征抽取的基本理论,本文在特征选择和特征抽取的方法上进行了一些应用性的尝试。在特征抽取上采用网页的文本信息和结构化信息相结合的方法;在特征选择上采用统计和实验相结合的方法。取得了比较理想的实验结果。   总之,本文在SVM算法的应用上进行了一些大胆尝试,在FreeBSD平台上,以C++为主要开发语言实现了一个网页质量评价系统。该系统经过开放测试,对低质量网页的评价的精确率达到97%,召回率达到94%;高质量网页的产出也达到20%,比较接近高质量网页的实际分布比例。
其他文献
本文在研究基于内容音乐检索基本理论和发展动念的基础上,着重研究了基于旋律的音乐检索算法及其在哼唱检索系统中的应用,主要创新性工作为: (1)提出旋律的表示模型,建立音乐
随着我国人大信息化工作的不断深入,在法律法规信息管理和使用方面逐步暴露出一些问题:其一,信息系统重复建设情况比较严重,资源利用率不高。目前我国采用统一且分级的立法制度,
货币识别与鉴别属于图像识别范畴,一直都是计算机应用领域研究的一个热点。货币自动识别在使用电子自动化设备的银行、商业、民用等众多领域内有广泛应用前景,而通过图像处理
学位
随着Internet的迅速发展和普及,电子商务(electronic commerce)迅速成为商务活动的重要形式,并且有着极为广阔的发展前景。而建立在Internet/Intranet之上的Web服务技术是电子
干涉合成孔径雷达(InSAR)技术是目前遥感成像领域的一个热点。它具有覆盖面积大,空间分辨率高,高程精度高的优点,并且可以全天时、全天候的工作,是获取三维数字高程模型(DEM)
学位
本文以“东半球空间环境地基综合监测子午链”为课题背景,进行空间环境数据共享子系统的设计与实现。   东半球空间环境地基综合监测子午链,简称子午工程,是国家发改委批
学位
行人检测技术在智能视频监控、车辆辅助驾驶、人体行为分析等方面有着广泛的应用,随着各种视频信息的飞速增长,安全意识的不断加强,大量不同场景下的行人检测任务需求变得越来越
社交网络已经成为大众发布信息的一种新渠道,并得到越来越多用户的关注和使用。社交网络的流行和普及,使得基于社交网络的信息数量呈现爆炸式的增长,然而信息质量却没有得到相应
从上世纪90年代开始人脸识别领域的科研工作者们就一直专注于寻找适合计算机理解的人脸的有效表达。在2005年之前,绝大多数的人脸表达都是基于底层特征的,这段时间的代表性的成
NONCODE科学数据库是一个提供给科学研究人员分析和使用非编码RNA基因数据的综合数据平台。自从2005年NONCODE数据库发布以来,非编码RNA的基因数量迅速增加,而且人们也逐步的认