基于URL模式的网页分类算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:JessicaGu45
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和移动互联网的快速发展,如何高效地组织和管理海量的网页信息越来越成为棘手的问题。网页分类研究作为Web挖掘的一个基础步骤,在搜索引擎、主题爬虫和维护目录式网站等许多应用中均发挥着重要作用。基于内容的网页分类技术大多从网页内容、超链接结构和邻居节点等信息中抽取出大量特征,然后使用有监督学习方法进行分类。而只基于URL的网页分类技术则仅基于网页URL信息进行分类。虽然网页分类技术已经被大量研究过,但是已有方法过于依赖特征工程,训练所需时间代价较大,而且不能较好地处理数据中的噪音问题。另外,现有方法未考虑增量学习情形,该问题在训练数据流式产生的情景中尤为突出。在本文中,我们引入模式树的思想并加以改进,提出了UPCA算法。根据特定类型网页的训练集,通过模式树的构建和模式规则的提取,我们可以获得该类型网页URL所遵循的通用模式库。模式库可以代表对应类型网页URL集合的结构特点。对于新来的网页,我们只需将网页URL和已得到的模式库匹配来判断网页是否属于该类型。另外,我们将模式树的构建改进为增量式,也就是训练数据分批到来时在已有模式树的基础上进行增量更新,从而达到无需每次都重新构建模式树的目标。并且文中给出了新增训练样本对键对应信息熵的影响范围。最后在真实数据集上的实验结果表明,UPCA算法在保证分类精度的前提下能显著提高效率,而且我们提出的增量模式树算法可以很好地处理训练数据流式产生的场景。
其他文献
为了保护智能手机免受恶意代码的攻击,学术界在Android恶意代码检测方面进行了大量的研究,所采用的技术大体上可以分为静态分析和动态分析两个方面。控制流程图是静态分析中的
物化视图(Materialized Views),也可称之为快照,可以用来存储远程数据的副本,被广泛应用在数据仓库和联机分析处理等各项应用中。随着数据挖掘等研究的不断深入,数据仓库中不
气候变化所引起的环境问题已引起各国政府的密切关注。本文以长江中下游地区的池州市、铜陵市及位于皖中沿江平原地区的长丰县为研究区域,主要做了以下三个方面的工作:1)对池州
近年来随着交通技术的进步,交通设施不断得到改善,智能交通系统(ITs,Intelligent Transport System)的应用也越来越广泛。智能交通系统中的交通诱导子系统是出行和运输管理系
随着以太网的普及和宽带应用的发展,光纤到户(FTTH)被普遍认为是一种理想的综合接入方案。自2003年起,ITU-T陆续推出了G984.X系列标准来定义吉比特级无源光网络(GPON)系统。G
边缘是图像最基本的特征。边缘检测是图像处理领域最重要的研究课题之一,在模式识别、纹理分析、特征提取领域有着广泛的应用,受到学者的广泛关注。目前在边缘检测研究领域已
现代计算机技术的迅猛发展极大地促进了科学计算可视化的发展,二维离散矢量场可视化是科学计算可视化的重要组成部分。目前,可视化的应用领域十分广泛,几乎涉及自然科学与工
时延测试是检验电路时序正确性的有效手段,作为集成电路测试的一个关键环节,在芯片制造中被广泛使用。国际半导体蓝图预测2020年集成电路特征尺寸将达到10纳米,不断提高的工
数据库技术是信息化社会的重要基础,数据库课程是国内高校计算机专业的必修课程。数据库教学中高效能、高质量实验技能训练,对提高课程的教学质量起着至关重要的作用。因此,
麻醉机作为在现代医疗中必不可少的器械之一,不仅可以在病人手术中进行全身麻醉使用,而且还可以替代危重病人的自我呼吸。麻醉机系统是一个复杂的系统,它涉及到机械、控制、