基于多示例多标签框架的网页分类方法

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:ZHUTINGFNEG12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化的发展,互联网中的信息呈指数级增长。如何快速、有效地从网络中提取所需信息,已成为目前亟待解决的问题。为提高从海量网页中提取信息的效率,人们采用网页分类技术对网页进行归纳整理,通过进一步缩小搜索目标的范围,为信息获取争取宝贵的时间。鉴于多示例多标签(MIML)框架在歧义性学习方面独特的先天优势,以及支持向量机(SVM)卓越的学习能力,二者融合算法目前已成为机器学习领域的研究热点。介绍了网页分类基本过程及其相关技术,描述了MIML框架理论、算法,阐述了SVM发展历程、理论原理及其相关算法,并着重对二者融合算法进行研究。目前,算法中常采用退化方式将MIML问题退化至SIML或MISL问题进行求解,但在信息退化过程中通常存在有效信息缺损问题,因此为降低退化过程中的信息缺损,本文利用基于标签依赖关系的集成分类器树(ELDCT)算法同MIMLSVM~+算法融合,将标签间依赖关系融入分类器的训练进程之中,以提升分类准确度。在现实情况中,有标签样本标注代价大、数目较少、不能充分反映样本分布的真实情况,然而无标签样本特点与之相反。尽管无标签样本存在诸多优势,却未加以充分利用,使得利用少量有标签样本训练生成的分类器泛化能力不足、分类效果不够理想。因此,为利用无标签样本更准确地进行样本分布估计,将改进的直推学习思想融入MIMLSVM~+算法之中:一方面,利用支持向量域描述替代成对标注法;另一方面,引入增量学习。利用上述策略既能加快算法的收敛速度、又能增强算法的泛化能力,使得分类器性能进一步得到提升。为验证算法的应用效果,依据改进算法设计Web页面分类系统,并对其进行实验评估分析。实验数据显示,改进算法能够提升分类器的性能。
其他文献
哈密黑山金矿产在新疆东天山一带的阿奇克库都克-沙泉子断裂南侧的中天山地块中。中天山地块受到多次构造-岩浆作用的改造,构造样式极为复杂,岩浆岩比较发育。在中天山地块中仅发现过铁矿、铅锌矿、铜镍矿、钨矿、稀有金属矿以及非金属矿,并未见到在该构造单元中发现具有开采价值的金矿的报道。而黑山金矿是近年来作者所在团队(有色金属矿产地质调查中心)在中天山地块构造单元中发现的一个具有开采价值的大型金矿。前人仅仅将
二十世纪一二十年代,帝制废除,民国初建,这给腐朽顽固、沉闷专制的中国政权统治注入了新的生命力。但是时局却并未就此而稳定下来,民智也尚未开化,帝国主义列强也在一旁虎视眈眈。因此,知识分子们开始纷纷脱下文人的外袍而转投新闻行业的怀抱。他们把报纸作为论说的媒介、笔杆作为论说的工具,发表或抨击政权、或启迪民众、或传播知识的铿锵言论。胡政之也是这股新式浪潮中的一个。他于1912年投身于新闻行业,并终其一生在
级配碎石作为一种岩土体材料在路面工程中有着广泛应用,其击实状态下的力学性能和变形能力对路面基层承载性能有着重要的影响。以往在对级配碎石填料的力学性能和变形能力进行研究时,通常将其视为连续介质。然而级配碎石作为一种典型的散体材料,在研究其力学性能和变形规律时忽略其非连续特征,会导致结果存在一定偏差。而离散元理论及方法从散体材料本构关系入手,考虑了散体材料的非连续性,建立散体颗粒相互接触的力学模型,由
数字隐写和隐写分析是信息安全领域的重要分支。数字视频因其数据量大,能容纳密信数量多的特点,成为理想的隐写载体。作为最新的视频编码标准,H.265/HEVC已逐步应用在互联网
近年来我国经济快速发展,人民物质生活水平不断提高,房地产行业迎来了空前的繁荣,房地产营销中心作为楼盘售卖的“前哨岗”,地位日渐升高,在满足展示项目情况、进行意向洽谈、达成签约销售等实际功能需求的同时,还能够起到提升项目档次、增强消费欲望,引导消费者的作用,因此房地产营销中心设计的重要性不言而喻。过去二十年间受到文化断层以及地产行业外来资本注入的影响,不少地产商为迎合消费者而对国外风格样式盲目抄袭与
随着我国基础设施工程的持续发展及装配式预应力混凝土小箱梁标准图集的颁布,小箱梁已成为目前桥梁工程中应用最广泛的结构形式之一。装配式PC小箱梁具有结构刚度大、抗扭性能好、结构高度小、反拱较小等优点。小箱梁的内模板工程是箱梁施工中的关键技术问题,传统的内模板工艺存在内模施工繁琐,施工周期长,质量不易控制等问题。为解决传统小箱梁内模板在应用中存在的问题,基于聚苯乙烯泡沫塑料的广泛应用,项目组提出了采用聚
目前,可穿戴电子设备如健康监测手环、智能眼镜等被人们广泛使用。由于体积的限制,这些设备的持续供能问题制约了其进一步的发展。因此,探索一种新型的供能方式替代传统的电池供能,具有重要的研究价值。基于有机-无机压电复合材料的柔性压电能量收集器是一种能够高效地收集人体日常活动所产生的机械能并转换成电能的新能源技术,在可穿戴电子器件供能领域具有重要应用前景。有机-无机压电复合材料与传统压电陶瓷材料相比,具有
随着科学技术日新月异的进步和半导体技术的蓬勃发展,以碳化硅为代表的第三代半导体材料引起全球的广泛重视。单晶碳化硅用作外延生长衬底材料和大功率半导体器件,对其平坦化的质量提出了较高的要求。化学机械抛光(CMP)能使SiC表面达到较高的平整度,从而提高SiC基器件性能。通过研究SiC在NaClO体系、K_2S_2O_8体系、H_2O_2体系的动电位极化曲线,总结出如下的规律:在NaClO体系中,采用不
VTI介质的各向异性会导致波在不同传播方向上的传播时间及振幅差异。所以在微地震监测中,需要在确定震源位置和机理时重点考虑VTI介质的各向异性;且微地震监测中经常观察到位错和非双耦合震源,而在基于弹性波动方程的地震正演模拟中,震源通常是爆炸源,但实际介质中的震源是复杂的,不仅包括炸药震源,还包括直流震源和矩张量源,因此,在各向异性介质中如何模拟各种震源产生的波场是地震正演模拟的重要内容。本文主要研究
目的:天花粉蛋白(Trichosanthin,TCS)是一种单链核糖体失活蛋白。研究表明,天花粉蛋白具有广谱的抗肿瘤效应,但其抗肿瘤作用机制尚未被完全阐明。本研究拟从细胞自噬这一新的角度来进一步探究天花粉蛋白抗肿瘤作用机制,为天花粉蛋白抗宫颈癌乃至其抗肿瘤作用提供更多的研究基础和理论依据。方法:(1)MTT法检测TCS对宫颈癌HeLa细胞的抑制作用;(2)透射电镜观察TCS处理HeLa细胞后自噬囊