一种垂直页面分割与信息提取方法的研究

来源 :计算机应用研究 | 被引量 : 8次 | 上传用户：yongjianok

【摘要】

：

在综合分析不同页面分割算法和适用条件的基础上,研究针对垂直型网站的页面分割和信息提取算法。以DOM(document object model)树为基础,提出页面内容聚集度的概念,统计获取页面分割标签和样式层叠表映射,对页面进行分割;采用正文识别和前缀匹配的方法,完成从页面分块信息提取。结合实际的网络视频项目需求,实现面向垂直型网站页面的分割和信息提取器。实验结果表明,该网页分割和信息提取方法对垂

【作者】

：

李军陈君王玲芳倪宏

【机构】

：

中国科学院研究生院,中国科学院声学研究所国家网络新媒体工程技术研究中心

【出处】

：

计算机应用研究

【发表日期】

：

2013年03期

【关键词】

：

页面分割信息获取垂直网站内容聚集度分割标签前缀匹配 page segmentation information extraction vert

【基金项目】

：

国家“863”计划资助项目（2011AA01A102）,国家科技支撑计划重点资助项目（2011BAH08801）,中国科学院战略性先导科技专项子课题（XDA06010302）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

一种多路实时语种识别系统设计与实现

对语种识别系统的算法运算量和复杂度进行分析可知:其前端特征提取和预处理部分运算量较小,且算法相对灵活;而后端建模分类部分算法运算量较大且算法相对稳定,是系统实现大规模并行处理的瓶颈。基于此,提出了一种DSP+FPGA的系统实现架构,对前端特征提取采用浮点DSP进行算法实现,而后端则采用FPGA设计进行算法实现,并对系统进行了性能测试和资源分析,验证了设计的合理性。

期刊

多路实时语种识别FPGA并行处理multiple and real-timelanguage identificationFPGAparallel

样条插值算法在耦合地球系统模式中的应用

为满足耦合地球系统模式应用的需求,提出了一种二维样条插值算法,并将其有效地实现成插值模块封装进地球系统建模框架(earth system modeling framework,ESMF)。该算法基于经典样条算法,根据地球系统模式特点进行修改,用两次一维插值扩张成二维插值,引入极点区域外插处理,将插值权重生成与插值结果计算两部分分离。实验结果表明,该算法能获得高精度的插值结果,模块化的设计使得用户可

期刊

二维样条插值地球系统建模框架耦合地球系统模式模块化设计插值权重2-dimensinal spline interpolationESMF（earth

3GPP中基于拥塞控制的协作DSR路由协议研究

针对现行的3GPP网络路由协议在路由选择时存在的可靠性低、路由开销大等问题,分析了网络中通信节点的工作状态,综合考虑协同合作方式的DSR路由机制和拥塞控制策略对3GPP网络性能的影响,提出了一种基于拥塞控制的增强型协作DSR路由协议,并通过3GPP网络系统级仿真验证改进后的协作路由协议的通信性能。仿真结果表明,所提的协作DSR协议显著提高了3GPP网络通信性能,在提高网络资源利用率的同时改善了数据

期刊

第三代合作伙伴计划协作路由协议动态源路由协议拥塞控制the 3rd generation partnership project（3GPP） coop

意见领袖识别中的文本倾向性研究

由于网络用户讨论的主题变化频繁,因此在进行倾向性判定时,难以预先构造出满足各种情况的训练语料。针对上述问题,提出了一种意见领袖识别中的文本倾向性判定方法,进而建立考虑回复帖子倾向性的意见领袖发现模型。该模型建立在影响力扩散概率模型(IDPM)上,模型中引入了考虑帖子倾向性的有效系数。实验表明,该方法是有效的,其前50个的平均精确率相对分别提高了10.97%和5.45%。

期刊

意见领袖识别倾向性分析影响力扩散概率模型opinion leader identification orientation identification

软件缺陷集成预测模型研究

利用单一分类器构造的缺陷预测模型已经遇到了性能瓶颈,而集成分类器相比单一分类器往往具有显著的性能优势。以构造高效的集成缺陷预测模型为出发点,比较了七种不同类型集成分类器的算法和特点。在14个基准数据集上的实验显示,部分集成预测模型的性能优于基于朴素贝叶斯的单一预测模型。其中,基于投票的集成分类框架具有最优的预测性能以及统计学意义上的性能优势显著性,随机森林算法次之。Stacking集成框架也具有较

期刊

软件缺陷预测集成分类投票随机森林software defect prediction classifiers ensemble vote rand

6LoWPAN网络节点信道接入延时性能研究

为了优化6LoWPAN网络MAC协议性能,提出了一种基于饱和负载的时隙CSMA/CA机制的Markov链模型,并对协议主要网络参数进行了数学推导。基于该模型对节点平均接入延时及网络的信道接入概率等参数进行数值计算,重点分析了协议参数对网络延时性能的影响。数学分析表明,该模型较好地描述了基于饱和负载的IEEE 802.15.4 MAC协议的信道竞争接入机制,而合理的协议参数设置能够有效地改善网络节点

期刊

6LoWPAN时隙CSMACA接入延时参数6LoWPAN slotted CSMA/CA access delay parameter

基于改进自适应和声遗传算法的装配序列优化研究

在考虑装配工具及零件装配方向改变对装配成本影响的同时,增加装配体约束稳定性影响作为装配序列优化评价要素,构建装配成本模型。基于装配体几何约束关系,建立装配方向约束矩阵和连接关系矩阵,并依据专家知识得到零件所对应工具的映射表,通过矩阵扫描得到装配成本惩罚次数,并与惩罚系数加权得到装配成本函数值。在和声算法中引入自适应的参数调节方式及遗传算子,使和声算法能够解决离散型数学问题,并较好地改善了和声算法方

期刊

自适应和声算法装配成本模型序列优化遗传算子adaptive harmony search algorithm model of assembly co

带选择适应性的水下传感器网络分布式路由算法

针对水下传感器网络能量消耗大、延迟时间长、信道利用率低等问题,提出了一种带选择适应性的水下传感器网络分布式路由算法(AS-UWSN)。AS-UWSN使数据包成为一种具有以最大阈值为能耗界限的选择性和具有以最大信息素浓度为搜索对象的适应性的蚁群,以当前链路的能量损耗、网络延迟、误包率作为信息素的产生因子,每次迭代时蚁群都会直接搜索最优的节点转发路径,迭代次数少且具有更好的实时性和灵活性。实验仿真结果

期刊

水下传感器网络分布式路由算法蚁群选择性适应性underwater sensor networksdistributed routing algori

并行多路传输中数据调度算法的研究

针对传统并行多路传输中数据调度算法存在的问题,基于MPTCP协议,提出了带宽预测和前向时延的数据调度算法(data-scheduling algorithm using bandwidth estimation and forward trip-time,DA-BEFT)。该算法充分考虑子流间传输时延差较大的影响,结合性能好的重传选路策略,减轻接收端因数据乱序导致的缓存阻塞,提高整个连接吞吐量。通

期刊

MPTCP并行多路传输缓存阻塞数据调度MPTCP concurrent multi-path transmission buffer blockin

盟主—成员型物流联盟的团队激励与规模设计研究

针对盟主—成员型物流联盟的团队激励和联盟规模确定,在对国内外物流联盟相关理论梳理的基础上,对盟主—成员型物流联盟的内涵进行了界定,基于双层委托代理理论构建了单盟主和多盟主时物流联盟的团队激励模型。经过求解可知,在物流联盟的团队激励模型中,设置一个盟主企业和含有多个企业的盟主决策体时的激励系数是相等的,当盟主决策体和联盟成员企业的确定性等价收入等于它们各自的保留收益时,可以确定物流联盟的团队规模。

期刊

盟主—成员型物流联盟团队激励规模设计leader-members logistics alliance team incentive scale de

一种垂直页面分割与信息提取方法的研究

与本文相关的学术论文