一种垂直页面分割与信息提取方法的研究

来源 :计算机应用研究 | 被引量 : 8次 | 上传用户:yongjianok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在综合分析不同页面分割算法和适用条件的基础上,研究针对垂直型网站的页面分割和信息提取算法。以DOM(document object model)树为基础,提出页面内容聚集度的概念,统计获取页面分割标签和样式层叠表映射,对页面进行分割;采用正文识别和前缀匹配的方法,完成从页面分块信息提取。结合实际的网络视频项目需求,实现面向垂直型网站页面的分割和信息提取器。实验结果表明,该网页分割和信息提取方法对垂直页面信息提取具有良好的性能,满足实际项目需求。
其他文献
对语种识别系统的算法运算量和复杂度进行分析可知:其前端特征提取和预处理部分运算量较小,且算法相对灵活;而后端建模分类部分算法运算量较大且算法相对稳定,是系统实现大规模并行处理的瓶颈。基于此,提出了一种DSP+FPGA的系统实现架构,对前端特征提取采用浮点DSP进行算法实现,而后端则采用FPGA设计进行算法实现,并对系统进行了性能测试和资源分析,验证了设计的合理性。
为满足耦合地球系统模式应用的需求,提出了一种二维样条插值算法,并将其有效地实现成插值模块封装进地球系统建模框架(earth system modeling framework,ESMF)。该算法基于经典样条算法,根据地球系统模式特点进行修改,用两次一维插值扩张成二维插值,引入极点区域外插处理,将插值权重生成与插值结果计算两部分分离。实验结果表明,该算法能获得高精度的插值结果,模块化的设计使得用户可
针对现行的3GPP网络路由协议在路由选择时存在的可靠性低、路由开销大等问题,分析了网络中通信节点的工作状态,综合考虑协同合作方式的DSR路由机制和拥塞控制策略对3GPP网络性能的影响,提出了一种基于拥塞控制的增强型协作DSR路由协议,并通过3GPP网络系统级仿真验证改进后的协作路由协议的通信性能。仿真结果表明,所提的协作DSR协议显著提高了3GPP网络通信性能,在提高网络资源利用率的同时改善了数据
由于网络用户讨论的主题变化频繁,因此在进行倾向性判定时,难以预先构造出满足各种情况的训练语料。针对上述问题,提出了一种意见领袖识别中的文本倾向性判定方法,进而建立考虑回复帖子倾向性的意见领袖发现模型。该模型建立在影响力扩散概率模型(IDPM)上,模型中引入了考虑帖子倾向性的有效系数。实验表明,该方法是有效的,其前50个的平均精确率相对分别提高了10.97%和5.45%。
利用单一分类器构造的缺陷预测模型已经遇到了性能瓶颈,而集成分类器相比单一分类器往往具有显著的性能优势。以构造高效的集成缺陷预测模型为出发点,比较了七种不同类型集成分类器的算法和特点。在14个基准数据集上的实验显示,部分集成预测模型的性能优于基于朴素贝叶斯的单一预测模型。其中,基于投票的集成分类框架具有最优的预测性能以及统计学意义上的性能优势显著性,随机森林算法次之。Stacking集成框架也具有较
为了优化6LoWPAN网络MAC协议性能,提出了一种基于饱和负载的时隙CSMA/CA机制的Markov链模型,并对协议主要网络参数进行了数学推导。基于该模型对节点平均接入延时及网络的信道接入概率等参数进行数值计算,重点分析了协议参数对网络延时性能的影响。数学分析表明,该模型较好地描述了基于饱和负载的IEEE 802.15.4 MAC协议的信道竞争接入机制,而合理的协议参数设置能够有效地改善网络节点
在考虑装配工具及零件装配方向改变对装配成本影响的同时,增加装配体约束稳定性影响作为装配序列优化评价要素,构建装配成本模型。基于装配体几何约束关系,建立装配方向约束矩阵和连接关系矩阵,并依据专家知识得到零件所对应工具的映射表,通过矩阵扫描得到装配成本惩罚次数,并与惩罚系数加权得到装配成本函数值。在和声算法中引入自适应的参数调节方式及遗传算子,使和声算法能够解决离散型数学问题,并较好地改善了和声算法方
针对水下传感器网络能量消耗大、延迟时间长、信道利用率低等问题,提出了一种带选择适应性的水下传感器网络分布式路由算法(AS-UWSN)。AS-UWSN使数据包成为一种具有以最大阈值为能耗界限的选择性和具有以最大信息素浓度为搜索对象的适应性的蚁群,以当前链路的能量损耗、网络延迟、误包率作为信息素的产生因子,每次迭代时蚁群都会直接搜索最优的节点转发路径,迭代次数少且具有更好的实时性和灵活性。实验仿真结果
针对传统并行多路传输中数据调度算法存在的问题,基于MPTCP协议,提出了带宽预测和前向时延的数据调度算法(data-scheduling algorithm using bandwidth estimation and forward trip-time,DA-BEFT)。该算法充分考虑子流间传输时延差较大的影响,结合性能好的重传选路策略,减轻接收端因数据乱序导致的缓存阻塞,提高整个连接吞吐量。通
针对盟主—成员型物流联盟的团队激励和联盟规模确定,在对国内外物流联盟相关理论梳理的基础上,对盟主—成员型物流联盟的内涵进行了界定,基于双层委托代理理论构建了单盟主和多盟主时物流联盟的团队激励模型。经过求解可知,在物流联盟的团队激励模型中,设置一个盟主企业和含有多个企业的盟主决策体时的激励系数是相等的,当盟主决策体和联盟成员企业的确定性等价收入等于它们各自的保留收益时,可以确定物流联盟的团队规模。