【摘 要】
:
随着Web编程技术的发展,同类主题网页可以采用不同的Html标签展示出视觉特征相同的网页信息,导致需要匹配Html标签名称的现有网页结构相似性算法无法准确识别同类主题网页。
论文部分内容阅读
随着Web编程技术的发展,同类主题网页可以采用不同的Html标签展示出视觉特征相同的网页信息,导致需要匹配Html标签名称的现有网页结构相似性算法无法准确识别同类主题网页。因此,提出一种主题网页标签树邻接矩阵识别算法,通过构造主题网页标签树邻接矩阵,并利用邻接矩阵的结构特征来计算网页之间的结构相似度以实现同类主题网页识别。实验结果表明,该算法的最佳性能达到查全率100%、查准率96%,平均性能达到查全率97%、查准率89%。
其他文献
随着遥感图像大数据的出现,常见的彩色遥感图像边缘检测方法运算量大、速度慢、效果差等缺点越来越明显。以四元数表示彩色像素为基础,改进人工蜂群算法的单一搜索方程,加大
通过将鉴别邻域嵌入分析算法扩展到非线性场景,提出了一种有监督核化邻域投影分析算法。该算法在目标函数中引入类别标签和线性投影矩阵,并利用核函数处理非线性数据。通过两
基于程序行为特征的错误定位方法由于只孤立地看待每个程序实体,使其错误定位的效率受到影响,而回归测试错误定位又由于需要执行全部测试用例将大大增加开发和测试成本。针对
在软件开发过程中,开发人员经常需要遵循特定的API用法模式,而这些用法模式几乎没有相关文档作为参考。为了挖掘API用法模式,提出基于聚类和频繁闭合偏序序列的API用法模式挖
针对大规模空间数据的K-近邻连接查询问题,设计了一种CUDA编程模型下K-近邻连接算法的并行优化方法。将K-近邻连接算法的并行过程分两个阶段:1)对参与查询的数据集P和Q分别建立
云计算环境下用户的隐私数据保护成为了云计算能否快速发展的关键,目前更多的研究集中在了隐私数据的加密等显式保护方法上,而对集中存储带来的统计分析以及数据挖掘等隐式攻击
鉴于电力需求的日益增长与传统无功优化方法的桎梏,如何更加合理有效地解决电力系统的无功优化问题逐渐成为了研究的热点。提出一种多目标飞蛾扑火算法来解决电力系统多目标
针对长期在轨运行设备的存储可靠性问题,提出了一种自适应坏块管理策略。首先对星载NAND Flash存储系统建立马尔可夫可靠性模型,其次根据使用情况预估设备产生的坏块数量,并
对统一可扩展固件接17(UEFI)的体系架构和执行流程进行安全性分析,发现Windows启动过程中EFIOSLoader的可信性校验存在安全漏洞,其可导致Windows启动流程被劫持。针对该安全漏洞,
随着信息科技的快速发展,计算机中的经典算法在葡萄酒产业中得到了广泛的研究与应用。机器学习算法的特点是运用人工智能技术,在经过大量的样本集训练和学习后可以自动地找出