【摘 要】
:
网页结构相似性的度量是web 信息处理中的一项重要任务,高效的网页结构相似度算法不但可以提高网页信息提取的准确性还可以提高搜索引擎的效率。因此,提出了一种改进的基于树路径匹配的网页结构相似度算法,算法定义了树路径的序列相似度和位置相似度,找出网页的树路径集合,通过网页间的最佳树路径匹配计算结构相似度。实验表明,用改进后的算法计算网页结构相似度比原来的树路径匹配更加地符合实际,合理有效。
【机 构】
:
西南交通大学云计算与智能技术省级高校重点实验室,信息科学与技术学院,610031
【出 处】
:
第四届中国Agent理论与应用学术会议
论文部分内容阅读
网页结构相似性的度量是web 信息处理中的一项重要任务,高效的网页结构相似度算法不但可以提高网页信息提取的准确性还可以提高搜索引擎的效率。因此,提出了一种改进的基于树路径匹配的网页结构相似度算法,算法定义了树路径的序列相似度和位置相似度,找出网页的树路径集合,通过网页间的最佳树路径匹配计算结构相似度。实验表明,用改进后的算法计算网页结构相似度比原来的树路径匹配更加地符合实际,合理有效。
其他文献
基于人脸的身份鉴别技术已经受到越来越多的重视。在可见光环境里,人脸识别算法对光照的变化非常敏感。使用近红外人脸图像进行识别可以有效的提高人脸识别对光照的鲁棒性。 在可见光下获得的人脸图像和近红外线下获得的人脸图像反应的是人脸的两种不同模态下的特质,所以提取出来的特征具有一定的差异性,同时使用可以提高识别的性能。近红外 图像成像的原理会导致近红外图像与可将光图像相比出现模糊,轮廓不全等,对识别性能造
典型相关分析(Canonical Correlation Analysis,CCA)是寻找同一对象两组变量间线性相关性的一种常用的多元统计分析方法,其采用的欧氏距离度量方式导致了算法的非鲁棒性。我们先前导出的核诱导的距离度量不仅在理论上被证明是鲁棒的而且在(聚类)应用上获得了有效验证。本文旨在将其进一步应用于CCA,发展出核诱导距离度量的鲁棒CCA(KI-CCA),该算法不仅克服了CCA非鲁棒的不
现实生活中复杂网络如社交网络、生物网络等无处不在。挖掘复杂网络中功能模块及其关系对网络结构功能的了解、事物及其发展规律的认识有着重要作用。本文利用典型相关分析(CCA)分析复杂网络中功能模块及其相互关系,并将其转化为LASSO 回归优化问题,以提高结果的可解释性。在此基础之上,提出了一种模块及其相互关系的挖掘算法。该算法不仅能准确挖掘网络中的功能模块,而且还能同时度量模块之间的相关程度。人工生成数
三维模型检索是多媒体信息检索领域的重要组成部分,由于“语义鸿沟”的存在使得当前基于内容的检索结果通常不十分令人满意。考虑到解决“语义鸿沟”的关键是将三维模型的底层形状特征与高层语义特征进行有效融合,为此提出一种三维模型的语义与形状异构特征融合方法,该方法将三维模型在基于内容的检索过程中用户反馈信息形成的语义关联作为模型的语义表达,并通过子空间学习方法将这种语义表达信息与模型的底层特征进行融合,最后
随着分布式多智能体系统应用领域和系统规模的不断扩大,网络特性已成为影响系统性能的一个重要因素。本文通过研究和分析复杂网络特性对大规模分布式多智能体系统协同控制的影响,为提出新的优化算法提供依据。我们主要针对随机网络,小世界网络,网格网络和无尺度网络四种典型复杂网络特性从理论和仿真两方面进行分析。在理论方面,通过基于马尔科夫链的信息传输过程在不同网络结构下的建模,对比分析了信息无偏随机游走模型和智能
从流行病监控数据中准确推断出描述流行病传播途径和传播方式的流行病传播网络具有重要意义。现有的传播网络结构推断方法大都面向信息传播过程,所能处理的数据与可获得的流行病监控数据形式不同,不适合处理具有粗粒度、时空多尺度和数据缺失等特性的流行病监控数据。针对该问题,本文提出了基于自主计算的流行病传播网络建模方法和网络结构推断方法。该方法采用多自治体建模传播网络结构和流行病传播过程,采用蒙特卡罗模拟结合群
提出了一个基于并行粒子群优化的分布式Agent 计算框架.在求解大规模复杂优化问题时,框架中使用一个主群(master swarm)来演化问题的完整解,并使用一组从群(slave swarm)来并行优化一组子问题的解,主群和从群通过交替执行来提高问题的求解效率.使用基于组件的Agent 架构,主群和从群被建模为框架中的顶层Agent,它们又可被分解为一组子Agent,包括用于构造问题初始解的Con
近年来,影响最为广泛的主体技术就是BDI(信念、愿望和意图)模型。笔者把无穷值的?ukasiewicz逻辑和命题动态逻辑进行融合后对等级BDI主体模型进行形式化。为了通过概率、必然性和可能性对不确定性行为进行表示和推理,我们把相应的公理添加到?ukasiewicz逻辑中。文中的等级BDI主体模型使用多背景系统,清晰地表示了信念、愿望和意图的不确定性。等级BDI主体的行为则通过添加了具体条件的每种背
随着信息技术的快速发展,分布式计算技术逐渐向普适计算技术演化,从而达到信息空间和物理空间融合的最终目标,为用户提供普适的智能化服务。为了达到这个目标,一个主要的困难就是如何有效地连续监测、捕获与解释环境相关的上下文信息来确保精确的上下文感知性。很多的研究者已先后投身于上下文感知的普适应用的研究工作中,但大多数往往直接针对原始上下文进行处理,没有考虑上下文质量(QoC)的影响。因此,本文提出了一种基
多主体建模是当前的研究热点,特别是在土地科学中应用研究,具有方法论意义。本文探讨了利用多主体建模技术构建土地利用人工社会模型的方法,包括调查数据的分析与提取,多主体运行规则的研究和制定,地理数据的导入及模型运行空间的创建,模型参数选择及其初始化等。在此基础上构建一个人工社会模型模拟平台,并分别针对鄱阳湖区的土地利用和生态补偿、内蒙古地区的生态系统服务消耗等地学问题进行了模拟和探讨。模型系统研发及运