论文部分内容阅读
本文基于Web数据的特点,针对已有的距离函数不能体现语义、不满足度量定义和不适于处理网页距离的缺陷,对集合距离函数和网页距离函数进行了研究。主要工作成果为:1)提出了一种使用Web结构数据所蕴涵的语义信息来量化对象间差别的方法。基于集合结构的对象特征模型,定义了一个量化语义相似性的核心概念“最大相似宽度”,并从此概念出发,定义了三个语义距离函数:JEMD、MEMD和XDist。实验初步表明此类距离函数的在最近邻查询、差别分辨力和计算速度方面可与已有类似研究相媲美。2)根据网页的HTML编码和浏览器显示的特点,用“设计树”来表示网页,抽取了内容、风格和布局等网页对象特征,提出了量化网页间相似度的内容距离、风格距离和混合距离,使距离函数的结果更符合用户的直观映象。实验初步证明本文提出的网页距离函数是简单有效的。3)利用定义的网页距离函数实现了一个实际的智能网页编辑工具WebComposer。