基于Web数据的距离函数研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:moniter2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文基于Web数据的特点,针对已有的距离函数不能体现语义、不满足度量定义和不适于处理网页距离的缺陷,对集合距离函数和网页距离函数进行了研究。主要工作成果为:1)提出了一种使用Web结构数据所蕴涵的语义信息来量化对象间差别的方法。基于集合结构的对象特征模型,定义了一个量化语义相似性的核心概念“最大相似宽度”,并从此概念出发,定义了三个语义距离函数:JEMD、MEMD和XDist。实验初步表明此类距离函数的在最近邻查询、差别分辨力和计算速度方面可与已有类似研究相媲美。2)根据网页的HTML编码和浏览器显示的特点,用“设计树”来表示网页,抽取了内容、风格和布局等网页对象特征,提出了量化网页间相似度的内容距离、风格距离和混合距离,使距离函数的结果更符合用户的直观映象。实验初步证明本文提出的网页距离函数是简单有效的。3)利用定义的网页距离函数实现了一个实际的智能网页编辑工具WebComposer。
其他文献
  Web技术的日益成熟为互联网注入了活力,但是越来越多的数据让人们迷失在信息的海洋中,对人们有用的只是其中少之又少的一小部分。不同的用户面对的都是千篇一律的web页面。
  近年来,随着移动通信技术的发展和应用的普及,无线定位业务作为一种新兴的增值业务正越来越受到人们的欢迎,尤其是随着美国E-911(Emergencycall‘911’)法案的颁布,无线定位
为消除“信息孤岛”,让宝贵的信息资源为经济社会发展服务,迫切需要建立安全统一的信息交换平台。电子政务的特点对电子政务系统的信息处理、传输和交换的安全性提出了严格的要
主要从硬件体系和软件体系的角度,对远程监测系统做了一些探讨,并以山西铝厂隧道电缆温度及烟雾监测报警系统为背景,对系统的实现进行了深入的研究。 第一章对远程监测系统进
动态联盟、资源共享和信息安全是现代制造资源重组中的关键问题。制造企业动态联盟的出现,带动了制造业传统生产方式的变革,实现了联盟企业间的优势互补、相互协作和资源共享
  各种未收录的汉语人名、地名、以及机构名称短语等专有名词的自动识别,能够提高中文文本的分析理解能力,是自然语言处理领域的重要和基础性问题,同时也是一项具有较高价值的
目前国内外车辆牵引性能测试中的信号传输仍然采用传统的一点一线的信号传输方式,测控点越多则信号线就越多,这给车辆牵引性能测试带来诸多不便,如电缆缠绕、压断。为了改进目前
本文根据汉语自身的特点,及不同汉语语块具有的不同敏感特征,从多Agent理论入手,进行了基于多Agent策略的汉语语块模型的探索。本文研究从以下几个方面展开:1、对比分析
随着Internet/WWW在全世界范围内的迅猛发展,多Agent系统的研究成为当今软件技术发展的热点。多Agent系统通过对自主Agent间的并发计算、协同工作的支持,被认为是现实的分布、
越来越多的应用系统正在使用基于构件和构架的软件开发方法,这为软件工程提出了一些新的研究课题,比如怎样使构件、构架具有智能,可以在运行时根据外界的变化而改变结构和行为,即