基于树结构的Web信息抽取技术研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:dhgczjd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展,Web已经成为一个庞大而复杂的知识库,研究如何从Web中抽取信息变得越来越重要。Web中有一类重要的页面是数据导向型页面,这种页面动态生成、便于更新,研究如何从这种页面中抽取信息是Web信息抽取技术研究的重点。在学习信息抽取相关理论和前人研究成果的基础上,本文针对数据导向型页面提出了一种基于树结构的Web信息抽取方法,围绕此方法做了以下工作:第一,提出了一种基于二叉树的HTML到XML的转换方法。从HTML到XML的转换是Web信息抽取的预处理模块,对Web信息抽取的效果起着决定性的作用。本文提出的基于二叉树的HTML到XML的转换方法可以有效地处理HTML中三种典型的错误。第二,提出了一种新的Web信息抽取中数据记录的定位方法。本文提出的数据记录定位方法分三步进行,首先通过计算节点的扇出度定位主要内容区,然后在主要内容区内定位数据区域,最后在数据区域内定位数据记录。分析发现STM算法在进行树的匹配时不够准确,本文对其进行了改进,提出了一种加权的树匹配算法STMCTN,并相应地改进了树的相似度计算等算法。第三,提出了一种新的Web信息抽取中数据属性的对齐方法。在定位到数据记录以后,需要对同一类的多个数据记录进行比对,将其数据属性进行对齐,进而输出数据记录,为此本文提出了一种基于聚类和树的比对的数据属性对齐方法,本方法避免了对齐结果冗余过多的现象。针对本文提出的三种方法,分别通过实验对方法的性能进行了分析。
其他文献
家庭服务机器人与人之间除了通过语音交互以外,还需要像人类一样通过“肢体语言”进行辅助交流。因此,机器人如何识别人的姿势,就显得非常必要。而人体姿态千变万化,形态各异
随着嵌入式应用领域的不断发展,对嵌入式操作系统的资源开销、实时性和灵活性等方面提出了更高的要求,因此,可以通过对嵌入式系统集成开发环境的扩展,使其能对操作系统进行配
Ad Hoc网络是一种特殊的对等式自组网络。它利用无线通信技术,通过相邻节点的转发来实现通信。它是一组带有无线收发装置的移动终端组成的多跳性移动网络。它具有网络自组性、
图是计算机科学中的重要数据结构。随着信息技术地不断发展,出现了越来越多的以图作为逻辑表达的数据,例如化学分子结构式,生物网络,社会网络以及图像中的实体关系等等。另一方面
随着数据库和网络技术的广泛应用和不断发展,保证网络上数据信息的一致性以及数据信息在远程节点的备份成为目前应用的迫切需要。网络的复杂性以及数据库产品的异构性等因素
随着资源的爆炸式增长,分布式协作对P2P下载、Grid计算、互联网搜索、云计算等实际应用的意义越来越重要。复杂网络学科的兴起为研究P2P网络、Grid、Internet等分布式协作环境
学位
应急通信系统是指应付地震、火灾、台风、洪水和大范围传染性疾病等紧急情况时所使用的通信系统,它的主要功能是实现紧急情况下的信息获取、处理、决策和应对管理等。应急通
组播是一种不断发展的、高效的、面向群组应用的网络通信机制,它提供了一种一到多和多到多的通信传输方式。随着不断丰富的组播服务的出现,如移动TV服务,视频点播,交互式群组
近几年,IEEE 802.11无线局域网得到迅速的发展,并已经被广泛的应用于人们的工作和生活中。同有线网络相比,无线局域网的性能还是有很多不足,这除了其物理传输介质的固有特点之外,M
模糊神经网络是人工智能的热门研究课题,已在聚类、识别等方面取得了大量成功的应用。本文的主要研究工作包括以下两个方面:(1)从理论上分析了模糊系统中多种模糊算子,对各种