基于本体的可定制化网页信息智能提取技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:ranandong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WWW上拥有海量、分布、动态、异质、非结构化的丰富信息资源,但用户一直没有合适的途径获取它们,而互联网传统的信息检索的粒度不能满足客户的需要,人们迫切需要Web挖掘技术来方便地获取互联网中细粒度,结构化的信息。Web挖掘技术负责从大量的Web文档和Web活动中发现、提取感兴趣的、潜在的有用模式和隐含的、事先未知的、潜在的信息。但现有的Web挖掘系统存在着应用领域小,自动化程度不高的不足,满足不了复杂数据源和数据表达方式多样化下信息提取的需求。 论文针对现有Web挖掘系统所存在的问题,提出一种基于本体论的网页信息提取算法,并成功地应用到UT斯达康手机信息服务系统中。算法基于HTML结构,结合本体论,能够自动分析网页结构并提取数据,具有高度鲁棒性和适应性。 第一章首先叙述了信息提取技术意义与本文的研究背景,进而提出本文的研究内容。 第二章介绍了信息提取技术的发展过程,简要介绍了传统信息提取技术的方法以及代表性系统,对它们的优缺点进行了分析。同时介绍了本体论的概念,以及本体论在信息提取领域相关的一些工作。 第三章对系统所采用的本体模型ORM进行了阐述。系统采用对象关系模型(ORM)构造目标本体,通过解析本体描述,可以获得目标数据的结构,描述方式,以及数据库模式,为信息提取做好数据准备。 第四章提出了基于本体论的网页去噪技术。通过构造网页标签树并对其进行简化统计得到网页结构树,在此基础上,利用网页间结构块的相似性和页面内噪音结构块的特征来排除网页噪音,提高信息提取的准确性。 第五章在网页结构树的基础上给出了基于本体论的信息提取算法。利用最大扇出树,并结合改进的启发式规则,寻找出网页数据区,最后利用本体论进行记录的划分和记录的分解提取,并将提取的信息按本体描述保存到数据库中。 第六章介绍了信息提取系统的实现,给出了系统的体系结构,并使用业界标准评价体系对系统进行测试,测试结果表明系统在性能上与同类产品存在一定的优势,验证论文在系统性能方面的改进工作。 第七章总结了本文的研究成果,指出今后研究的方向。
其他文献
随着软件技术的不断发展,对软件建模方法的应用研究也越来越深入。软件建模是进行软件系统分析设计的有效途径。 本文以南开太阳校园“一卡通”系统向三层体系结构进行升级
大理石纹釉是一项长久以来受全世界人民所喜爱的手工艺技术。其制作流程的基本特征是,对悬浮在基底液表层的颜料的流动方式进行操纵,然后将得到的图案转移到纸或其他具有吸纳
多Agent理论和技术的研究是分布式人工智能领域的主要研究课题之一,其基本研究任务是协同系统中各个Agent的目标、规划、知识和动作等,以使它们完成各自的任务及协作求解复杂
随着Internet技术的不断发展,网络上产生了大量的信息,如何从中找到满足用户需求的信息成为研究的热点。传统的信息搜索技术已经不能很好的满足该方面的需求,为此,个性化推荐
随着企业信息化步伐的加快,如何及时、有效地实现企业网络办公的自动化,这一问题不仅是大型企业机构最为关注的焦点问题,同样也是中小企业迫切需要解决的问题。实施办公自动化正
移动通信的蓬勃发展,需要高性能、大容量的移动通信系统,这对GSM移动通信网中心数据库的归属位置寄存器(HLR)系统提出了新的要求。HLR是一个管理移动用户的数据库,存储与用户
随着计算机硬件和通信技术的飞速发展,各种嵌入式设备和系统在各个领域中得到了广泛的应用,互联网应用正在从传统的以PC为中心转移到以嵌入式设备为中心,互联网连入的设备特
随着Internet的发展,人们的生活和工作越来越离不开互联网络。许多企业用户已经拥有了一个或多个自己的局域网,如何稳定、安全的让每个局域网接入Internet,这是一个对于信息安全
本文论述了层架构的设计思想,在此基础上设计了一套软件系统架构方案。不仅很好的解决了项目中复杂的业务逻辑处理问题,而且提高了系统的效率和性能。方案应用于网通的一个CRM
随着网络技术的迅速发展和普及,电子商务的发展越来越快,人们对它的要求也越来越高。目前普遍存在的电子商务形式是第一代电子商务[1],它有很多的缺陷,与人们日常购买方式存