论文部分内容阅读
随着网络技术的发展,互联网上的信息呈指数快速增长。人们利用搜索引擎,例如baidu,google从海量的信息中查找所需。然而,当前的搜索引擎只是把互联网上的网页收集到本地数据库,并且建立索引,根据用户的需求返回相关的网页,没有能力去提供更进一步的信息和知识。随着数据挖掘,人工智能等技术的发展,人们开始利用这些技术结合搜索引擎提供更加智能化的服务。例如:通过数据挖掘的分类算法对网页进行自动分类,通过对用户日志的关联挖掘提供个性化服务,以及通过预测方法对搜索引擎提供人性化的导航检索服务。然而,这些应用并没有改变搜索引擎的本质,只是为搜索引擎提供更加丰富和人性化的功能。当前的搜索引擎都只是提供一种信息检索服务,返回的结果网页都存在于互联网的某个具体的地方。
本文提出了一个新的概念:知识搜索引擎。知识搜索引擎为用户提供的不是一种简单的信息查找服务,而是根据互联网中的信息为用户提供一种规律查找和知识发现服务。这种服务返回的信息不是互联网中直接获取的具体的网页或网页中的相关内容,而是通过综合互联网相关内容,对隐含的规律或知识进行挖掘提取的结果。本文介绍了知识搜索引擎的原理,相关算法和体系结构。知识搜索引擎结合数据挖掘技术可在信息检索的基础上挖掘知识和规律,并且向用户提供更人性化,更智能化和更知识化的服务。
本文的创新主要体现在:
(1)提出了基于关键词聚类和节点距离的网页信息抽取方法。大部分的网页信息抽取方法都针对特定的网站,在某一个网站上可以很好的应用,但当遇到新的网站时,必须人工地增加规则提取或者提供新的训练网页集。当网站的模版改变时,也要重新设计规则或输入新的训练网页集。基于关键词聚类和节点距离的网页信息抽取方法,通过自动分析网页中的关键信息块,并对关键信息块中的有用信息进行无监督抽取,能够不加区分地对不同网站的页面信息自动抽取,为更智能的知识搜索引擎提供结实的基础。
(2)提出了基于提取网站层次结构的网页分类方法。目前基于网页文本内容的分类和基于网页问超链接结构的分类都只利用了网页的信息,没有考虑到网页所在网站提供的信息。由于设计者在设计网站时,为了方便用户浏览,会把网站中的网页很好的分门别类。知识搜索引擎的知识获取要高效准确,网页分类不但要基于网页信息,还要分析网站的层次结构。本文提出的网页分类方法对网站内部拓扑结构进行简约,提取网站隐含的层次结构,生成层次结构树,从而达到对网站内部网页实现多层次分类的目的。本方法已经成功应用到电子商务智能搜索和挖掘系统中。
(3)提出了基于连通图动态分裂的聚类算法。针对当前大部分的聚类算法都难以处理任意形状和大小、存在孤立点和噪音以及密度多变的簇,提出了一种基于连通图动态分裂的聚类算法。该算法首先构造数据集的,连通图,并且采用动态分裂的策略对厶连通图进行分割,把数据集分成多个互不相连的连通图子集,每个连通图子集为一类。该算法能够有效地解决任意形状和大小、存在孤立点和噪音以及密度多变的簇的聚类问题,具有广泛的适用性。此外,该算法更加适合应用在具有拓扑结构、大量无用信息以及复杂多变的互联网上,对网页进行聚类分析,发现网上社区。
(4)提出了基于网页-关键词拓扑结构的web信息检索主题精选以及聚类算法。针对一般搜索引擎返回的结果过于简单,用户要经过进一步的分析才能找到合适自己的信息,本知识搜索引擎提出了基于网页.关键词拓扑结构的web信息检索主题精选以及聚类算法,对搜索引擎返回的结果进行进一步的处理,包括主题提取以及结果聚类,使得搜索结果更加清楚明了,方便用户进行查找。
(5)提出了基于搜索引擎的关键词自动聚类法。通过搜索引擎获得互联网信息并且在此基础上进行更高层次的知识挖掘——对一组词进行智能聚类。基于搜索引擎的关键词自动聚类方法分析搜索引擎返回的关键词相关网页的链接结构以及文本信息,发现关键词间隐含的联系从而对关键词实现智能自动分组。该方法能够为其它计算机程序提供智能的预处理过程以及为用户提供更丰富和更有趣的知识。该方法使得用户可以更进一步利用互联网信息,是一个全新的研究。
(6) 提出了面向电子商务的知识搜索引擎的体系结构。结合智能商品搜索引擎(Ego),提出一个应用于电子商务领域的知识搜索引擎原型系统。系统结合了搜索引擎,信息抽取,数据挖掘等方法,提供了商品信息智能检索,高级知识检索以及个性化等服务,大大提高了用户利用搜索引擎进行电子商务活动和信息检索的效率。该系统自动检索互联网隐藏的知识和规律,为全新的搜索引擎的发展提供一种很有前景的方案。目前,国内外类似这样的较为完整地将搜索引擎和智能分析决策技术有机地结合的商业化产品尚未出现。