论文部分内容阅读
互联网已成为企业(组织)获取资讯知识的重要平台,但是现有的这类知识获取工具(代理)不具备通用性,且对于不同领域知识的获取没有灵活的框架和工具。本文针对该问题,运用元搜索,文本聚类,网页内容抽取等方法和技术将知识获取、分析归类等集成起来,提出了完整的知识获取体系,并构建了灵活的企业资讯知识获取平台,解决了企业(组织)从互联网上获取不同领域知识的问题。本文将互联网作为资讯知识的“矿藏”,围绕从互联网获取外源知识这一核心问题,分析了现有一些方法和工具的不足,提出了各个阶段中对应的解决方法和技术。本文主要从以下几个方面开展研究工作:(1)在知识获取过程中,针对当前搜索引擎覆盖率低,个性化服务不足等问题,提出了利用元搜索原理并构建领域知识库的基本方法;利用元搜索引擎的灵活性,结合概念扩展对关键词进行优化,提高了知识搜索的覆盖率;在搜索结果处理过程中,提出了针对领域知识的调用方法,并对搜索结果依据权重进行指标量化。(2)在知识处理阶段,对元搜索结果进行聚类处理,提出了基于领域内知识获取模型的聚类算法。利用向量空间模型和奇异值分解等方法,将搜索结果分派到相应的可识别的聚类主题描述中,为后续检索和处理提供便利。其中详细介绍了文本表示模型和不同的特征提取方法,并阐述了该聚类算法相对于其他聚类算法的优点,说明其应用于互联网知识获取系统中是合适的。(3)在结果网页的处理阶段,提出了基于节点特征分析的内容抽取方法,该方法的准确性和精确度都达到了系统的要求。将其与基于包装器的抽取方法结合起来,能够自动高效地完成网页主题信息抽取任务。最后,设计并实现了一个基于元搜索的组织知识获取系统,对设计的系统进行了不同领域知识库的试验,对返回的结果和聚类的效果进行了评价,取得了良好的效果。