论文部分内容阅读
近年来由于网络上的信息量迅猛增加和网络信息组织的无序性,用户不容易从传统搜索引擎返回的检索结果中找到自己所需要的信息。垂直搜索引擎的出现和发展,一定程度上克服了传统搜索引擎的数据杂乱等弱点。然而现在的垂直搜索引擎基本上还是基于关键字匹配的方式,无法克服关键字匹配方式固有的问题;垂直搜索引擎对数据质量的要求比较高,现在通过大量人工参与来提高数据质量,使得系统的维护成本非常高。本文提出了一种提高垂直搜索引擎数据质量和检索效果的语义计算方法。通过某些语义词典或者是统计方法生成词语语义相似度矩阵,利用改进的文本语义相似度计算方法计算文本之间在语义层面上的相似程度。使用这种方法在垂直搜索引擎的数据处理阶段对文本进行语义层面处理,提高数据的质量;对数据进行分类和聚类处理,以提高检索效率;在检索阶段,可以实现语义层面的检索,克服了基础关键字匹配方式带来的查全率和查准率不高等问题。文中详细介绍了如何利用语义计算技术解决垂直搜索引擎中的一些具体问题。本文还介绍了我们设计的一个农业方面的垂直搜索引擎。这个搜索引擎成功地融入了一些语义计算技术,取得了良好效果,目前这个搜索引擎已经可以稳定地对外提供高质量的检索服务。
本文首先介绍了关于搜索引擎和语义计算方面的一些基本知识,结合垂直搜索引擎的特点分析了引入语义计算技术的必要性和可行性;介绍了文本检索和语义计算方面的相关成果,讨论它们的应用价值或者是可以借鉴地方。然后针对传统的向量空间模型中文本相似度计算方法的不足,提出了一种基于语义的文本相似度计算方法,并讨论了这种方法中词语相似度矩阵的相关问题,对如何生成词语相似度矩阵进行分析,并通过实验和分析指出了这些方法的优劣和针对不同类型的文本数据进行语义计算的价值。接下来针对垂直搜索引擎中的具体问题,举例说明了语义计算技术在垂直搜索引擎设计中的具体使用方法,并通过实验分析了这些方法在具体应用中的特点。然后介绍了我们基于语义计算的农业垂直搜索引擎从数据处理到文本检索的整个系统的设计思想和整体设计框架,并讨论了一些具体问题的处理方式,然后通过一系列实验证明了我们设计的农业垂直搜索引擎的实用性和设计方法上的先进性。最后对本文进行了总结,并指出了需要进一步研究的一些问题。