论文部分内容阅读
随着互联网上信息量的激增和搜索引擎用户数量的迅速增长,传统Web搜索引擎的局限性逐渐暴露出来:一方面,由于传统搜索引擎提供的是“面向搜索”而非“面向用户”的服务,使得用户常面临着“信息过载”与“资源迷向”问题。另一方面,由于采用的是基于关键词字符匹配而非基于语义的信息搜索技术,使得传统搜索引擎面临两个更深层次的问题与挑战:“忠实表达”与“表达差异”问题。正是在此背景和需求下,个性化搜索引擎和语义搜索引擎应势而出,用来改进传统的网络搜索技术。如今,个性化搜索引擎和语义搜索引擎已是新一代搜索引擎研究中的热点。在语义搜索引擎中,搜索结果的质量是至关重要的,并且主要依赖于领域本体。然而,由于语义搜索引擎中的领域本体往往无法及时有效更新,从而不能保证为语义搜索提供足够的语义支撑,这常常成为劣质搜索结果的根源。本文主要围绕个性化语义搜索和本体进化展开研究,具体内容如下:(1)个性化与语义相结合的个性化语义搜索方法研究针对个性化搜索中的主题漂移问题和语义搜索中的“面向搜索”而非“面向用户”的缺陷,提出个性化和语义相结合的新型搜索方式,融合了个性化元素和语义中的客观性元素,在实现“面向用户”搜索的同时有效解决了主题漂移现象。在借鉴协同过滤领域中的最近邻集合方法的基础上,提出了用户群聚类算法,从而实现了搜索关键词的启发式扩展。通过本研究中所提出的基于日志挖掘、用户群聚类和概念相似度的多维度个性化语义搜索方式和多维度二次排序算法,能够有效提高搜索结果的准确率和搜索结果排序的正确率,旨在最大限度的提高用户搜索的满意度。(2)本体进化新方法研究针对现有的基于本体的语义搜索引擎只是通过与其它本体的结合去改进或纠正系统中本体,而不是使用领域内的新知识来进化本体的不足,提出一个能够直接从网络搜索中所获取的新语义来进化系统中本体,这些本体可以是任意的所感兴趣的领域本体。将用户的搜索结果经过网页解析、去重、内容抽取、消除噪音、查询本体匹配等预处理后形成知识元组,并通过语料库包装器将其封装成一个语料库,作为本体进化的来源。本体进化过程包括本体分类学习和本体融合两个阶段,通过本体分类学习使语料库中的语义形成有向无环分类图,经过本体融合将分类图中的新语义与系统中本体相融合,利用领域内的新知识不断进化本体,从而为高质量的语义搜索提供足够的语义支撑。(3)本体异构的解决方案研究针对本体映射中只能解决部分异构的问题,提出了基于结构映射策略、基于语法映射策略和基于机器学习映射策略的多策略映射方法同时处理解释层上的不一致和概念层上的不一致,充分解决了异构问题。(4)个性化语义搜索引擎的原型实现和应用研究基于以上研究基础,设计并实现了本体进化驱动的个性化语义搜索引擎原型系统,在应用环境中进行了综合测试,并对所研究的理论成果进行了实验验证。本研究中所提出的个性化语义搜索和本体进化方面的理论成果对于探索并解决智能化、人性化、知识化的搜索体验与服务具有一定的理论和实际意义。同时,研究中所提出的一些技术与方法对于Web搜索的相关理论研究具有较为广泛的适用性和参考价值。