论文部分内容阅读
随着博客在中国的迅猛发展,写博客已经变成一些博客爱好者日常生活的一部分,通过在博客中分享自己独到的想法,挖掘社会中的真实一面,已获得越来越多人的关注,各大门户网站,比如搜狐、新浪、网易都推出了自己的博客栏目,并在首页占据重要位置。随着博客页面成指数级地增长,如何在数量众多的博客页面中找到自己感兴趣的博客成了一个很大的问题,光靠传统的搜索引擎或者是博客网站的站内搜索远远达不到人们的需要,急需一种针对博客的专业搜索引擎,能达到在语义层次上收集、组织和检索博客资源的目的,提高博客搜索的质量、更深层次地挖掘博客潜力和更加合理地对博客进行排序,这已变成博客发展面临的最大挑战。本文首先介绍了语义网及搜索相关技术,包括语义网相关介绍、语义网中本体相关知识和搜索引擎相关原理和技术。其次,通过分析国内外博客搜索引擎的发展情况,找出了目前博客搜索中存在的问题,结合开源搜索工具Lucene和语义网中本体相关技术,提出了基于语义网的博客搜索模型的想法,并对关键子模型进行了详细的分析与构建,包括原始资源收集模块、索引建立模块、集成语义的综合博客主模块和用户检索模块。重点在索引建立和页面排序模块,提出了本体意群这一概念和集成语义的综合博客主模型,通过建立本体意群到文本的索引,极大地提高博客搜索的搜准率,集成语义的综合博客主模型对于页面排序起着相当重要的作用,能更深层次地挖掘博客的内在价值。接着对模型中涉及的关键技术与算法进行了研究,采用混合本体的方式构建博客本体,包括领域本体和语义词典,对语义词典的结构和相关功能也进行了分析。在算法方面,对博客页面排序算法和基于本体意群的索引算法进行了研究。最后对博客营销的产生背景以及博客本体在博客营销中的应用进行了分析,构建一个基于RSS和本体技术的博客营销模型。还对博客营销的发展前景进行了预测,这些研究对基于语义网的博客搜索系统的实现提供了良好的理论和应用基础。