论文部分内容阅读
随着Internet和Web技术的飞速发展和普及,信息获取已经从手工获取、计算机获取,发展到网络获取。在计算机获取时期,特定领域信息处理主要表现为某领域的专业人员在特定领域的计算机软件辅助下进行信息获取、综合与检索。进入网络信息时代,各种各样的信息越来越集中发布到网络上,人们在同一个平台上可以互动与合作。于是,如何在以网络为中心的信息时代,让特定领域信息处理更具有专业准确性,功能更丰富,使用更便捷人性化,成为具有重大价值的研究课题。
为了在浩如烟海的网络世界中筛选出所需的信息,需要现代信息获取技术的主要工具——搜索引擎的帮助。但传统搜索引擎存在返回信息量过大、查询不准确、深度不够等问题,不能满足特定领域的信息处理的需求。为此,本文结合新媒体的特征和Web2.0的思想,研究了网络信息处理的关键技术,提出了一种面向特定领域(旅游信息服务)的信息收集、提取、查询、检索、聚合和展现的网络信息处理整体解决方案。该系统充分挖掘互联网信息中的地理位置特征,改善检索结果的组织,提高了查准率,丰富了信息的检索模式。特定领域网络信息处理系统注重有用信息的获取、管理和分享,重视用户体验、用户参与,能更好的适应网络信息形态的新特点,满足用户个性化的需求。本文主要研究工作和成果如下:
1、设计了垂直搜索引擎系统模型及强结构化处理方法;通过分析“正文式”网页的页面结构特征,提出并实现了基于快速傅立叶变换(FFT)的网页有效信息提取算法。该算法采用窗口分段的方法,基于统计学原理和FFT求解最佳正文区间。实验结果表明,此方法能比较准确的提取“正文式”网页的有效信息;无须对具体网页结构进行分析即可提取网页正文内容,具有良好的通用性。
2、设计并实现了二维网络信息聚合模型,丰富了信息的检索模式,改善了检索结果的组织。通过架构描述、针对旅游领域的系统设计和实验示范表明:二维地理模型与网络信息聚合技术的结合,不仅丰富了网络信息聚合的模式,还优化了用户的交互体验,提高了检索效率。
3、构建了互动问答知识系统。该系统融合注重用户参与、用户建设、用户体验等Web2.0的思想,利用自然语言理解技术对知识库进行智能搜索,自动挑选最佳答案,从而帮助用户方便、快捷、准确地找到所提问题的答案,利用用户的评价反馈完善动态知识库。
4、把本文的研究成果,应用到一个商用平台——新媒体旅游增值服务网站的设计与实现之中。作为本文网络信息处理系统的研究与实践平台,该应用实例同时使我们更明确了研究方向和应用前景。该商用网站从2006年6月开始运营,日平均独立IP访问数大于3万(截止到2007年4月底)。该网站利用聚合、二维聚合以及垂直搜索等技术,提供了丰富有效的旅游信息和搜索功能;用户可以通过该网站用个人电脑及手机搜索景点、酒店、旅游线路、机票、火车票等旅游信息,并进行即时互动交流。