论文部分内容阅读
众所周知,新闻是各国门户网站之间主要的竞争内容,即使到了赢利方式相对多元化的今天,新闻仍然被公认为门户网站的核心竞争力。现如今,新闻竞争已经不仅仅是门户网站之间的事,而且搜索引擎在新闻搜索领域的竞争,也越来越激烈。新闻搜索,顾名思义就是根据关键词搜索相关新闻。作为除电视、报纸、广播之外的第四大媒体,互联网已经成为人们获取新闻信息的主要来源。目前,怎样从浩瀚的网络信息海洋中迅速方便地查找到自己想要了解的新闻是一个棘手且热门的问题,这成为新闻搜索引擎的基本任务。有重大事件发生时,如何使用户及时得到最新消息,也是当今新闻服务所关心的问题。由于通用搜索引擎的局限性——试图索引全部Web并试图服务于涉及所有主题的查询请求,它已很难跟上Web的增长速度,对各类查询的回答能力越来越有限。因此,专题搜索引擎就此产生,并成为近几年Web信息检索领域里研究和开发的热点。本论文总结和分析了自然语言处理、文本分类、个性化检索等相关理论和技术,以通用搜索引擎——专题搜索引擎——新闻搜索引擎为论述主线,详细介绍了新闻搜索引擎,并研究与实现了基于主题的新闻搜索引擎的原型系统。本文的主要工作概括如下:①对于本系统中涉及到的自然语言处理技术、文本分类技术、用户兴趣挖掘技术、信息推送技术等做了详细地讨论与研究。②在对收集的新闻网页进行分类处理时,本文利用统计语言模型中的bigram模型,针对传统的向量空间模型在计算文本相似度时假设特征项相互独立的缺点,并加入平滑技术,提出了一种新的利用词对及词序信息来改善文本分类结果的方法。③针对现如今的多数网上信息服务处于被动的缺点,本系统对于邮件用户实现了信息的主动服务功能。④按照用户的查询关键词和存储于用户信息库中的以往的查询关键词进行查询扩展,寻找适当的关键词组合来构成该用户的新闻检索主题,来进一步完善检索结果,以期使查询返回的结果能够更符合用户的检索要求,最终方便网络新闻用户。⑤基于以上所述的一些改进,本文初步实现了一个基于主题的新闻搜索引擎的原型系统。