基于主题的新闻搜索引擎的研究与实现

来源 :扬州大学 | 被引量 : 0次 | 上传用户:zhai4053
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
众所周知,新闻是各国门户网站之间主要的竞争内容,即使到了赢利方式相对多元化的今天,新闻仍然被公认为门户网站的核心竞争力。现如今,新闻竞争已经不仅仅是门户网站之间的事,而且搜索引擎在新闻搜索领域的竞争,也越来越激烈。新闻搜索,顾名思义就是根据关键词搜索相关新闻。作为除电视、报纸、广播之外的第四大媒体,互联网已经成为人们获取新闻信息的主要来源。目前,怎样从浩瀚的网络信息海洋中迅速方便地查找到自己想要了解的新闻是一个棘手且热门的问题,这成为新闻搜索引擎的基本任务。有重大事件发生时,如何使用户及时得到最新消息,也是当今新闻服务所关心的问题。由于通用搜索引擎的局限性——试图索引全部Web并试图服务于涉及所有主题的查询请求,它已很难跟上Web的增长速度,对各类查询的回答能力越来越有限。因此,专题搜索引擎就此产生,并成为近几年Web信息检索领域里研究和开发的热点。本论文总结和分析了自然语言处理、文本分类、个性化检索等相关理论和技术,以通用搜索引擎——专题搜索引擎——新闻搜索引擎为论述主线,详细介绍了新闻搜索引擎,并研究与实现了基于主题的新闻搜索引擎的原型系统。本文的主要工作概括如下:①对于本系统中涉及到的自然语言处理技术、文本分类技术、用户兴趣挖掘技术、信息推送技术等做了详细地讨论与研究。②在对收集的新闻网页进行分类处理时,本文利用统计语言模型中的bigram模型,针对传统的向量空间模型在计算文本相似度时假设特征项相互独立的缺点,并加入平滑技术,提出了一种新的利用词对及词序信息来改善文本分类结果的方法。③针对现如今的多数网上信息服务处于被动的缺点,本系统对于邮件用户实现了信息的主动服务功能。④按照用户的查询关键词和存储于用户信息库中的以往的查询关键词进行查询扩展,寻找适当的关键词组合来构成该用户的新闻检索主题,来进一步完善检索结果,以期使查询返回的结果能够更符合用户的检索要求,最终方便网络新闻用户。⑤基于以上所述的一些改进,本文初步实现了一个基于主题的新闻搜索引擎的原型系统。
其他文献
微博已经成为人们分享、传播和获取信息的平台。很多的热点话题、敏感话题以及谣言等首先从微博引起,其中的不良信息对社会造成了很大的危害。因此如何在海量的信息中发现热
在现代各种通信系统中,语音编码一直是一项重要的、必不可少的业务。本文综述了语音编码发展的现状,全面系统地分析、介绍了改进的多带激励语音编码的原理,重点研究了多带激
随着技术的发展,物联网逐渐深入到社会的各个领域。物联网的范围越广,容纳的物品就会越多。物联网所采集的数据量就会越大,计算和控制能力就会越强。目前,世界上有很多不具备
并行程序设计是并行计算的两大难题之一,也是并行计算领域的一个研究热点。并行程序设计的困难主要存在于两个方面:问题的并行求解和并行程序的编码。问题并行求解的困难主要源
随着计算机网络尤其是Internet的迅猛发展,基于网络的分布式数据库系统在各个领域都得到了广泛的应用,并且它的节点规模越来越大,在整个社会生活中正发挥着日益突出的作用。
在企业信息化建设中,随着企业规模的增大,部署到企业所需要的服务器相应的也会增加,此时会产生服务器资源浪费、维护成本高、灵活性低等影响企业信息化建设的问题出现。另一
自从1996年第一个即时通讯软件ICQ出现以来,即时通讯(InstantMessaging)这种以Internet网络及其他有线、无线网络为基础的,以实时方式与其他在线用户交流、传递信息的通讯方式,
群搜索优化算法(Group Search Optimization,GSO)是受到动物觅食机制的启发提出的一种新颖的群智能优化算法。因为其种群结构独特,在求解优化问题时性能表现突出,因此被人们
计算机支持的协作学习(CSCL)是远程教育中一种有效的教学模式,学生通过协作方式进行学习达到学习成果的最大化。目前对于协作学习系统的研究已经取得了很大的进展,并且开发了一
随着视频编解码技术的发展,高清晰度视频(HDV)近年来在全球迅速升温,高清晰度视频也要求有相应的高分辨率显示设备和播放软件来给予显示播放。但高端的大屏幕电视墙的昂贵的