一种面向新闻源自动发现的搜索引擎的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:phenix519
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的发展,新闻搜索引擎已成为人们日常生活中获取新闻的一个重要方式。但目.前的新闻搜索引擎一般是面向全部的网民,在新闻源的选择上粒度较大,对特定区域内的新闻搜集并不全面。本文将新闻源从网站的级别降低到了网页级别,并提出了自动识别新闻源网页的方法。在北京大学局域网内进行了实验,设计实现了基于新闻源网页自动发现的新闻搜索引擎。 在本文中,作者阐述了新闻源网页自动识别中需要利用的技术,包括网页分析、网页信息提取等。另外,作者还介绍了在设计新闻搜索引擎中的问题,详细介绍了各模块的设计思路,包括网页搜集模块、存储模块、索引模块、检索模块。本文的创新点和主要贡献如下: ●针对目前新闻搜索引擎中新闻源粒度过大的不足,提出了新闻源网页的自动发现和更新方法。 ●针对新闻网页的特点,提出了自动提取新闻标题和新闻发布时间的方法。 ●针对新闻网页与索引型网页的结构,提出了自动识别两类网页的方法。 ●针对实验中的中文分词软件的不足,通过增加词库的方式改进了分词效果。 ●针对新闻搜索引擎特点,实现了北京大学校园网内新闻网页的自动搜集和查询系统。 作者开发的原型系统,有很大的改进空间,但它为下一步的研究工作提供了良好的平台。
其他文献
生物免疫系统是一个由细胞和各种组织组成的具有分布性、自适应性、自组织性、记忆性、多样性、鲁棒性的高度复杂的系统。近年来,人们发现由于计算机的运行机理和生物体有着天
随着网络中有限的资源被越来越多的用户所共享使用,网络拥塞问题变得更加严重。因此,拥塞控制对网络的稳定运行至关重要,然而,即使所有的链路和数据流都采用了拥塞控制机制,仍然可
学位
森林景观可视化技术在景观设计、林区规划以及其它森林经营活动中有广泛的应用。在保证场景真实感前提下,为了提高森林场景的交互性和实时性,要尽可能地减少绘制的工作量。遮挡
在自然语言处理及信息处理领域,例如信息检索、文本分类等,如何正确地识别出命名实体,一直是一项重要而又困难的研究课题。已有的研究多集中于纯文本文件,利用基于统计和基于规则
随着互联网的迅猛发展,它在人们的日常工作、生活和娱乐中都发挥着十分重要的作用。同时网络提供给人们的服务越来越多样化,特别是多媒体技术的大规模应用,同时网络用户的大幅度
目前被广泛采用的PKI技术(Public Key Infrastructure-公钥基础设施)是解决Internet上安全问题的一套完整的应用方案。它采用证书管理公钥,通过第三方的可信任机构一认证中心C
1982年,诺贝尔物理学奖得主理查德·费曼提出,量子计算机的计算速度远远超过经典计算机。20世纪90年代,Shor提出的量子素数因子分解算法以及Grover提出的量子搜索算法,证明了
近年来,伴随无线通信技术的快速发展,无线局域网得到了越来越多的应用。本论文研究基于IEEE802.11系列协议的无线局域网的性能改进机制。本文的主要贡献和创新点如下:   提出
学位
互联网的高速发展使其成为世界上资源最丰富的信息网络,其蕴涵的大量共享资源,已成为人类获得信息的重要途径之一。随之带来的信息安全问题也日益严重,这其中不仅包括计算机病毒
学位