一种面向新闻源自动发现的搜索引擎的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：phenix519

【摘要】

：

伴随着互联网的发展，新闻搜索引擎已成为人们日常生活中获取新闻的一个重要方式。但目．前的新闻搜索引擎一般是面向全部的网民，在新闻源的选择上粒度较大，对特定区域内的新闻搜集

【作者】

：

关方兴

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2007年期

【关键词】

：

新闻源搜索引擎新闻搜索引擎新闻网页网页信息提取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

伴随着互联网的发展，新闻搜索引擎已成为人们日常生活中获取新闻的一个重要方式。但目．前的新闻搜索引擎一般是面向全部的网民，在新闻源的选择上粒度较大，对特定区域内的新闻搜集并不全面。本文将新闻源从网站的级别降低到了网页级别，并提出了自动识别新闻源网页的方法。在北京大学局域网内进行了实验，设计实现了基于新闻源网页自动发现的新闻搜索引擎。在本文中，作者阐述了新闻源网页自动识别中需要利用的技术，包括网页分析、网页信息提取等。另外，作者还介绍了在设计新闻搜索引擎中的问题，详细介绍了各模块的设计思路，包括网页搜集模块、存储模块、索引模块、检索模块。本文的创新点和主要贡献如下： ●针对目前新闻搜索引擎中新闻源粒度过大的不足，提出了新闻源网页的自动发现和更新方法。 ●针对新闻网页的特点，提出了自动提取新闻标题和新闻发布时间的方法。 ●针对新闻网页与索引型网页的结构，提出了自动识别两类网页的方法。 ●针对实验中的中文分词软件的不足，通过增加词库的方式改进了分词效果。 ●针对新闻搜索引擎特点，实现了北京大学校园网内新闻网页的自动搜集和查询系统。作者开发的原型系统，有很大的改进空间，但它为下一步的研究工作提供了良好的平台。

其他文献

基于危险模式的入侵检测算法研究

生物免疫系统是一个由细胞和各种组织组成的具有分布性、自适应性、自组织性、记忆性、多样性、鲁棒性的高度复杂的系统。近年来，人们发现由于计算机的运行机理和生物体有着天

学位

计算机免疫学入侵检测危险模式检测算法检测器

网络拥塞控制及DDoS攻击防范策略研究

随着网络中有限的资源被越来越多的用户所共享使用，网络拥塞问题变得更加严重。因此，拥塞控制对网络的稳定运行至关重要，然而，即使所有的链路和数据流都采用了拥塞控制机制，仍然可

学位

拥塞控制

基于遮挡地平线技术的森林景观实时绘制研究

森林景观可视化技术在景观设计、林区规划以及其它森林经营活动中有广泛的应用。在保证场景真实感前提下，为了提高森林场景的交互性和实时性，要尽可能地减少绘制的工作量。遮挡

学位

森林景观实时绘制遮挡地平线技术虚拟地平线

基于条件随机域的地址抽取方法及实现

在自然语言处理及信息处理领域，例如信息检索、文本分类等，如何正确地识别出命名实体，一直是一项重要而又困难的研究课题。已有的研究多集中于纯文本文件，利用基于统计和基于规则

学位

信息抽取命名实体识别条件随机域概率模型多层CRF模型自然语言处理

集群负载均衡技术在千兆线速防火墙中的研究

随着互联网的迅猛发展，它在人们的日常工作、生活和娱乐中都发挥着十分重要的作用。同时网络提供给人们的服务越来越多样化，特别是多媒体技术的大规模应用，同时网络用户的大幅度

学位

集群负载均衡千兆线速防火墙网络安全网络处理器ASIC技术

基于经济优化策略的CRL管理工具的设计与实现

目前被广泛采用的PKI技术(Public Key Infrastructure-公钥基础设施)是解决Internet上安全问题的一套完整的应用方案。它采用证书管理公钥，通过第三方的可信任机构一认证中心C

学位

公钥基础设施数字认证认证中心认证注销列表经济优化策略PKI技术

量子图像置乱及伪彩色处理研究

1982年,诺贝尔物理学奖得主理查德·费曼提出,量子计算机的计算速度远远超过经典计算机。20世纪90年代,Shor提出的量子素数因子分解算法以及Grover提出的量子搜索算法,证明了

学位

量子图像处理量子图像表示量子图像置乱量子伪彩色编码

基于IEEE802.11系列协议的无线局域网性能改进机制研究

近年来，伴随无线通信技术的快速发展，无线局域网得到了越来越多的应用。本论文研究基于IEEE802.11系列协议的无线局域网的性能改进机制。本文的主要贡献和创新点如下：　　提出

学位

无线局域

基于WM算法的中文信息过滤技术研究

互联网的高速发展使其成为世界上资源最丰富的信息网络，其蕴涵的大量共享资源，已成为人类获得信息的重要途径之一。随之带来的信息安全问题也日益严重，这其中不仅包括计算机病毒

学位

WM算法中文信息信息过滤模式匹配

基于RGB--D的即时定位与地图构建研究

学位

一种面向新闻源自动发现的搜索引擎的设计与实现

与本文相关的学术论文