论文部分内容阅读
伴随着互联网的发展,新闻搜索引擎已成为人们日常生活中获取新闻的一个重要方式。但目.前的新闻搜索引擎一般是面向全部的网民,在新闻源的选择上粒度较大,对特定区域内的新闻搜集并不全面。本文将新闻源从网站的级别降低到了网页级别,并提出了自动识别新闻源网页的方法。在北京大学局域网内进行了实验,设计实现了基于新闻源网页自动发现的新闻搜索引擎。
在本文中,作者阐述了新闻源网页自动识别中需要利用的技术,包括网页分析、网页信息提取等。另外,作者还介绍了在设计新闻搜索引擎中的问题,详细介绍了各模块的设计思路,包括网页搜集模块、存储模块、索引模块、检索模块。本文的创新点和主要贡献如下:
●针对目前新闻搜索引擎中新闻源粒度过大的不足,提出了新闻源网页的自动发现和更新方法。
●针对新闻网页的特点,提出了自动提取新闻标题和新闻发布时间的方法。
●针对新闻网页与索引型网页的结构,提出了自动识别两类网页的方法。
●针对实验中的中文分词软件的不足,通过增加词库的方式改进了分词效果。
●针对新闻搜索引擎特点,实现了北京大学校园网内新闻网页的自动搜集和查询系统。
作者开发的原型系统,有很大的改进空间,但它为下一步的研究工作提供了良好的平台。