基于MySQL新闻搜索引擎的设计与实现

被引量 : 0次 | 上传用户:yudsly2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代信息技术的飞速发展,互联网络上的信息量和类型正在发生爆炸性的增长。这为人们的日常生活、工作以及学习带来了极大的便利。但是在信息量爆增的同时也带来了新的问题。比如如何对这些海量的信息进行统一的管理,如何将这些分散的资源建立索引,以及如何从海量的信息资源中准确地获取需要的信息等等。搜索引擎是解决这些问题的关键技术,但是传统的通用搜索引擎是对Web上的所有种类的信息都进行搜集,并面向所有不同层次的用户,这种想做的面面俱到的努力在海量信息面前变得越来越没有突破性进展。普通的用户对信息的关注程度和宽度是比较集中的。所以面向特定领域和特定需求的专业搜索引擎的概念应用而生。与传统的通用搜索引擎所不同的地方是专业搜索引擎只会收集与某个主题相关的Web上的信息,在收集信息时并不是来者便收,而是通过分析判断信息内容是否与特定主题相关,并只对相关的信息进行进一步处理。因此,专业搜索引擎无论在资源消耗,还是在查询准确度上都有了显著的提高。本文的主要研究工作就是面向专业搜索引擎,且以新闻为搜索主题。在研究过程中,通过对搜索引擎中关键技术进行深入的理论的学习和实践,进一步加深对搜索引擎领域的了解。在本文中的新闻专业搜索引擎中,选择新浪新闻网站作为网络爬虫的入口地址,对其进行有针对性地收集新闻页面。收集页面的工作由专业的新闻网络爬虫完成,它从新闻首页开始,提取出其中的新闻链接地址,并将这些链接地址存入到待爬取的队列之中,通过三层的深度优先搜索算法对Web网站进行遍历。之后,爬虫还将对收集后的页面进行净化处理和提取有效信息,最后由索引器建立搜索引擎中非常核心的数据:倒排索引。搜索引擎最终是要面向普通用户的,所以,设计好一个用户体验度好的查询接口为用户提供新闻查询服务也是非常必须的任务。本文中详细介绍了网络爬虫是设计和实现,网页的净化和信息抽取以及索引库的构建。这些技术都是目前自然语言处理和人工智能方面的研究热点,通过对这些技术和理论的学习,加深对专业的技能。本面向新闻内容的搜索引擎从最简单的技术着手,逐步实现了搜索引擎这一庞杂系统中的关键模块,实验结果表明系统具有一定的准确率,达到了良好的效果。
其他文献
<正>麒麟西瓜是采用全生育期大棚覆盖,滴灌施肥,达到早熟、高产、品质佳、一茬多收的高新技术。几年来在上饶市发展迅速,是农业生产上的一大亮点,每年都能成就一批10万元户、
科技馆是广大公众接受科普教育的重要场所,其发展历程与科学技术发展过程分不开,特别是电子技术的日新月异,使科技馆展品具有更多的互动、教育和娱乐功能。本文探讨电子技术
志贺直哉作为白桦派代表作家之一,小说《暗夜行路》作为他的唯一一部长篇私小说,主要叙述了主人公从黑暗走向光明的心路历程,体现了志贺直哉从"对立的自然观"向"调和的自然观
高校学生情商的培养是一个极具现实性和迫切性的问题。而高校教师对学生情商的形成和发展会起到不可忽视的作用。从当前高校学生实际出发,阐述情商理论,根据对四所高校学生的
目的探讨体外授精-胚胎移植(IVF-ET)中,选择性双胚胎移植对妊娠结局的影响。方法收集在上海市同济医院生殖中心从2012年6月至2014年5月行两枚第3天胚胎移植的517个周期,按照
当前农村基层组织制度变革的经验基础具有四个基本特征:小农户分散经营的经济社会性质未发生根本改变,农村阶层分化趋势加剧,农民利益结构异质化程度显著提升,以及农村边缘群
目的:探讨肿瘤标志物胸苷激酶1(TK1)在肺癌患者血清中的水平及对肺癌的诊断价值。方法:检测43例肺癌患者、38例健康对照者血清TK1、CYFRA21-1、NSE的水平。TK1测定采用免疫印
<正> 由于研究者的共同努力,东北沦陷时期的文学研究已经取得了一定的成绩,基本上把东北沦陷14年的文坛状况、文学思潮的起伏消长、各个阶段的文学现象,以及曲折的发展历程,
<正>语文凭借着多彩的语言、丰厚的人文、绵延的情感、深邃的哲思滋润着孩子的心田。"不到园林,怎知春色如许?"语文姹紫嫣红、春意盎然,教师要引领着孩子步入"园林",让孩子去
根据系统、规范的质量保证分级方法对设备进行分级,可以合理地分配有限的资源,确保核电站关键设备的质量。本文结合对我国岭澳核电站一期工程项目中常规设备的分级方法的介绍