基于Solaris的中英文搜索引擎的设计与实现

被引量 : 0次 | 上传用户:tony_m_wang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet网上的知识呈几何级数式的增长,搜索引擎作为一个查询用户所需信息的工具,其作用性越来越受到人们的重视;目前,一个优秀的搜索引擎能够大大地提高一个网站的点击率,搜索引擎已经成为一个网站的门户。而随着中文在网上的逐渐流行,如何快速有效地检索中文信息成为一个热点问题。搜索引擎一般由Spider、索引库、检索器和用户接口组成。Spider从Web上下载页面;分析器对下载页面的内容进行分析以用于建立索引;索引器将文档表示为一种便于检索的方式并存储在索引数据库中;检索器实现用户查询关键词和目标文档匹配度的计算;用户接口为用户提供一个输入查询请求,定制查询结果的Web页面并将查询结果格式化后返回给浏览器。本次毕业设计的主要任务是对基于Solaris的中英文搜索引擎的改进。该搜索引擎自设计之初以来,经过了一系列的改进,性能逐步提高;而功能也日趋完善——已经具备的英文单词查询、英文“与”查询、英文“或”查询、中文单字查询、中文单词查询。我们的最主要任务是在此基础上增加中文“与”查询和中文“或”查询两项新功能。通过对源代码的分析,我们在保持原搜索引擎总体设计不变的情况下,在原有功能基础上,针对中英文信息表达的区别,对中文汉字的三级索引结构采用折衷处理的算法思想来实现中文布尔查询功能,以提高中文查询的检索速度和准确性。另外还修正了原程序的一些纰漏,同时介绍了对用户界面的改善并就下一步工作进行探讨。在第一章中介绍了搜索引擎系统的概念、分类、一般检索过程和发展趋势;第二章论述了本搜索引擎系统的设计与实现,介绍了系统的总体设计框架,详细分析了系统各模块的组成、原理和具体实现,还说明了开发平台和主要开发工具;第三章介绍了实现中文布尔查询功能的算法思想,流程,以及对有关函数进行了详细说明;第四章介绍了本搜索引擎在Solaris系统上的安装与界面,以及浏览的实现;第五章介绍了对该搜索引擎系统的查询功能的调试和性能分析,以及搜索引擎目前还存在的问题和下一步的工作。
其他文献
提高财政透明度,增强与公共信息交流的“诚实性”和“共同理解性”,可以促进政府决策的科学化、民主化水平,推进我国公共财政框架的建立,提高财政运行效率,优化财政管理。鉴
目的评价标准化患者(SP)与大型开放式网络课程(MOOC)教学法相结合用于诊断学教学的效果。方法以该校开放式虚拟实验室为平台,随机选取130名学生分为联合组和对照组,各65名,分
<正>蜜汁葡萄原产日本,由日本葡萄育种家泽登睛雄用奥林匹亚×夫瑞道尼亚杂交育成。属欧美杂种。重庆超农园艺公司铜梁林果试验场于2001年引入。经多年试种,发现该品种抗病力
关于明清商人和商帮的研究,在国内外史学界都已成为重要课题,并取得了很多成果。但是对于东北地区唯一一支具有代表性的商人队伍——辽东商人,对其专门撰文论述研究的尚不多
在供应链环境中,由于消费者需求变化和市场竞争的加剧,以及信息技术的迅速发展和广泛应用,单周期产品(如容易腐烂物品、短有效期商品、以及时尚商品等)在供应链管理中越来越重要
通过对广深铁路运营这一复杂系统的分析 ,采用传统的状态转移与专家系统技术相结合的方法 ,建立了广深铁路运营仿真平台软件。软件可以很好地模拟广深线实际运营情况 ,并可对
随着国内外诸多大公司在丑闻或危机前轰然倒下,完善公司治理结构,健全监督机制日渐成为人们关注的热点。对于公司制度起步较晚,监督机制又一向十分薄弱的我国公司而言,意义更为重
张掖市位于甘肃省西部,河西走廊中段,黑河流域的中游地带,是典型的干旱区内陆河绿洲景观。张掖市农业资源十分丰富,盛产小麦、玉米、水稻、油菜、胡麻等农作物,是国家重要的商品粮
针对石油专题数据单体文件数据量大的特点,在数据备份过程中,需考虑大文件传输、传输速度以及传输中断后续传的问题。通过分析大文件传输要点及数据传输方式,提出了一种广域
"门槛"现象广泛存在于人类精神与社会文化中,但对该现象的认知和探讨并没有充分展开。范热内普在其"阈限"理论中曾对此有所关注,但在特纳对范热内普的发展中,忽略了其中"门槛