古建主题搜索引擎研究

来源 :北京化工大学 | 被引量 : 1次 | 上传用户:liuzhao256
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是人们获取海量网络信息的首要工具,是网络研究和应用的关键内容。目前随着Internet信息的爆炸增长以及信息多元化的发展,主题搜索引擎正成为研究热点与发展趋势。本文就中文Web主题信息获取与检索技术进行了一些研究,并设计和实现了一个以主题信息采集AACrawler为核心的古建主题搜索引擎AAS(AncientArchitecture Search)。 本文首先介绍了目前综合型搜索引擎的发展、现状、分类、工作原理并指出其不足与发展方向。随之对主题型搜索引擎产生背景与工作方式作了概述,并重点探讨了信息检索模型、主题信息采集策略、加权索引及检索技术等搜索引擎关键技术。在此基础上,利用Java的多线程技术,并结合hmtl文档分析、首页关联、内容预测、数据库全文索引等各种技术,给出了一种比较理想的主题搜索引擎设计方案并实现了一个古建主题搜索引擎系统AAS。该系统面向古建领域,保证了对古建信息的完全收录与及时更新,避免了强大的搜索噪音,提高了检索效率,能快、全、准地提供古建专题信息查询。 针对古建专业面临的生僻汉字难以信息化处理的问题,本文还提出了基于BNF范式的汉字编码,从而实现了生僻汉字在搜索引擎中的输入、存储和搜索。 最后本文总结了古建主题搜索引擎系统的研究和开发经验,并指出了系统的应用前景以及下一步研究的方向。
其他文献
因特网与移动通信技术的高度融合,促进了移动电子商务的产生。由于无线信道的低质量和移动终端设备的限制,移动电子商务的安全问题变得十分重要并需要在实践中加以解决。因此
粗糙集是一种处理不精确、不确定数据的数学工具。经典的粗糙集理论是针对完备信息系统,进行数据分析和处理的,但在现实中,由于数据获取手段等条件的限制,大多的信息系统都是
垃圾邮件过滤是当前互联网应用中急需解决的一个重要课题,日益受到人们的关注。对于经常使用电子邮件的用户来说,垃圾邮件已经不是什么陌生的事物了。一般而言,垃圾邮件是指同一
学位
近些年来,计算机图像的检测和分割在图像处理中起着越来越重要的作用。由于物体形状的多样性以及图像质量的不同,传统的图像检测和分割方法,如边缘检测、阈值方法等,用来提取
随着计算机软、硬件水平的不断发展,人们对地形的真实性要求也就越来越高。具有真实感的三维地形在飞行模拟训练、军事中战场模拟、气象预报、地理数据分析等领域有着非常广泛
色彩管理是实现色彩跨设备及跨平台复现的重要方法。一直以来色彩的高保真传输和复现是色彩管理人员的研究课题和追求目标。不同的设备有着各自不同的设备特性。而且,即便是同一种设备,使用时间长短不一样,使用的耗材不一样,其显色特性都是不一样的。这样就造成原来完全相同的色彩在不同的设备上会给人眼产生完全不同的色彩感觉。色彩管理的最终目的,是为了保证色彩能在不同的设备之间准确的传输和复现,希望确保相同的色彩在不
随着计算机和网络通信技术的发展,IPTV即交互式网络电视在近几年来成长迅速,日益成为宽带多媒体领域的热点。电子节目指南(Electronic Program Guide,EPG)是构成交互式网络电
数据库系统是为适应数据处理的需要而发展起来的一种理想的数据处理的核心技术,它的出现是计算机应用的一个里程牌,使得计算机应用从以科学计算为主转向以数据处理为主。随着
查询包含问题是查询优化的基本算法问题。在数据库理论方面,约束关系模型的不等式合取查询包含问题已经得到解决。然而,由于数据库理论与实际的数据库系统存在较大差异,十多
定理证明器是用于证明数学定理的正确性的计算机程序。进几十年来,对计算机硬件、软件形式化验证等日益增长的需求使得大量形式化工具涌现出来。定理证明器是一种重要的形式