化工专业搜索引擎索引技术的研究与实现

来源 :北京化工大学 | 被引量 : 4次 | 上传用户:nimin518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,网络上的资源日益丰富,各类搜索引擎应运而生,并迅速发展壮大。以百度,Google为代表的综合性搜索引擎搜索范围几乎涵盖了各个领域。但是,这些综合性搜索引擎在检索某一特定领域的信息时,无论是检索效率还是检索精度都无法满足人们的需要。为了进一步挖掘某一专业领域的网络信息,发展出了具有领域特点的专业搜索引擎。化工专业搜索引擎主要用于检索网络上化工领域相关信息。本文在深入了解搜索引擎相关索引技术的基础上,对Lucene开源源代码进行研究与实践,分析了Lucene的系统组织结构、基本数据类型、索引内存结构、索引数据库的文件结构。深刻理解其索引过程以及索引方式,掌握了索引权重的控制、索引优化的方法。在此基础上,对源代码进行了创新性的改进,设计了用多索引器对文档进行索引的机制,有效地缩短了索引时间,改进了索引库词典文件中词条默认的排序方式,有效地减少了检索的响应时间,为待索引化工专业文档设置权值,有效地提高了检索化工信息的精度,创建了有利于化工专业信息检索的索引库。本文实现的索引器可以快速地为化工文档库建立高性能的倒排索引库,不仅适用于化工专业搜索引擎,而且适用于化工专业文献检索系统,对其他专业搜索引擎索引库的建立也有一定的参考作用。
其他文献
在很多流媒体应用中,音视频需要交织在一起编码、传输和解码,而且这样的应用往往在硬件资源相对有限的DSP (Digital Signal Processing, DSP)芯片上实现。为了在资源有限的DS
随着网络访问流量的迅猛增长和云计算技术的逐步推进,网络应用在多节点的情况下如何为用户提供一致性的服务变得日益重要起来。本文通过研究业界流行的Session一致性解决方案
随着互联网规模的增长和计算机技术的提高,用户对网络的需求也产生了相应的变化。宽带的普及和网络传输水平的提高使得高宽带多媒体应用成为可能。多媒体技术的发展与宽带的
服务组件架构SCA(Service Component Architecture)是一组规范,由IBM、BEA、Oracle、SAP等国外著名企业参加的OSOA(Open ServiceOriented Architecturel组织起草并规范。SCA
Mashup服务是一种将来源不同的Web API数据内容服务进行集成开发而形成的Web应用,是一种新型的Web服务。它从外界其他数据源得到数据内容服务,并将这些数据源的内容服务进行
随着业务流程技术的快速发展和广泛应用,用户可更高效的构建更新业务流程管理系统,从而积累了大量跨领域异构业务流程,根据参考流程检索出相似流程(流程检索)这一需求也日益
随着单片机的广泛应用,社会对单片机开发人员的需求越来越大,对他们的要求也越来越高,如何培养高素质的单片机开发人才对高校是十分重要和迫切的。目前高校的单片机教学依然
股票是市场经济的产物,从诞生的那天起就牵动着数以千万投资者的心。股票投资的收益与风险往往是成正比的,即投资收益越高,可能冒的风险越大。个人投资者和机构投资者时刻关心股
近年来,随着多媒体技术和互联网的飞速发展,产生的数字图像数量正以惊人的速度增长。这些图像在军用及民用各个领域都有着重要的作用。如何对图像进行有效的检索,已成为国际
随着市场竞争的日益激烈,面向顾客订货的、多品种、小批量生产己经成为21世纪的主导生产模式。相应地,制造企业正向着精益生产和敏捷制造的方向发展。在这种生产环境下,如何安排