基于Hadoop的分布式全文检索及相关技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:fbyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和因特网的迅猛发展,人类积累的数据在迅速增加,在数据极大丰富的同时也带来了信息过载等问题。数据增长的另一个趋势是非结构化文档在数据中的比重日益增大,而对非结构化文档的检索缺乏像数据库检索的SQL语言这样简单的工具。全文检索系统通过对非结构化文档建立便于查询的结构,使得用户能在可接受的时间内得到与其查询相关的文档的有序列表。全文检索是解决信息过载问题的重要方法,具有较高的应用价值。本文研究了基于Hadoop的分布式全文检索系统。该系统包括数据接收前端模块、索引模块、搜索模块。数据接收前端接收数据源分发的原始文档,将文档存储在HDFS (Hadoop Distributed File System)上,并按照规则向Hadoop集群提交索引任务。索引模块分布式地建立索引,当索引任务完成之后,通知搜索模块管理索引。搜索模块负责管理索引,并负责接收并处理客户端的查询,然后分布式地搜索索引块,最后合并各个索引块的结果并返回结果列表。经测试,该系统可以实现正常的全文检索功能,但其性能还需改进。本文还研究了与全文检索系统密切相关的文件预处理模块。文件预处理模块包括文件类型识别、字符编码识别与转换和文本抽取。文件类型识别模块使用魔数和后缀名来识别文件的类型,并用MIME标准表示文件类型。字符编码识别模块利用字符编码方案的码位不同以及字符频率在不同编码中的分布等统计信息来识别文件的字符编码。文本抽取模块基于插件实现,为不同的插件编写适配函数以便为上层提供统一接口,还利用了多进程方案加快文本抽取速度。字符编码转换模块利用libiconv进行ANSI字符编码到Unicode字符编码之间的相互转换,利用分词技术和查表法实现中文简繁体转换。经测试,文件预处理的各个模块都能实现正常的功能,其性能也满足要求。
其他文献
近年来,我国铁路系统发展迅速。铁路运输里程的不断增加与铁路事故的发生,使人们对铁路安全提出了更高的要求;且随着新技术新设备在铁路系统的普遍应用,使大量数据的获取变得容
双轴同步控制技术是工业上非常重要的一项技术,对于贴片机等数控设备的开发与生产具有十分关键的意义。针对双轴同步控制十分复杂,部分研究算法过于复杂、实现不易等问题,本
随着电力电子行业的发展,用电设备对供电电源性能提出了更高的要求,传统大功率开关电源(SMPS)大多是采用硬开关、专用集成芯片的模拟电源,其可扩展性不足、功率损耗大,精度随着元
在直线电机伺服控制系统中,直线电机动子位置的快速准确检测是实现系统精密定位的关键,是现代直线电机的研究热点内容。传统的用于获取直线电机动子位置信息的方法有很多,但是容易受到外界环境干扰或者传感器件本身性能的影响,实际应用效果并不理想。图像测量技术是多种学科结合的新兴技术,具有非接触、高精度、测量对象广、易于实现自动化等特点,在位置检测领域有很好的应用前景。本课题针对传统检测方式存在的缺陷和实际测量
学位
滚动轴承是机车车辆的关键零部件之一,其工作状态直接影响到机车的性能和行车安全。本文针对机车轴承故障征兆提取的难题,将局域均值分解(Local Mean Decomposition, LMD)和1
机械臂轨迹跟踪控制是机器人控制技术中的重要研究内容。工业机械臂是高度非线性、强耦合、模型不确定的复杂系统,且运动过程中往往具有重复性特点,如何针对机械臂系统模型和
图像拼接是图像处理研究的一个重要方向,能够很好地解决某些特定的应用领域(如医学影像分析、遥感测量等)中由于受到图像采集设备硬件条件的限制,无法采集到大视野且高分辨率
空调系统是汽车中一个十分重要的组成部分,为乘客提供了舒适的驾乘环境,然而,汽车空调系统也显著增加了汽车的能耗,对汽车的高效运行产生不利的影响。为了减少汽车能耗,本文
自进入21世纪以来,随着计算机性能和网络技术的不断提升,我们正在步入一个高速发展的信息化社会。特别是在模式识别、数据挖掘这一领域,越来越多的创新性研究与方法不断涌出,造就