领域信息检索平台的架构设计与相关技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:pankun001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于领域性的信息检索系统来说,准确率的要求往往是其最为关心的,因为目前通用的信息检索系统对于具有高度领域性的信息来说并不能展现出良好的效果,甚至远远达不到可用的程度,这就使得面向领域性的信息处理需要构建新的检索系统。构建一个新的信息系统主要有两方面的内容:1.根据实际应用情况,设计系统的架构;2.根据领域性的具体要求,设计系统的具体功能点。本文的任务就是设计并实现一个面向特定领域信息处理的检索系统,上述两方面的内容正是本文的主要研究内容。1.系统的架构是长久以来计算机应用系统研究领域中的关键部分。应用系统的主要目的不在于体现理论价值,而在于为现实的日常生活带来便利,能够高效、自动化地处理日常事务。而系统的架构的目的正是在于使得应用系统能够适应应用的实际使用环境要求,为系统的实际部署使用提供保证。本文在学术界通用的信息检索系统的统一框架基础上,设计出了面向某特定领域的信息检索系统架构。该架构在及时响应、查询吞吐量、容灾性方面都达到了实际应用的要求,能够高效地完成日常事务处理任务。2.信息系统的功能优劣决定了其服务质量。本文以通用信息检索系统的功能点为蓝本,结合本领域实际特点,设计了系统所应具备的功能性组件。这些组件使用了大量的信息挖掘技术,加入了领域性的知识,使得各功能都能够准确高效地对领域信息进行处理,它们主要是定制分词、关键词抽取、聚类、查询自动扩展、自动文摘等。这些功能性组件均根据领域的实际特点进行了算法和技术上的改进,使得各组件在效果上均达到了常规相关技术难以达到的实用效果。其中,定制分词的正确率,召回率分别达到了97.10%和98.99%;关键词抽取模块的正确率和召回率则分别达到了93.36%和95.06%;自动文摘的关键词覆盖率也达到了94.56%。3.本文在实现系统时,采用了流行的J2EE轻量级框架,将系统的各个部分进行了清晰地分层,使得整个系统在简单性、可维护性方面具有很高的质量。
其他文献
多源图像融合技术是将来自同一场景的不同图像传感器的多幅图像进行综合处理,得到一幅融合后的图像。与单一图像传感器所获得的图像相比,融合后的图像对场景提供更全面、精准、
基于位置的服务极大地方便了我们的生活,寻找附近的好友、推荐附近的热门餐馆等应用无一不包含了基于位置的服务。用户在享受基于位置服务的同时,会不经意地泄露敏感的位置隐
随着互联网的快速发展,当前每天都将产生海量的数据。为了存储这些数据,独立磁盘冗余阵列(RAID)利用多个磁盘提升系统容量和读写性能。在大规模RAID系统中,由于磁盘数较多,磁
由于其灵活性和可扩展性,XML成为越来越多互联网上数据的表示标准。在一类应用中,XML数据表现为源源不断到来的数据片断,在这类应用中的XML数据称为XML数据流。XML数据流的应
音频分割是指根据说话人特征、环境、信道条件,将音频流“自动”切分成若干同质区域的方法。由于其在音频检索、语音识别等应用中具有潜在价值,近年来受到了广泛关注。在各种音
很久以来中医一直依靠指面感觉来体会患者桡动脉搏动处的脉象信息,因此诊断时需借助医师的经验,这样使得其应用和发展都受到了很大的限制。所以,利用现代科技对脉诊进行客观
整个网络中的信息按深度可分成两个层次,表层和深层。表层主要包括“静态网页”,是指以文件形式静态存放在服务器上的数据信息。深层则主要包括“动态网页”,是指隐藏在表单
在很多实际应用中,数据的类别之间存在一种自然的序关系。例如,我们用1~5星去评价一部电影,3星评价高于2星评价,而4星评价低于5星评价。和标称数据不同,我们称这样一类数据为
在多核单机系统上,多个共享资源的线程或进程间的交错执行是不确定的,导致并行软件难以开发、调试,存在安全隐患。为保证线程或进程交错执行的确定性,课题组已提出确定性生产
车牌识别技术在智能交通系统中占有非常重要的地位,车牌识别系统主要包括车牌定位、字符分割和字符识别三大部分。其中,车牌定位和分割的结果对后续的识别起决定性作用,所以