基于压缩原理的全文检索方法的研究

来源 :延边大学 | 被引量 : 0次 | 上传用户:haideliliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本信息数量的飞速增长给传统的信息检索技术带来了新的挑战。我们可获取的大部分信息是存在于文本数据中的。从大量的信息中有效地获取有用信息要比获取数据本身更为重要。在全文信息检索系统中,如何度量文本之间相似程度是决定系统性能的关键因素之一。在传统的方法中把文本表示成欧式空间中的向量,并采用文本向量之间的夹角余弦值表示文本相似度。 本文在分析总结前人研究成果的基础上提出了一种利用压缩原理计算中文文本之间相似度的方法以及与此对应的检索方法。在没有明确的关键字,只凭隐含的统计规律进行检索时,基于压缩原理的相似度计算方法表现出独有的优越性。与传统检索方法相比,本文提出的方法能够刻画隐含统计特征,处理方法简洁,是一种不依赖于关键词的方法。 在此基础上通过聚类与基于遗传算法的检索进行了全文检索实验。结果表明本文提出的方法具有合理性和有效性。
其他文献
随着通信技术、嵌入式计算技术和传感器技术的飞速发展,由具有感知能力、计算能力和通信能力的微型传感器构成的感知网(Sensor Networks)引起了人们的极大关注,并应用于国防
近几年来,随着大型企业对海量数据库性能的要求,并行数据库系统成为数据库领域的一个研究热点.国内外的学术界已经对并行数据库系统开展了许多研究工作,相关的理论日益成熟;
九十年代以来,伴随着信息化浪潮,数字图书馆迅速发展,成为人们研究的热点之一.与传统图书馆相比,数字图书馆有着很多明显的优势,它不受时空的限制,涵盖信息的容量大、品种多,
随着科学技术的发展,具有动态自组织,低功耗等特性的无线通信技术逐渐取代了有线通信技术,在生活生产中的应用范围越来越广泛。ZigBee协议是当前无线传感器网络普遍采用的通
本论文课题以“辽河流域水环境管理技术综合示范”项目为依托,报表服务是辽河流域水环境相关管理系统中核心业务需求之一。随着报表服务需求多样化的不断扩大,现有报表开发方
随着中国市场经济的深化,以及对外资银行经营的逐步放开,现在商业银行之间的竞争越来越激烈,如何为客户提供更多更好的服务,是摆在银行业务和技术人员面前的一道难题。江苏工行整
分布式计算是把一个需要进行大量计算的工程任务分割成许多小规模的任务模块,分配给网络中的多台计算机分别计算,由网络中的各个计算节点进行任务模块间的相互通信,协同完成
在教育信息化过程中,教育资源库建设得到越来越多的重视和投入.以多媒体素材库为基础的教育资源库是实现教育信息化的基础.基于教育资源媒体多样性和结构多样化,教育资源库实
随着Internet的飞速发展与web技术的日益成熟,大量科技文献、技术报告等文档资源摒弃了陈旧的纸笔和印刷体媒介,以数字化的形式出现在网络与数据库之中.如何合理有效地存储、
目前,企业计算领域正在出现一种新的研究热点,就是云计算。这种计算模式允许用户根据自己的需要获取计算资源。从而当大量的请求突然到来时,企业能够良好地处理并且做到按需