面向蒙古文增量查询扩展的信息检索技术研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:ym_l
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,互联网技术蓬勃发展,信息爆炸使得人们对于信息和资源的检索提出了更高的要求。随着网络技术的不断发展,信息检索的各项技术以及搜索引擎的性能都得到了很大的提升。  在内蒙古,蒙古语是主体民族文字和官方文字,是宝贵的资料和财富,随着蒙古文网站的大量涌现,蒙古族人民迫切需要提高其搜索海量蒙古文信息的效率。蒙古族人民多年来运用智慧,创造出了多种多样的编码,如蒙科立、赛音、国标码等等,每一种编码都有其独到之处。在蒙古文网页中,主流编码是蒙科立编码,这种编码不能够直接应用于国内外主流搜索平台上,也就意味着新的技术改进不能直接应用于蒙科立编码上。因此,在本文中,应用新技术和本文提出的方法针对蒙科立编码的蒙古文进行提高检索效率的研究。  为此,我们应用了新增量查询扩展方法,为了进一步提高搜索的效率,还提出了基于binned摘要的扩展词提取技术。新增量查询扩展方法的基本思想是在伪相关反馈的二次检索中,使用初次检索的累加器信息,这样就可以避免扩展后查询中原本出现在初始查询中的词被重复进行查询处理,减少了整个伪相关反馈方式查询的时间,提高了蒙古文检索的效率。本文受binned索引的启发,又提出了基于binned摘要的扩展词提取技术。这个技术经过实验的处理发现对于蒙古文搜索速度的确有所提高。
其他文献
随着网络及网络性能飞速发展,在较大规模的开放网络环境下实现实时的可视化操纵(Visual Steering)系统成为可能。这样的分布式系统在很多领域有着广泛的应用前景,诸如军事模
服务器作为网络游戏的核心支撑系统,其设计和制作成为游戏开发的关键组成部分。本文提出了一个可行的解决方案,目的是提供一个稳定可靠的游戏服务器平台,降低后续网络游戏的
本文针对于现在的分布式系统或网络中的错误检测和诊断问题,提出了将依赖关系矩阵演化为依赖关系树,并且充分利用依赖关系树的特性,研究出基于此依赖关系树的适应性探测算法,
本项目的研究内容是面向大型机械设备——双进双出磨煤机的智能化嵌入式状态监测系统。双进双出磨煤机主要用于火力发电厂,为直吹式锅炉磨制煤粉。由于双侧输入原煤、输出煤
概念层次(Concept Hierarchy)是指将大量的概念用层次化的方法组织起来,使得子概念所包含的意义比它的父亲更加特殊,可以被其父概念所概括。层次化的概念模型与普通的平面概
电子投票允许人们通过网络就某一议题进行投票来表达自己的看法或是意愿。电子投票以其方便、高效、低廉的成本,自提出之日其就引起了人们极大的兴趣。随着今天网络的发展与
随着Internet上Web服务数量的日益增多,如何从众多的服务中准确地找到符合要求的服务成为服务发现的难点和关键。基于UDDI(Universal Description,Discovery and Integration,
XML作为一种标记语言,具有有效的表达各种信息、数据和使各种应用协同工作能力,有望成为下一代互联网信息交换的标准。XML数据的存储、查询和绑定的理论和技术是当前XML的研
文本分类是机器学习与信息挖掘中的一个传统问题。不同于类别较少且均处在同一层面的传统分类任务,本文所谓“层次型分类”是指类别间存在一个树状的层次结构;并且本文所谓“大
随着Internet中各种技术的迅速发展,网络应用不再局限于文件传输、电子邮件等传统应用,一些新型的移动业务正在不断地出现,因此下一代互联网NGI(Next Generation Internet)应