基于形式概念分析的用户查询词扩展方法的研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:originalwinter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet已经成为人们日常生活中的主要信息来源之一。搜索引擎是人们在Internet查找所需信息的主要工具。目前主流的搜索引擎主要采用用户查询词与网页中的关键词精确匹配的方式来向用户返回结果。搜索引擎的重要任务之一就是提供更多与用户查询相关的用户感兴趣的网页,减少用户不感兴趣的网页,即提高查询的精度。查询扩展技术是提高搜索引擎查询精度的主要技术之一。但是由于网页结构上的特殊性,对于搜索引擎这样规模巨大的查询而言,现有的一些查询扩展技术显得力不从心。因此改进现有的查询扩展技术成为了一个热点问题。本文采用了形式概念分析的方法,在概念格上对搜索引擎中的用户查询词扩展问题进行研究,提出了一套基于形式概念分析的用户查询词扩展方法,赋予了搜索引擎更高的“智能”。本文根据形式概念分析的思想,对用户所需网页的下近似集合中网页进行形式化描述,形成网页—关键词形式背景,并在此形式背景的基础上构建概念格作为本文研究的查询扩展方法的基础数据结构。然后在概念格的基础上,本文探讨了基于极小生成子项集的查询词与非查询词间最小无冗余关联规则的挖掘方法。其中详细讨论了极小生成子项集的概念、生成及其与关键词闭集合之间的关系;给出了通过概念格上的形式概念和它们之间的“父—子”关系以及它们的关键词闭集合的极小生成子项集来生成可信度等于100%、小于100%的关联规则的算法。相对于其它关联规则挖掘方法而言,本文讨论的方法更加符合搜索引擎的实际情况,减少了大量的冗余关联规则,使得整个查询扩展过程在处理时间上比较理想。最后本文采用C++程序设计语言,将所探讨的查询扩展方法进行了实验。通过5组数量不同的查询词及获取的下近似、上近似网页集合,对查询扩展方法进行验证。实验表明,在查询词个数为3个到7个,下近似网页数量为50个,上近似网页数为60个,每个网页取包含查询词在内的前100个权重最大的关键词来描述该网页的情况下,处理时间是用户可以接受的。文本还在Mushroom数据集上与F.A. Grootjen的查询扩展方法和Zaki的关联规则挖掘方法进行实验对比,实验显示本文的方法能够扩展出较多的关键词,在搜索引擎中具有较大的实际应用价值。
其他文献
基于内容的图像检索(CBIR, Content-Based Image Retrieval)是一种利用图像的视觉特征(颜色、纹理、形状等)进行检索的技术。CBIR的目的就是快速、准确的从图像数据库中,查找
电子测试测量技术已经涉及国民经济的各个行业,实时频谱仪(RTSA)是世界上唯一为专门解决数字RF问题设计的分析仪,在无线通信,无线监控和雷达设计等领域有广泛的应用。在通过PC机
云计算是一种融合了分布式计算、效用计算、网格计算等相关技术的新型商业化计算模式,采用成熟的虚拟化技术将大规模同构或异构资源抽象为服务,并通过网络按需提供给云用户。资源分配策略研究已经成为当前云计算领域的热点,它具有的商业化特点及经济学特性促使许多研究者采用经济学相关理论和方法解决云资源分配,并取得了一定的成果。本文在分析经济学在云计算资源分配领域研究现状的基础上,将其中的一个重要分支——拍卖模型引
随着互联网的发展,当代社会已经进入了网络社会,其中,局域网在人们生活和工作中的应用越来越深入,在企业、政府、学校等各种场所,起着非常关键的作用。相对于外部网络,局域网内部的
天然气管网是城市基础设施的重要组成部分,是城市赖以生存和发展的物质基础。但是长期以来对天然气管网资料采用传统的手工管理方式,导致了管理工作繁重、效率低下,数据利用率低
题库是高校的一项重要资源,应具有极大限度地共享性。目前,有相当一部分院校的试题停留在孤立电子文档管理阶段,共享性差,已有资源利用率相当低,命题重复性劳动大。本系统将提供一
视频通信是多媒体通信的主要应用方向之一,然而目前大多数的有线、无线通信网络均不能提供可靠的服务质量保证,视频信息传输过程中面临着不可避免的差错和损失。最新的视频编码
随着计算机与网络技术的飞速发展,信息系统的应用日益广泛,数据的交换日趋频繁。因此,如何保障信息系统的安全性,是一个非常重要的问题。而数据库作为信息的载体,它的安全性对整个
恶性黑色素瘤,是一种发病部位在皮肤表面,由人体黑色素细胞产生异常增生而诱发的恶性肿瘤。在皮肤癌的死亡病例中,恶性黑色素瘤引起的死亡人数约占总数的2/3。通常,恶性黑色
生物特征识别技术是利用人类自身生理或行为特征进行身份鉴别的一种技术。人的生理特征包括指纹、手形、掌纹等,行为特征包括签名、语音等。与基于ID卡、口令和密码的传统身