基于形式概念分析的用户查询词扩展方法的研究

来源 :西华大学 | 被引量 : 0次 | 上传用户：originalwinter

【摘要】

：

Internet已经成为人们日常生活中的主要信息来源之一。搜索引擎是人们在Internet查找所需信息的主要工具。目前主流的搜索引擎主要采用用户查询词与网页中的关键词精确匹配的

【作者】

：

海宇峰

【机构】

：

西华大学

【出处】

：

西华大学

【发表日期】

：

2007年期

【关键词】

：

搜索引擎形式概念分析关联规则查询扩展

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Internet已经成为人们日常生活中的主要信息来源之一。搜索引擎是人们在Internet查找所需信息的主要工具。目前主流的搜索引擎主要采用用户查询词与网页中的关键词精确匹配的方式来向用户返回结果。搜索引擎的重要任务之一就是提供更多与用户查询相关的用户感兴趣的网页，减少用户不感兴趣的网页，即提高查询的精度。查询扩展技术是提高搜索引擎查询精度的主要技术之一。但是由于网页结构上的特殊性，对于搜索引擎这样规模巨大的查询而言，现有的一些查询扩展技术显得力不从心。因此改进现有的查询扩展技术成为了一个热点问题。本文采用了形式概念分析的方法，在概念格上对搜索引擎中的用户查询词扩展问题进行研究，提出了一套基于形式概念分析的用户查询词扩展方法，赋予了搜索引擎更高的“智能”。本文根据形式概念分析的思想，对用户所需网页的下近似集合中网页进行形式化描述，形成网页—关键词形式背景，并在此形式背景的基础上构建概念格作为本文研究的查询扩展方法的基础数据结构。然后在概念格的基础上，本文探讨了基于极小生成子项集的查询词与非查询词间最小无冗余关联规则的挖掘方法。其中详细讨论了极小生成子项集的概念、生成及其与关键词闭集合之间的关系；给出了通过概念格上的形式概念和它们之间的“父—子”关系以及它们的关键词闭集合的极小生成子项集来生成可信度等于100％、小于100％的关联规则的算法。相对于其它关联规则挖掘方法而言，本文讨论的方法更加符合搜索引擎的实际情况，减少了大量的冗余关联规则，使得整个查询扩展过程在处理时间上比较理想。最后本文采用C++程序设计语言，将所探讨的查询扩展方法进行了实验。通过5组数量不同的查询词及获取的下近似、上近似网页集合，对查询扩展方法进行验证。实验表明，在查询词个数为3个到7个，下近似网页数量为50个，上近似网页数为60个，每个网页取包含查询词在内的前100个权重最大的关键词来描述该网页的情况下，处理时间是用户可以接受的。文本还在Mushroom数据集上与F.A. Grootjen的查询扩展方法和Zaki的关联规则挖掘方法进行实验对比，实验显示本文的方法能够扩展出较多的关键词，在搜索引擎中具有较大的实际应用价值。

其他文献

基于内容的图像检索研究及其系统实现

基于内容的图像检索(CBIR, Content-Based Image Retrieval)是一种利用图像的视觉特征(颜色、纹理、形状等)进行检索的技术。CBIR的目的就是快速、准确的从图像数据库中,查找

学位

基于内容的图像检索特征提取相似性度量颜色特征纹理特征

基于MVC模式的上位机软件设计与实现

电子测试测量技术已经涉及国民经济的各个行业，实时频谱仪(RTSA)是世界上唯一为专门解决数字RF问题设计的分析仪，在无线通信，无线监控和雷达设计等领域有广泛的应用。在通过PC机

学位

上位机软件MVC设计模式SCPIRTSAUSB

基于市场拍卖机制的云计算资源分配策略研究

云计算是一种融合了分布式计算、效用计算、网格计算等相关技术的新型商业化计算模式,采用成熟的虚拟化技术将大规模同构或异构资源抽象为服务,并通过网络按需提供给云用户。资源分配策略研究已经成为当前云计算领域的热点,它具有的商业化特点及经济学特性促使许多研究者采用经济学相关理论和方法解决云资源分配,并取得了一定的成果。本文在分析经济学在云计算资源分配领域研究现状的基础上,将其中的一个重要分支——拍卖模型引

学位

云计算定价策略组合双向拍卖效用模型CloudSim

一个远程监控系统的设计与实现

随着互联网的发展，当代社会已经进入了网络社会，其中，局域网在人们生活和工作中的应用越来越深入，在企业、政府、学校等各种场所，起着非常关键的作用。相对于外部网络，局域网内部的

学位

文件监视Windows Shell远程监控键盘记录数据库

基于GIS的天然气管网管理系统的设计与实现

天然气管网是城市基础设施的重要组成部分，是城市赖以生存和发展的物质基础。但是长期以来对天然气管网资料采用传统的手工管理方式，导致了管理工作繁重、效率低下，数据利用率低

学位

天然气管网ComGISWebGIS存储过程自动成图Ajax

分布式题库系统的设计与实现

题库是高校的一项重要资源，应具有极大限度地共享性。目前，有相当一部分院校的试题停留在孤立电子文档管理阶段，共享性差，已有资源利用率相当低，命题重复性劳动大。本系统将提供一

学位

分布式题库系统信息管理系统计算机软件XML缓冲技术

基于H.264的视频差错掩盖技术研究

视频通信是多媒体通信的主要应用方向之一，然而目前大多数的有线、无线通信网络均不能提供可靠的服务质量保证，视频信息传输过程中面临着不可避免的差错和损失。最新的视频编码

学位

视频通信H.264差错掩盖自适应差错掩盖边框匹配

基于SSL的数据库安全代理研究与实现

随着计算机与网络技术的飞速发展，信息系统的应用日益广泛，数据的交换日趋频繁。因此，如何保障信息系统的安全性，是一个非常重要的问题。而数据库作为信息的载体，它的安全性对整个

学位

SSL协议数据库安全访问控制身份认证

黑色素瘤图像特征提取算法研究

恶性黑色素瘤,是一种发病部位在皮肤表面,由人体黑色素细胞产生异常增生而诱发的恶性肿瘤。在皮肤癌的死亡病例中,恶性黑色素瘤引起的死亡人数约占总数的2/3。通常,恶性黑色

学位

黑色素瘤七点检查法蓝白幕色素网特征提取

基于图象质量判别的三模态生物特征识别

生物特征识别技术是利用人类自身生理或行为特征进行身份鉴别的一种技术。人的生理特征包括指纹、手形、掌纹等,行为特征包括签名、语音等。与基于ID卡、口令和密码的传统身

学位

多模态生物特征识别信息融合图像质量指纹识别掌纹识别手形识别

基于形式概念分析的用户查询词扩展方法的研究

与本文相关的学术论文