Web信息检索若干关联挖掘问题的研究

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:hcjw248
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息爆炸是当今信息社会的一大特点,当前信息检索技术面临着Internet网络信息更新加快,用户要求检索结果愈加精确的严重挑战,因而如何帮助用户有效地找到所需信息成为了一个关键的问题。一方面,单纯以查询词的方式检索出包含用户所需信息的网页,在某些情况下并非最有效的方式。通过挖掘网页之间的关联关系,使得用户在已知某个网页包含他所需要的信息时,可以较容易地获得其他与该信息相关的网页;另一方面,由于Web信息检索系统的用户大多是普通用户,很难将自己复杂的检索目的转化成简单的查询词表示。同时,语言中又存在着大量的同义词、缩写词、关联词等,这种语言固有的模糊性使得同一个查询词可以代表不同的查询需求,同一个查询需求也可以有多种不同的表达方式。通过挖掘查询词之间的关联关系,将有助于帮助用户更好地构建查询词以检索到更多的有用信息。鉴于当前中文Web信息检索还远未达到理想的效果,本文对于网页之间以及中文词之间的关联关系,进行了细致的研究,论文的主要工作包括以下内容:1.本文以网页之间的链接关系为切入点,提出了一种新的挖掘网页之间关联关系的算法。该算法首次将网页分块算法引入到关联网页的挖掘过程中,并综合了链接锚文字的相似性和网页模板块过滤等方法,提高了关联网页的识别精度。考虑到算法在工程实际应用时所需处理的网页库规模,本文还具体给出了算法并行实现的步骤流程。2.因中文语言中存在着大量词汇与其缩写形式混用的情况,如何有效识别中文缩写词及其对应的同义全称词是中文信息检索中需要处理的一个重要问题。本文创新地提出了一种从网页链接的锚文字中挖掘中文缩写及全称之间对应关系的算法。它首先使用最长公共子序列算法从锚文字中获得缩写全称对的候选结果,并进一步使用支持向量机对候选结果进行过滤。实验表明本文提出的算法,能够有效地挖掘隐藏在锚文字中的中文缩写及对应的全称词,结果准确率较高。3.有效地挖掘中文词之间的关联关系,获得属于同一主题的中文词聚类,对于为中文Web信息检索系统提供多样性搜索结果,构建中文关联查询词等方面都是十分有意义的。本文从中文语言的标点特性入手,创新地提出了一种利用中文语句内的并列短语来挖掘中文词之间关联关系并对其进行聚类的算法。该算法利用二分图的密集子图挖掘近似算法,能够高效地对海量中文语料库中的并列短语进行聚类。为进一步对聚类结果进行改进,本文还提出了两个算法,可以有效挖掘出属于同一主题的大量中文关联词。实验表明本文提出的算法,能获得较高的聚类成功率和聚类精度,有较强的工程应用前景。4.如何让用户准确地构建查询词以表达其检索意图,也是信息检索技术研究的重要方向。本文提出了一种复合算法框架,可以有效地根据用户输入的查询词推荐关联的查询词。一方面根据查询词的关联度、流行度和有效性推荐查询词,帮助用户限定检索意图,以期获得更准确的搜索结果;另一方面,利用查询日志的点击信息、挖掘的中文缩写全称对、中文同主题词聚类、中文同义词对和中文语言模型,对用户输入的查询词进行合理的修改,以期获得更多满足用户检索意图的结果。实验表明,本文提出的算法框架能有效地向用户推荐关联查询词,有助于提高中文Web信息检索系统的查询效果。
其他文献
2003年~2005年3月~10月,在蟒河保护区对戴胜的繁殖生态进行了观察.知该鸟每年3月上旬迁来该区,10月上旬迁离.每年繁殖一次.繁殖后比繁殖前遇见率增长96.7%.窝卵数5枚~7枚,孵化期18d,巢内育
本文对现阶段我国教学改革的现状进行了分析,以发酵工程原理教材为例,结合实际情况进行了详细阐述,并在教学评估、学生培养模式、实践教学和考察等方面提出了有针对性的改革方法
盐酸文拉法辛是一种新型的抗抑郁药,用于治疗各种类型抑郁症.包括伴有焦虑的抑郁症及广泛性焦虑症;富马酸喹硫平,是一种非经典抗精神病药物,用于治疗精神分裂症。本院收治1例因过
森林土壤肥力以维持和恢复自然肥力为主,人工施肥为输。概述了森林与土壤的关系,维持和提高森林土壤肥力的途径,对提高森林土壤肥力及其生态、经济效益具有重要的指导意义。
刑事二审案件的上诉率和上诉量,取决于多种因素:首先是刑事政策的宽严程度。如果司法政策严厉或者司法机关执行刑事政策过严,量刑偏重,被告人对定罪量刑不服,就可能有较多的
目的探讨依那普利联合叶酸片治疗H型高血压的应用价值。方法选取2016年1月~2018年1月我院治疗的400例H型高血压患者为研究对象,随机分为对照组、研究组,对照组应用依那普利治
探究式教学模式是一种有利于学生主动获取知识和技能、学习科学方法、感受科学思想的教学模式。将案例教学法与探究式教学法相结合,有助于训练学生的逻辑思维能力、探究能力和
本文主要研究非线性反应扩散方程在图像恢复、分解和分割中的若干应用.在第一章里,我们提出两个用于图像去噪和分解的反应扩散方程组模型.在第一部分中,受到Osher等人提出的
随着市场经济的发展和互联网的日益兴起,人力资源的竞争已经逐步成为企业的核心竞争力,并且对企业的发展起到非常重要的作用。但是人力资源管理不是简单对人员分工和组合,必