基于近似网页聚类算法的Web文本数据挖掘技术的研究与应用

被引量 : 0次 | 上传用户:q3821713
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet信息量的飞速增长,数据挖掘技术的日益成熟及XML语言的崛起,Web数据挖掘技术迅速成为信息检索领域的研究热点。本文对Web数据挖掘技术、搜索引擎技术、XML语言、文本聚类技术作了系统的研究,介绍了其特点、原理、方法和研究现状。如今Internet已经成为了人们获取各种信息的主要来源,利用常用搜索引擎系统能够获得大量的相关信息,但是这些信息太多太乱,用户难以迅速找到真正感兴趣的网页。对此,本文深入研究了如何对搜索引擎返回的结果进行文本数据挖掘以获得用户感兴趣的搜索模式。 本文从Internet用户的兴趣度出发,提出了一种基于近似网页聚类算法的Web文本挖掘技术。该技术根据用户的兴趣程度形成词汇库;利用模糊聚类方法获得分词词典组;在用户利用常用搜索引擎系统进行信息检索时,采用MD5算法消除搜索引擎返回的重复页,采用近似网页聚类算法,对剩余页面进行聚类,返回给用户聚类后的网页簇,这样用户就可以选择浏览自己感兴趣的页面,从而大大提高了信息检索的查准率;为进一步满足用户的兴趣需要,最后提出了一种基于马尔可夫链的Web访问序列挖掘算法,对返回给用户的网页簇进行二次排序,以保证用户快速、准确地获得真正关心的信息。实验证明该算法在保证查全率和查准率的基础上大大提高了搜索效率。由于是针对小文本的数据挖掘,本文研究的算法时间和空间复杂度都不高,因此有望成为一种实用、有效的信息检索技术。 作者设计了一个基于上述思想的智能搜索系统,并用于一个办公自动化系统。该系统运行速度快,能够兼顾查全率和查准率,大大提高了搜索效率。实践证明本文所研究与开发的成果具有实用性和有效性。
其他文献
现代企业广泛采用数字化技术,通过信息资源的开发和利用,不断提高其生产、经营、管理、决策的水平和核心竞争力。相比之下,我国养殖企业普遍存在生产管理落后、信息不畅、投
主要就煤炭企业生产运营风险管理的特征和重要性加以阐述,然后结合实际对煤炭企业生产运营风险管理的现状和方法详细探究。希望能通过此次的理论研究,对生产运营风险管理整体
目的:探究医疗机构药师心理契约对其药学服务态度与行为的影响,提出针对医疗机构药师心理契约改善药学服务态度与行为的管理对策及建议,为医疗机构及政府卫生行政等相关部门研究和改进医疗机构药学服务和药师管理提供参考。方法:分层随机整群抽取遵义地区三级、二级、一级医疗机构药师,采用《人口学资料调查表》、《药师心理契约量表》、《职业倦怠量表》、《药师药学服务态度和行为量表》进行调查,发放问卷800份,分析药师
目的观察黄芪注射液(astragalus membranaceus,AM)对链脲佐菌素(streptozotocin,STZ)诱导糖尿病(diabetes mellitus,DM)大鼠肾脏髓质水通道蛋白-2(aquaporin-2,AQP-2)基因表
日本模式和美国模式,是公司治理理论中两种不同的模式。前者以广义公司治理概念为基础,以利害相关者及其联系为核心。后者以狭义公司治理概念为基础,以股东利益和对经理的激
农业是国民经济的基础,现代农业发展的关键在于科技的发展和农业科技成果的推广应用,随着农产品市场竞争日趋激烈,加速农业科技成果转化应用,提高农产品质量和竞争力已成为我
目的:探讨“醒脑开窍”针刺治疗脑卒中后抑郁症(PSD)的可行性,观察比较“醒脑开窍”针刺法、西药安拿芬尼治疗PSD的临床疗效及对生活质量与神经功能的影响。 方法:将92例
瑞雷面波勘探法是一种新型的工程地球物理勘探方法。由于该方法具有操作简便,探测速度快、对检测场地要求不高且能一次获得与深度相关的地层瑞雷面波速度参数的特点,因而在工
近几年来,我国的社会保险基金管理工作取得了很大的进展,但与此同时,我国的社会保险基金运行也面临着很大的压力,其原因在于:一方面,我国已进入人口老龄化社会,人口老龄化的
白藜芦醇是一种广泛存在于植物中的多酚类化合物,具有广泛的生物学活性。该文主要从白藜芦醇的性质以及在脑缺血/再灌注氧化应激损伤中的保护作用及其机制作一综述。