面向智能信息检索技术的Web挖掘关键技术的研究

被引量 : 2次 | 上传用户:hehan1127
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet发展和网络信息量的急剧增长,人们感觉查找到自己所需要的信息已变得越来越困难,究其原因就是传统的信息检索方式越来越不能适应网上海量增长的信息,促使人们寻求智能化的信息检索方法,以满足日益增长的信息检索需求。本文对面向智能信息检索技术的Web挖掘的若干关键问题进行了研究,重点是Web日志挖掘数据预处理,改进了为Web用户聚类和Web页面聚类提供技术支持的聚类算法。本文提出了新的会话识别算法,该算法先通过统计方法得到页面访问时间,在根据页面内容及站点结构确定的压面重要程度对该阈值进行调整。本课题在对各类常见的聚类方法进行讨论的基础上,改进了K-means聚类方法和DBSCAN聚类方法,针对K-means聚类方法提出了一种基于数据样本的实际分布情况确定初始化中心点的方法,另外K-means算法中K值是很难估计的,改进算法是根据准则函数的最小值来自动的生成聚类数目,提高了K-means算法的聚类准确率;对于DBSCAN算法实现了密度聚类的领域半径Eps和领域半径内数据对象的个数Minpts两个参数根据数据对象的分布特性自动确定,能够有效的提高DBSCAN算法的聚类效果和准确率。
其他文献
目的观察桑色素对大鼠骨关节炎的影响,并探讨其作用机制。方法体外实验中,采用体外培养大鼠软骨原代细胞,观察不同浓度桑色素对白介素1-β诱导的基质金属蛋白酶-3、-13(MMP-3
企业社会责任概念的提出起源于西方发达国家,对它的研究也较深入和明确。伴随着企业社会责任的各种准则、规范的提出,企业是否履行社会责任也逐渐成为现代企业融入全球化经济
信号发生器一类是非常重要的仪器,它已经成为各个行业各个领域内的通用仪器,尤其在测控、通信、导航和雷达等领域应用广泛,其设计水平也不断得到提高。直接数字频率合成技术(
在TDBY-300多功能填料塔实验装置中,以空气-氨气-水为物系,对金属矩鞍环填料的流体力学与传质性能进行了研究,获得了该填料的几何特性参数和P/Z~FV、HO~FV、HOG~G、HETP~G及KGa~G等关
1 病历报告患者,25岁,因'先天性心脏病20余年,停经35+3周,胎盘异常5个月,阴道出血1小时'急诊入院。孕14周产科彩超提示'胎盘低置',未规律产检。查体:T 36.0
河南省洛宁县利用区位优势发展果业,改变传统单一的种植模式,采用复合式经营模式,用生态循环、节能环保的理念,用互联网思维经营现代果业,鼓励果农创新发展。部分果农积极开
<正>湖南大学的前身是创建于北宋(976年)的岳麓书院,历经宋、元、明、清等朝代的时势变迁,一直保持着文化教育的连续性。1903年岳麓书院改制为湖南高等学堂,1926年定名湖南大
现代品牌营销理论中,构成品牌的如知名度、美誉度、联想度等几大因素也早已为营销人员所熟知;但是,在实际的品牌营销应用中,想扩大知名度就意味着营销传播成本投入的增 In t
色彩构成作为艺术设计专业的基础课,在我国正式进入高等教育已有二十多年。多年的实践证明,色彩构成作为三大构成专业基础课程之一,对开拓学生的设计能力起到了不可低估的作
我国新公司法关于独立董事制度的规定过于抽象,而其他主管部门颁布的关于独立董事的规定也存在种种不足,不利于我国公司治理结构的完善。该文首先简要地介绍了独立董事制度的