基于聚类的网页相关性挖掘技术研究

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:wjg12322
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和计算机技术的发展,从互联网上获取满足用户需求的信息越来越困难。为了帮助用户有效地发现、选择、搜寻感兴趣的信息,提高用户检索信息的响应速度,从海量的网页信息中发现它们之间的关联,从而得到有用的知识,人们将传统的数据挖掘技术和网页结合起来,提出了网页挖掘技术。网页挖掘中的一个主要问题是对网页进行相关性挖掘。网页的相关性挖掘首先从各种网页文本对象中抽取出能反映其本质的重要特征,将这些网页文本对象映射成高维特征空间中的点,然后通过高维空间中的距离计算来完成。通过网页文本的相关性挖掘,可以将网页文本集合中相似的文本联系起来,便于从中发现有用的知识。本文首先从基本概念入手,阐明了数据挖掘和网页挖掘的主要内容。然后,对数据挖掘的重要工具聚类分析算法的相关部分(如聚类分析中的数据表示、距离度量和常用算法)进行了深入的分析和讨论。接下来逐一解决了网页文本内容特征抽取过程中的三个关键性问题:如何为网页文本内容的特征选择合适的模型、如何抽取出的合适的特征、如何为网页的特征赋予一个合适的权重。在此基础之上,设计实现了一个网页相关性挖掘的原型系统。
其他文献
脱口秀是电视节目的一个重要类型。作为美国最成功的脱口秀之一,艾伦秀具有语用方面的研究意义。运用会话分析理论,从话轮转换、相邻对、修正机制、反馈四方面研究《艾伦秀》
CT灌注成像(CT perfusion imaging)是指在静脉注射对比剂后对选定的层面进行连续多次扫描,以获得该层面内每一象素的时间-密度曲线(time-density curve,TDC),根据该曲线利用
随着互联网的发展与普及,网络舆论逐渐成为影响社会公共事件的一股新鲜力量,由此也衍生了许多问题,产生了负面影响。本文主要论述了威胁社会和谐的网络舆论生态建设的几个重
民事执行工作是人民法院一项重要工作,民事强制执行是运用司法强制手段实现生效法律文书所确定的权利的过程,也是私权救济的最后一道“工序”。长期以来,我国民事执行理论滞
2009年,谍战剧《潜伏》在电视上迅速走红。与传统的谍战剧不同,该剧将艺术与日常生活融为一体。本文用文本分析的方法,从战斗场所的生活化、人物角色的平常化,以及女主人公从
银行的业务就是管理风险,因此风险管理的能力决定了银行的竞争力。所以,信用风险、市场风险早已写入《巴塞尔资本协议》中,受到国际银行业的重视。其实,操作风险也曾被许多银
<正>该文报告了机器人辅助根治性膀胱切除(RARC)100例早期肿瘤学结果,并与开放根治性膀胱切除(ORC)的并发症进行了比较。方法:德国4家协作中心,2009年8月至2012年施行RARC+盆
上个世纪90年代以来,随着我国农业产业化经营的发展,农业龙头企业与农产订单农业有了比较快的发展,在促进农村经济发展方面发挥了重要的作用。但在订单农业发展过程中,出现了
辅导员的角色定位反映了社会对其的期待和要求。基于高校辅导员在社会主义核心价值观建设中的角色定位意义,认为其在社会主义核心价值观建设中的角色定位是社会主义核心价值
目前,我国房地产业正处于一个飞速发展阶段,随着房地产业的发展,消费者对居住品质提出了更高的要求。然而,在我国房地产市场上,很多房地产项目的品质不高,消费者的生活方式和