聚类分析在Web文本挖掘中的应用研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:fengyuguohou2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本课题首先对Web文本挖掘关键技术进行了深入的研究,讨论了网页采集、分词、词频统计和特征权值计算等文本预处理的相关技术。然后,分析了Web文本聚类算法,由于Web文本数据的高维性和方向性特点,认识到传统聚类算法在进行Web文本聚类时面临着很大的挑战。因此,在传统聚类算法的基础上,结合最大熵原理,建立最大熵函数模型,并把它应用到Web文本聚类中,避开了局部最小值而求全局最小。最后,建立一个小型的Web文本聚类模型,对采集到的Web文本进行聚类,实验证明此算法具有很好的聚类结果。
其他文献
传统企业的工作流系统大都采用基于活动的建模方法。而今,企业经常组成动态联盟,在联盟中,采用基于角色的建模方法更适合。因此,面向企业内部基于活动的过程模型与面向服务体系基
作为一种全新的信息获取和处理技术,无线传感器网络综合了传感器技术、微机电系统和网络技术,能够实时监测、感知和采集各种环境或监测对象的信息并对其进行处理,将信息传送
随着Internet规模的日益扩大,各种网络应用的数据流迅猛增长,传统路由器单一的“尽力”服务方式已不能满足要求。这一切都对作为Internet核心设备的主干路由器提出了新的要求
工程扫描仪广泛应用于印刷、科研、医疗等领域,本研究来自于西安电子科技大学海光数码公司工程扫描仪的设计与开发。该扫描仪的应用软件主要是依赖于第三方图像处理软件来实
随着我国经济和城市建设的迅速发展,城市的安全规划和城市突发重大事故的应急救援日益成为不可忽视的问题。为了及时、有效的处理各种紧急事件,保证城市的开发建设和企事业单
近几年来随着专用集成电路ASIC(Application Specific Integrated Circuit)的迅速发展和系统芯片SoC(System on a Chip)复杂度的不断提高,芯片验证,尤其是功能验证日益成为电子
矩阵重建作为一种新的高维数据分析和处理的工具已经被广泛的研究和应用。然而,矩阵重建的求解算法都需要经过多次迭代,同时在每一次迭代过程中又要进行大规模矩阵的奇异值分解
随着计算机和internet技术的飞速发展和广泛应用,传统的出版和传播方式将发生根本性的改变。然而网上的复制、篡改、盗版以及非法传播严重的威胁着作者的版权。数字水印作为
网络信息化日益发展的今天,完成特定目的和解决一定问题往往需要多个部门、单位和系统共同协作完成。在计算机软件解决问题时,同样需要多个软件单元、模块和组件共同协作完成系
随着互联网技术和人工智能技术的快速发展,尤其是近年来智能控制技术和计算机网络技术在家庭中的广泛应用,各种智能家电和智能网络设备相继出现,并且人们对家居领域中的各种电器