基于粗糙集的WEB文本挖掘关键技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:kylinbird1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息挖掘是目前人工智能领域和计算机应用领域研究的重要课题之一,基于Web的中文文本信息挖掘是信息挖掘的一个重要方面。互联网现在己成为一个巨大的信息源,如何让互联网信息更好地为人类服务,目前已成为一个重要课题。 针对Web环境下中文文本信息挖掘的具体问题,主要研究中文文本信息挖掘的方法与实现技术,探讨数据挖掘的基础知识,Web挖掘的地位,基于WEB的文本挖掘是WEB挖掘的重要组成部分,文本预处理、特征提取、文本分类/文本聚类等是WEB文本挖掘的关键技术。 文本分类技术是WEB文本挖掘中一项最重要的技术,常用的文本分类方法,如:简单中心向量比较算法、K近邻算法和支持向量机等,但传统的分类方法存在着不足。粗糙集理论是一种适用于不完整和不确定系统知识发现的数学工具,可以从粗糙集理论着手,研究WEB文本挖掘分类技术。基于粗糙集理论的文本分类算法中,将文本特征项的权值作为规则的条件属性,文本所属的类别用作决策属性,构造决策信息表。首先将文本的每个特征项的权值进行离散化处理,然后通过属性约简提取出文本的分类规则。该方法生成的规则易于理解,分类准确度较高,分类的速度快,根据这种方法设计出一种基于粗糙集的Web文本挖掘系统。
其他文献
随着市场竞争的加剧及经济全球化的发展,虚拟企业、协同设计、网络化制造、企业动态联盟等虚拟系统将是未来企业的主要组织形式。信息集成是这些虚拟系统有效运作的前提和基
目前,移动可视搜索研究主要是基于客户端-服务器模式,将图像特征上传到远程服务器进行查询,从而完成目标识别。但这种模式对网络实时传输依赖性较强,当网络拥塞时,会出现查询速度
随着互联网的迅速发展,电子商务有了飞速的发展,企业信息系统的也越来越复杂化,因而对企业管理和经营模式也提出了全新的要求。现今的电子商务都要求建立在信息的获取和发布
因特网诞生以来,网络信息资源急剧增长,如何利用数据检索技术有效的发现和使用资源成为急待解决的问题。XML具备许多HTML没有的优点,其实现了内容、结构和表现三者的分离,因此适
随着计算机软件的飞速发展,设计可用性高的软件系统是很必要的。在软件系统的使用过程中,对其进行可用性测试与改进能有效地提高软件的功能。 序列模式挖掘已经在许多领域得
信息系统安全是目前广泛研究的重要课题之一。对于协同办公系统来说,保障信息系统的安全性和可靠性更是实现高效率协同办公的前提。因此,研究协同办公系统安全机制中的关键技术
近几年,随着Internet/Intranet等信息技术的飞速发展以及企业对自身信息化建设重视程度的不断提高,基于Web技术的面向企业级应用的各种电子商务、电子政务和办公自动化系统的
海洋对整个地球环境和人类生存的重要性不言而喻,百余年的短暂观测历史和高昂的观测成本,使得海洋数据资料异常珍贵。但是,海洋数据源具有分布性、异构性、复杂性、数据量大
本文针对本征图像分解问题,首先提出了基于分层分解结构,利用零范数稀疏表示建立非局部像素间反射率上关联关系的单幅图像本征图像分解方法。本方法能够以无监督的方式构建非
计算机集成制造系统(Computer Integrated Manufacture System——CIMS)自20世纪70年代提出以来,一直受到了世界各国的普遍重视和关注。而质量控制和管理则是企业CIMS应用的