文本挖掘中的分类与聚类研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:zxhllgl1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文主要贡献如下:在给出基于概念网络文本表示方法数学描述的基础上,提出一种新的概念网络信息传播算法并给出了收敛性证明,实现了概念级的文本特征抽取,为概念网络方法提供了一定的理论基础与支持.提出了几种新的概念网络相似度评价方法,在此基础上构造了基于概念网络的线性分类方法,实现了概念级的文本分类.提出了一种权重自适应调整的多分类器集成判决方法.给出了文本集在多分类器下的全信息矩阵概念,并利用全信息矩阵解决了该方法中的关键问题:利用多分类器行为分析来自动判断待定样本的有效邻域;利用混乱矩阵来分析分类器的分类情况和类别间的关系,从而实现了分类结果的集成判决;利用准确率评价自适应地选择分类器组合并确定分类器权重.在标准文本集上的实验表明了该方法的有效性. 提出文档聚类概要结构及两种基于此结构的快速文本聚类算法,即多层的和递增的DCSK-means算法,实现了递增的、快速的文档聚类.提出了一个引入反馈机制的文本分类系统框架,并构造了一个广义的文本挖掘系统原型,为文本分类与挖掘的研究提供了框架.提出和实现了一个基于代理机制的Internet信息自动提取系统,采用了动态代理、安全通道—防火墙技术和站点结构自动转换等技术,提高了系统的安全性和易用性.
其他文献
该文在对经济系统演化复杂性认识的基础上,探讨了运用从定性到定量综合集成方法来处理复杂巨系统的可行性的问题.然后分析了影响经济增长方式转变的因素,确定了评价经济增长
粗糙集理论是一种处理模糊和不确定性数据的数学工具。目前,已被成功地应用于机器学习、决策分析、过程控制、模式识别与数据挖掘等领域。本文对粗糙集理论及应用两个方面进
仿真转台作为航空航天等领域进行仿真和测试的关键设备,在飞行器的研制过程中起着极其重要的作用。同时,转台性能的优劣也直接关系到仿真和测试试验的可靠性和置信度,对航空
瞬时频率是许多物理现象的定量描述,因此,把握了瞬时频率,便把握了这些现象的物理实质.在实际的信号处理中,瞬时频率在雷达、声纳、移动通信等领域有着广泛地应用.所以,研究
工业控制领域需要一种高速廉价的网络。在过去几年,以太网标准有了许多的进步,特别是确定性、速度和信息优先级等方面。交换技术的快速发展大大消除了以太网应用于控制领域的障
首先,研究了基于离散采样点集的单物体表面重建问题.该文提出了一种新的基于最小生成树(MST)的重建算法.其次,研究了三维网格表面的分割.该文针对不同的应用背景,分别提出了
该文主要内容为:酯化反应器软测量模型,参数估计和校验,BP网络辅助模型校验;研究利用CNLS网络进行动态系统辨识的可行性和有效性以及预测控制在系统工作点改变时能使系统平稳
该文以企业电子邮件系统为背景,提出了一种以免费邮件系统为基础的建立企业电子邮件系统的方法,描述了系统的总体结构,给出了具体的解决方案.JSP技术为创建显示动态生成内容
蒸汽发生器是连接压水反应堆一、二回路的重要热交换设备,被称为一、二回路的枢纽。蒸汽发生器水位控制系统是非线性、时变的多变量系统,“假水位”现象的存在使蒸汽发生器水位
基于IP网络的电信业务目前取得了巨大的发展,其业务量和业务种类快速增长,研究能快速响应业务的变化、更新和用户需求的新的业务管理软件模型,具有重要的理论价值和实际意义。