基于粗糙集的数据及文本挖掘方法研究

被引量 : 0次 | 上传用户:wuyoucao654321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘和文本挖掘是当前信息技术中的一个重要研究领域;将软计算方法之一的粗糙集理论应用于数据及文本挖掘方法研究,具有较大的理论意义和实用价值。本文研究了基于粗糙集的数据挖掘和文本挖掘方法,主要包括数据挖掘和文本挖掘中的属性约简问题、聚类问题;文本挖掘中的分类规则抽取问题;以及粗糙集同模糊集相结合的数据挖掘方法。所做主要工作内容包括:将粗集和遗传算法相结合成功应用于文本模糊聚类。在聚类过程中,将权重参数的设定也通过编码由遗传算法确定,从而使得权重参数的设定具有科学性和可操作性。给出了近似规则的定义,并对χ~2值的意义进行了讨论。在此基础上提出了一种将特征选取和粗集方法相结合的文本分类规则抽取方法。该方法大大提高了文本规则抽取的效率,并使其更趋实用化。对相关文献中隶属函数的定义进行了改进,并且利用隶属函数的性质提出了一种从定量决策表转换为定性决策表的转换规则,利用此转换规则可以将原来的定量决策表转换为一个同样大小的定性决策表,这样大大减少了后面利用粗集理论进行规则抽取的计算量,而且提取的规则质量也有了很大提高。将模式聚合理论和潜在语义索引理论相结合,提出了一种文本降维新方法。它首先用PA理论对文本特征进行初步降维,在此基础上利用LSI方法对文本特征进一步降维,抽取隐藏在文本中的主要语义信息。提出了一种改进的基于粗集和Tabu搜索的属性约简算法。改进后的算法既具有较高的算法效率,又能以较大的概率得到最小属性约简。提出了基于知识简洁度的粗集聚类方法,它首先计算对象集合在每个属性下的划分;然后在对初始划分进行合并时,引进了不可分辨度的概念;在形成最终聚类结果时,引进了知识简洁度作为凝聚的终止条件。将基于次胜对手惩罚的竞争学习算法应用于文本聚类,这种方法既能自动确定聚类的数目,又具有较好的算法复杂度。
其他文献
王阳明的教育哲学思想是其整个哲学思想体系的重要组成部分,是其哲学思想的具体运用。本文首先论述了“致良知”的教育原则思想,其次重点论述了“致良知”的教育原则及其对现实
中共十一届三中全会以来,我国经济体制改革不断加深,从农村到城市全面展开。其中以1992年邓小平同志南方讲话为历史转折点,以"三个有利于"作为标准,社会主义初级阶段收入分配
社区卫生服务是城市卫生工作的重要组成部分,而规范社区卫生专项资金的核算、管理,提高社区专项资金的使用效益则是做好社区服务工作的重要保证。但目前这一专项资金管理存在
在依法治国的形势下,培育大学生法治精神,是思想政治工作的重要内容,是依法治国的需要,依法治校的需要,大学生自身成才的需要,构建和谐社会的要求。要加强和改进对大学生的法
<正> 先天性肌性斜颈,在婴幼儿中并非少见,初期未引起家长重视,当出现明显的面部畸形时才来就诊,多已失去手法矫正机会,需要手术治疗。手术以学龄前作为宜,年龄越大,效果越差
本文通过分析金属液体流动的规律,建立铸件充型流动的三维数学模型。对控制方程组的离散采用了交错网格的离散网格和有限差分法的离散方法,解决了棋盘形压力场和波形速度场问题
对阅读能力的研究是阅读研究的核心问题之一。近年来,随着脑成像技术的发展成熟,研究者对阅读能力的脑机制问题进行了大量的研究,取得了重要进展。阅读加工主要由左侧颞枕区
当前公安文化研究与建设实践都急需突破瓶颈制约。通过对当前基层民警的文化需求分析,科学定位公安文化是警察职业文化,是亲民与权威并重的文化,是尊重个体差异多元开放的文
目的:⑴了解我国酒精消费现状与发展趋势; ⑵了解我国酒精相关问题及发展趋势; ⑶了解我国未统计酒饮料消费状况及地域分布,评价其在我国酒精消费中的地位; ⑷通过酒依赖者的
[目的]通过观察使用右美托咪定与咪达唑仑实施清醒镇静胃镜检查,综合探讨右美托咪定与咪达唑仑在清醒镇静胃镜检查应用中的安全性、可行性和应用价值。[方法]研究内容为云南