基于神经网络等技术的数据与文本聚分类研究

被引量 : 0次 | 上传用户:frale
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类和分类技术是数据挖掘中最有价值的技术之一,而软计算中的神经网络是聚分类中的主要技术之一。自适应谐振神经网络(Adaptive Resonance Theory:ART)不仅参考人脑神经元互连的物理模型,而且也借鉴人脑的学习机理,具备数据聚类的良好特性,目前国内外研究尚较处于发展阶段。文本挖掘中文本向量集往往表示为正交的高维空间,因而带来计算瓶颈和与实际应用背景不吻合的情况,研究特性良好的降维算法、现有空间的改进等都存在很大的发展余地。本论文提出了四种基于ART2神经网络的用于数据聚类的改进算法,克服了经典ART2神经网络输出无层次结构的缺点,均可形成动态的层次聚类结果,同时降低了警戒参数主观设置的要求。基于模、相位、空间密度的改进ART2算法1还克服了经典ART2算法警戒参数全局化、聚类与模无关的缺点,其通过按模和相位的综合评价,依据先前循环形成类别中的输入向量个数分类别修正警戒参数以实现按空间密度局部化警戒参数,在借鉴以前神经网络训练结果的基础上进行聚类;基于凝聚和迭代思想的改进ART2算法2通过迭代在人工交互下达到合理聚类结果,并计算出合理聚类结果所需的警戒参数范围值;迭代以及迭代中神经网络的输出都体现出有序的自组织特征,网络训练时间代价也在迭代中迅速下降;基于Hebb规则和泄漏竞争的改进ART2算法3借鉴了Hebb规则和泄漏竞争的思想,允许多个神经元获胜并计算获胜神经元之间的相关性;基于Hebb规则和冗余神经元思想的改进ART2算法4克服了过分依赖获胜神经元信息等不足,通过在竞争过程中同时考虑获胜神经元和其它神经元的信息以及Hebb规则来实现通过单个ART神经网络的层次聚类结果。本论文提出了一种基于随机映射的文本降维算法,在可控、低代价地充分逼近原始空间相似度计算结果和分类结果的情况下降低文本向量空间维数。在此基础上本论文还提出了一种基于随机映射的加速隐含语义索引算法,此加速算法将随机映射和隐含语义索引相结合,既可有效可控地降低空间维数,又可凸现语义联系,使得其用于分类算法在文本高维环境中具备实时性和高分类准确率。此外本论文提出了一种基于模式聚合和各维不同权重的改进KNN文本分类算法,在数据分析的基础上提出优化的模式聚合方法,并利用神经网络计算空间各维不同权重以克服VSM空间各维权重相等的缺点,可以在降低时间和空间复杂度的基础上,提高KNN算法的文本分类准确度。
其他文献
目的观察急性腹痛患者的临床诊断,研究讨论有效的诊断方法。方法对2010年2月至2014年2月来我院急诊内科就诊的218例急性腹痛的患者进行回顾性分析。结果本组218例患者,诊断正
在古代散文创作第一个高峰的先秦两汉时期,受当时的文学观念和山水观念影响,山水没有作为独立的审美对象进入散文作品之中。魏晋南北朝时期由于人们对于审美的自觉以及对于自
移动学习满足人们利用碎片时间进行随时随地学习的需求,开展移动学习的核心是移动学习资源的建设。文章在分析了移动学习基本概念和特点,介绍了基于知识点的小块化视频资源的
本文阐述了跨国公司在华设立的研发机构的规模和形式,分析了跨国公司在华设立研发中心的动机和这些研发机构在跨国公司全球研发体系中的地位,对本土研发机构与这些跨国公司研
本文描述广州珠江数码OTT三屏互动前端系统的架构和系统组成、结构和相关业务详细流程,给出OTT三屏互动系统整体架构的设计思路,通过媒体云、媒资系统、运营中心与用户之间的
《义务教育数学课程标准(2011年版)》与实验稿相比,发生了很大的变化。本文从数学课程的特征、课程基本理念、课程设计思路、课程目标、课程内容、教学建议、评价建议等方面
本文分析了电子商务的产生和基本特征,同时对网络会计内涵、组成要素进行了分析,然后对比了网络会计与传统会计的区别,再确定电子商务平台中运用网络会计的必要性,最终提出电
1940年至今,我国翻译史研究已走过80个年头,不论是著作方面还是论文方面都取得了不小的成绩。但是,当前翻译史研究仍存在不少问题,如翻译活动和思想的缘起研究不足,时间点不
英语课后作业是英语课堂教学的拓展和延伸,是课堂教学必不可少的环节,也是教师检查学生学习效果的重要手段之一。恰当的作业可以促进学生对所学知识的巩固,久而久之,会促使学
公司转投资犹如一把双刃剑,一方面,作为企业资本运营以及实现利润最大化的基本手段,转投资具有促进规模经营﹑增强抗风险能力和强化市场竞争力的功能;另一方面,转投资又会产生