改进SOM算法在文本聚类中的应用

来源 :大连交通大学 | 被引量 : 0次 | 上传用户:ahhfwwzy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的飞速发展和普及,信息在急速地膨胀,为了有效地从浩如烟海的信息中发现对自己有用的信息,数据挖掘技术和知识发现技术应运产生。因为文本是信息载体中最重要的,文本挖掘也相应地成为数据挖掘中最重要的领域之一。聚类技术是文本信息挖掘技术中的核心技术之一,近年来文本聚类的研究取得了长足的发展。由于文本是非结构化的数据,要想对其进行聚类,必须通过预处理技术将其转化为结构化的形式。所以,本文首先系统地介绍了文本预处理技术,如分词、词干还原、降维等。聚类技术是文本聚类领域的关键技术,自上世纪50年代以来,人们提出了多种聚类算法,SOM算法是其中非常著名的一种。接下来本文重点阐述了聚类算法中的SOM算法,并且做了两点重要的改进。SOM神经网络是通过模拟人脑对信号处理的特点而发展起来的一种人工神经网络。SOM聚类的基本思想是通过网络训练,把相类似的输入映射到同一个输出结点上,从而实现对输入数据的聚类。本文从两个方面对SOM聚类算法进行改进。一是针对文本聚类问题,把文本聚类追求的目标—平均类内离差最小即平均类内相似度最大考虑进去,提出了一种改进的学习策略,该算法把等离差理论引入神经网络的学习过程中,通过调整类内离差来指导神经网络的学习,以使得聚类结果的平均类内离差最小。改进的算法不仅解决了神经元欠利用和过度利用的问题,而且大大提高了文本聚类的结果质量。二是针对随机初始化SOM神经网络连接权值,网络模型训练时间长的缺点,本文运用层次聚类法探测数据密集区域,用探测到的K个数据密集区域的中心点初始化SOM网络连接权值。实验表明,改进后的SOM算法缩短了网络的训练时间,并且不容易收敛到局部最优。同时,为了使聚类结果易于理解和表达,对聚类簇进行合适的标引,以便正确理解聚类簇内容,提高信息处理的性能和效率。
其他文献
通过分析脉冲中子氧活测井技术适用性,结合典型脉冲中子氧活化及同位素测井实例,表明氧活化测井技术具有影响因素少,不受井内液体性质、管柱结构影响,能够精确查找管柱漏失点
超氧化物歧化酶(Superoxide dismutase,SOD)能够催化超氧阴离子自由基发生歧化反应生成过氧化氢和氧,随后在过氧化氢酶的催化下,将过氧化氢分解为水和氧。SOD制剂在医疗、食
<正>1资料与方法1.1资料来源医院急诊就诊资料来源于国家人口健康数据共享平台,选取北京市4家三甲医院2008年1月1日至2012年12月31日急诊资料,根据ICD-10(国际疾病分类标准)
以南四湖过水区农田为研究对象,在小麦-玉米轮作的夏玉米季内设置地表径流水收集装置,探索减少养分径流损失、提高湖区水质的有效施肥模式。结果表明,有机物料覆盖和与土壤混
《爱莲说》是苏教版语文七(下)专题《荷》中的一篇课文,文质兼美,是我国古代散文的精品。全文仅116字,结构严谨,笔意超越,言简意赅,情景交融,有着深邃的思想内容,历来为人们
目的分析冻干参数对疫苗质量的影响,为进一步优化疫苗的冻干工艺、保障产品质量提供参考。方法取乙型脑炎减毒活疫苗半成品,分为4组,每组10批次,采取不同的保温温度及保温时
该文结合语文新课程教学实践,以鲁迅小说《祝福》为例,从叙述视角、叙事时间与叙事结构三方面就叙事艺术对解读小说的实践意义作一探讨,以探寻小说阅读教学的思路。
<正> 从照相和电影加工定影液中电解回收银已经实行五十多年了。现从彩色影片加工的漂白——定影液中也可以回收银了。电影洗印厂为了回收再使用加工液,必须处理影片加工溢流
苏轼词,以横放自由姿态,有血有肉地刻画了词人的性格、意志和个性气质,活生生地腾跃出遭挫折而不颓丧,处逆境而不沉沦的正直文人士大夫的形象,多侧面刻画了宋时那个封建年代
教师质量、教师效能及教师绩效是近年来在教师评价研究中出现较多的术语。由于中外教育文化背景的不同,对这些术语的不同理解或误解会在一定程度上给教师评价的研究造成偏差