改进的SOM算法及其在文本聚类中的应用研究

被引量 : 0次 | 上传用户:harite
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工神经网络是在现代神经生物学研究成果的基础上发展起来的一种模拟人脑信息处理机制的网络系统,涉及生物、数学、物理、电子及计算机技术等各门学科,目前已广泛的应用于图像处理、数据挖掘、模式识别、工程计算等领域,并取得了令人瞩目的发展。   近年来,随着信息技术的不断发展,信息量呈现爆炸式增长,以“文本形式”存放的信息更是成为人们信息的主要来源。人们迫切的需要一个工具能从大量的文本信息中快速有效的发现资源和知识,于是文本挖掘技术应运而生,其中对于文本聚类的研究非常活跃,并取得了良好的成果。文本聚类是文本挖掘当中非常重要的一个分支,涌现出了许多的聚类方法,如基于层次的方法、基于模型的方法等,其中神经网络方法-自组织特征映射网络以其独特的优越性更是得到推广和应用。   本文首先阐述了选题的背景和实际意义,并对该领域的国内外研究动态做了简要介绍。综述了神经网络、文本挖掘的技术发展和研究方法,分析了神经网络的优越性,讨论了神经网络应用于文本挖掘的可行性和有效性。其次对聚类算法做了详细归纳和分析,并对比了主要的几种算法的优缺点。通过对自组织特征映射网络的分析,指出初始化权值对网络的收敛有重大影响,提出了初始化权值优化技术--覆盖方法,并应用Iris数据集做了测试。为了进一步提高文本聚类的精度,提出了基于粒子群优化的TKSOM聚类算法。该方法通过粒子群优化算法优化组合系数使获得的网络模型具有更好的识别能力,并且具有较好的自适应性。最后设计并实现了一个小型文本聚类系统,验证了算法的有效性。
其他文献
VoIP是利用IP网络实现语音通信的一种先进通信手段,它通过对语音信号进行编码压缩处理后,将压缩帧转换成IP数据包在IP网络上进行传输从而达到语音通信的目的。另外VoIP可以提供
近年来,水下施工的检测问题已经成为工程关注的焦点,越来越多的技术应用在水下作业的检测中。随着网络技术、嵌入式技术和计算机技术的不断发展,如何将这些先进技术应用在水下工
伴随企业信息化技术的飞速发展,企业所处环境日益复杂多变,企业间的竞争愈演愈烈。企业作为一个复杂系统,唯有不断“学习”、“演化”,才能生存发展。企业的演化问题成为当今
CIMS是Computer Integrated Manufacturing System的缩写,指计算机集成制造系统,又称综合自动化系统。石化企业CIMS是信息的集成,功能的集成,软件的集成,其中信息集成是关键。石化
随着医疗行业数字化进程的不断深入,医学信息数据库中不仅包含病人的结构化数据,而且还包含大量非结构化的医学图像数据,这些数据为医学图像数据挖掘提供了丰富的资源。医学
以基于MDA的软件开发方法为主要研究内容,系统分析并总结了MDA产生背景、意义及国内外研究现状,剖析了主要思想和优缺点,提出了目前仍然存在的一些问题和解决方案。研究了MDA
随着计算机技术和通信技术的迅速发展以及Internet的不断扩展,嵌入式系统得到了越来越广泛的应用。实时的数据处理、网络互连功能、智能化的软件以及良好的功能扩展能力几乎成
图像编辑领域在近些年得到大力的发展,世界各国越来越多的学者开始在图像编辑领域提出新的想法以及解决方案。本文对颜色编辑、形状编辑以及内容编辑进行了深入讨论,提出了图像
随着最近几年高校的扩招,高校的学生规模越来越大,随之而来的问题也越来越多,其中学生考勤的问题越来越突出。由于目前的高校学生的考勤方式主要是人工考勤,由上课老师在课前几分钟进行点名式考查学生的出勤,或者由督导不定时的对教室随机的进行抽查。这种方式最大的缺点就是费时,不仅严重影响到上课的正常秩序而且还浪费时间。学生代答、代上课现象也越来越多,由于是大班授课,这种现象很难考察学生的出勤情况。在这种情况下
新一代VOIP呼叫中心对坐席平台的分布式部署能力和快速开发能力提出了新的要求,本文提出并实现了一种基于软交换技术和H.323协议的、并且同时可以处理话务和应用业务的坐席设