文本聚类和文本摘要的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zmy_java
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文从面向大规模的中文文本,在文本的聚类和文本的摘要方面展开了研究与探索:首先,针对文本的聚类算法,作了相关的研究.中文文本的聚类有多种方法.该文着重对人工神经网络算法和新兴的蚂蚁算法进行研究和分析比较.在人工神经网络算法方面,以自组织映射(Self0OrganizingMaps,SOM)为基础结合模糊聚类的算法,实现了多层次的文本聚类,收到了较好的效果.人工神经网络算法作为经典的算法有自己的优点,采用蚂蚁算法可以实现文本聚类的目的.该文用蚂蚁聚类算法进行文本聚类.并且,文中对蚂蚁算法的聚类特性与SOM作了相应的比较,在文本的聚类方面,不但蚂蚁算法可以达到SOM的效果,而且,在某些方面还能比SOM表现出更好的性能.其次,针对目前聚类仅仅提交数字类别的问题,该文对文本类别自然语言的标识做了有益的实验得到较为理想的结果.由于SOM与蚂蚁算法的聚类特性不同,所以在标识概念时采用了不同的方式.标识类别概念有利于更好地展示聚类结果和文本后期处理.
其他文献
随着计算机技术的迅速发展与广泛应用,企业信息网络建设已成为影响企业效益的重要因素,同时由于企业物资管理成本有很大的压缩空间,物资管理已被称做企业的第三利润源泉。该项目
本文对铁路行包网络管理系统设计中的若干问题进行了深入研究。通过对不同的操作系统及数据库管理系统进行比较分析,确立了基于WINDOWS NT与MS SQL SERVER 7.0的应用系统体系
RFID技术的飞速发展使得EPC网络的研究与应用受到极大的关注,EPC网络是搭建在互联网之上的基础服务设施,它使得与物品关联的业务事件数据能够被共享。EPC网络使用RFID等自动识
该论文重点研究了两方面的内容:其一是异构资源上分布计算服务的网格计算模型;其二是计算服务的自适应分配执行的方法.为此,该论文首先介绍了网格计算的背景,指出了网格计算
虚拟现实造型语言(VRML)是一种描述可交互的三维对象和场景的文件格式。为了能够创建动态的虚拟场景,并且不必再面对大量枯燥的代码和复杂的语法,VRML文件的编写者们迫切需要一
随着移动通信系统的飞速发展,人们的目光逐渐转向B3G/4G系统的开发与研究工作。MIMO和OFDM是B3G/4G系统中的最关键技术之一。空中接口物理层采用MIMO和OFDM技术,能够增强无线
电子商务中的协议研究是电子商务研究的一个重要方面,电子商务协议是面向应用层的网络安全协议,其主要作用就是防止在既不安全又不可靠的网络中,保证通信消息的完整性、匿名
随着软件规模和复杂度的日益升级,对系统的总体结构设计比对算法和数据结构的选择重要的多。软件体系结构作为描述系统的高层设计手段,正成为研究热点。软件体系结构是软件工程
随着INTERNET的迅速发展,基于WEB的应用呈指数增长。集群技术是实现高性能WEB服务器的一种有效途径。WEB服务器集群技术是以较低费用的计算机系统通过技术手段获得增强的服务
INTERNET的迅速发展使各种各样的网络多媒体应用层出不穷,其中以流媒体应用发展最为迅速,很多专家认为下个世纪将是流媒体的世界.流媒体技术是一种新的网络多媒体技术,它把数