中文文本聚类的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:nalbuphine
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文就文本自动聚类技术的发展及现状进行了系统的回顾,然后,针对社科领域的文本聚类进行了较为深入的探讨与研究,实现了两个实验系统.该文的工作重点是:1.采用了ISODATA聚类方案,并与KNN方案进行比较,在此基础上实现了两种不同聚类方法的实验系统.2.对于文本聚类系统特征抽取的维数选取问题进行了实验和探讨,给出了比较合理的取值区间.3.对于文本聚类系统中语料库质量与文本聚类效果的关系,进行了实验研究,并对实验结果给出了合理的解释.4.参照文本分类,尝试了基于查全库和查准率的评价方法;参照数据聚类,尝试了基于"核"的评价方法.5.对于两种不同的聚类方法在运行时间、聚类效果、聚类评价等方面进行了探讨.6.对于KNN聚类的最佳K值选择进行了实验研究和分析.
其他文献
现代社会中,网络正在逐渐的渗透进人们的日常生活,给人们的工作、生活、娱乐等带来方便和快捷.但不法分子利用网络来进行相互的联系和非法信息的传播也大大增加,对于特定的犯
期刊
在我国经济建设的快速发展过程中,能源勘察对当前经济的发展、国家制定发展规划等发挥着越来越重要的作用。近十几年来,瞬变电磁法在国内外备受青睐并得到很快发展,应用领域
该论文所涉及的主要工作就是对OFDM系统内峰均比问题作一些分析研究.其中有产生原因,数学描述,以及主要的几种改善峰均比问题的方法.包括信号预畸变方法,利用不同加扰序列对O
首先,该文第二章描述了WCDMA系统的整体框架,详述了WCDMA中的信道结构,编码复用、扩频调制流程,这些都是后续分析的基础.第三章阐述了Rake接收的原理,并分析了其在WCDMA系统
期刊
神经场理论是从整体结构分析的角度来理解人工神经网络的变化机理、动力学性质以及信息处理的能力与限制,研究由所有神经网络所组成的非线性空间的整体不变性质.这方面的研究
近年来,相干光正交频分复用(CO-OFDM)光通信系统由于高的频谱利用率、对色散强的鲁棒性等优势而成为人们研究的热点,但是该系统对非线性效应的敏感性,限制了它的传输性能。研究表
本论文的课题为电子科学研究院“十五”重点预研项目“波控信号光纤传输系统”。系统设计中运用了数字通信和光纤通信技术实现对四十路并行波控数字信号的复用/解复用、光纤
期刊