中文文本自动聚类系统的研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:seaking888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文首先对Web挖掘流程以及Web挖掘分类及各自的研究现状及发展进行一个概括地介绍;然后结合汉语自身的相关特点较为详细地分析了中文文本自动聚类中所涉及到的关键问题及其技术,并且应用S.T.Dumais提出的潜在语义分析LSA来重新构造向量空间模型。基于余弦相似性和距离相似性提出了一种新的相似性度量方法,这种度量方法是对余弦相似性和距离相似性的折中。基于MartinEste等提出的基于密度的聚类算法DBSCAN,提出了处理簇的边界对象的DBSCAN算法,该算法解决了DBSCAN算法在处理簇的边界对象时的不足,在不改变时间和空间复杂度的情况下使聚类结果更加有效。最后结合上述算法,本文设计出了一种中文文本自动聚类系统。实验测试数据表明,这种聚类方法聚类效果比较理想。
其他文献
本文论述了网络搜索技术在企业竞争情报系统中的应用,并根据理论研究的成果,设计并实现了基于网页探测技术的企业竞争情报系统.全文分三个部分,第一部分(第1章)是文章的绪论
随着计算机网络的日益普及和不断发展,网络结构变得越发复杂,网络设备呈现出多样化的特点。同时,网络还要满足服务质量和安全等方面的需要。传统的SNMP网络管理已经不能适应网络
“软件复用”和“软件体系结构的深入研究”是现代软件开发的重要特点。这标志着架构与微架构已经得到了人们的高度重视。框架的选择或构建就是系统的微架构。框架是面向对象
  本论文从单纯的技术层面转向依托技术从人的层面、文化的层面,基于网络环境,从一个可行的、并且有现实意义的维度对学习软件的跨文化可移性进行研究,构建一个真正有效的支持
本文主要是对城域网中一种新型的数据传输技术—弹性分组环(RPR),进行了详细地探讨和深入地研究。文章首先全面地介绍了弹性分组环背景知识,协议模型以及网络与节点结构,然后
信息隐藏(Steganography)是一种用于秘密通讯的技术。这种技术的特点是在信息中隐藏信息,把要通讯的信息嵌入到正常的信道中,隐藏了实际要通讯的信息,它的这种隐蔽性增强了通讯
组件式智能空间信息平台是一个综合的信息系统,涉及到地理信息系统、智能系统和组件化等相关内容,它的建设也是一个复杂的过程。本文主要探讨组件式智能空间信息平台研发与应
随着互联网数据规模的指数级增长,如何有效存储和分析这些数据成为非常有挑战的一个问题。为了应对大数据的挑战,涌现出了各种分布式存储和计算系统。其中分布式非关系型数据
本文首先介绍了移动Ad Hoc网络的基本概念与MPLS技术的基本原理,然后分析了目前研究的现状和所存在的主要问题:现有的MPLS技术缺乏对动态网络拓扑结构的有效支持。在这些研究的
在现代化的教学方法中,E-learning系统发挥着重要的作用。在提供内容丰富、形式灵活多样的教学内容以及规范化的教学过程管理之外,E-learning系统还有一个重要的功能,即:在教师