基于n-gram的大规模中文文档聚类研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:nannalee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们提出了一种基于n-gram的大规模中文文档自动聚类方法.该方法将自动聚类首次引入中文文档语义信息组织中,绕开了切词、语法分析等复杂的语言学问题.该研究可应用于网络信息超链的自动生成、信息检索、信息过滤、自动分类训练文档集的构造以及无需词典的交叉语言检索中.论文第一部分论述了自动分类与自动聚类的概念、简要介绍和比较了现有的著名自动分类算法与自动聚类算法.论文第二、三部分是该文的重点.第二部分具体、深入的介绍了什么是n-gram、在进行聚类前所必需的预处理过程和方法、K.M.A聚类算法的原理和步骤、Engrammes系统的功能和使用方法.第三部分则在第二部分的基础上详细描述了实验数据源和实验过程,并通过分类和表格的形式展示了实验所得的全部数据.
其他文献
随着计算机网络的广泛使用,网络之间信息的传输量不可避免的急剧增长,针对网络进行的入侵和攻击行为也层出不穷,提高网络的安全性和可靠性成为人们目前关心和研究的主要问题.
本文对光纤在线监测系统的国内外研究现状进行了调查研究,特别是对国内一些厂家的相关产品及市场占有情况作了比较深入的调研.通过对北京世纪瑞尔技术股份有限公司开发的Fibe
该文详尽分析了现有Web推荐系统使用的技术和存在的问题,在已有的Web数据模型基础上,结合Web挖掘技术对Web用户的访问模式发现、个性化推荐进行深入研究和探讨,提出了一个快
将实时网络与中间件技术相结合,针对实时分布系统对透明的实时数据传输、实时分布的任务调度和异构平台集成的需求,研究满足上述需求的实时网络技术。 使用实时网络来解决计
随着计算机信息技术和互联网技术的发展,社会各行各业的分工、业务流程、管理流程在发生着重大的改变。而如何运用先进的信息技术构建电子政府,实践电子政务,以电子化、信息化手
在数据库技术发展过程中,联机事务处理(OLTP,On-Line Transaction Processing)一度占据着数据库应用的主流.随着市场竞争的加剧,企业需要对自身业务的动作及市场相关行业的发
近年来,嵌入式系统以其可靠性强、体积小、专用性、成本低等特性得到日益广泛的应用。与此同时,一个独立的嵌入式系统的功能缺陷也逐渐暴露出来。新一代嵌入计算系统的功能集成
随着信息技术的飞速发展,尤其是智能个人助理、智能客服、智能教育等应用的出现,人们已经不仅仅将互联网作为一个资料查询的工具,而且期望它能够智能地替人们完成信息筛选、归纳
Enterprise JavaBean(EJB)组件是基于J2EE规范的服务器端组件的体系结构。通过EJB规范可以开发和部署可扩展的、健壮的、安全的分布式应用。系统性能是设计EJB组件体系时需要
该文在综述了基本情况后,分析了采用XML文档进行信息提取的优点,提出了一个基于XML的中间文档格式IEML(Information Extraction Markup Language),包括文档的标题、篇章结构