基于n-gram的大规模中文文档聚类研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户：nannalee

【摘要】

：

我们提出了一种基于n-gram的大规模中文文档自动聚类方法.该方法将自动聚类首次引入中文文档语义信息组织中,绕开了切词、语法分析等复杂的语言学问题.该研究可应用于网络信

【作者】

：

杨海棠

【机构】

：

华中师范大学

【出处】

：

华中师范大学

【发表日期】

：

2003年期

【关键词】

：

自动聚类 n-gram 中文文档数据挖掘自动分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

我们提出了一种基于n-gram的大规模中文文档自动聚类方法.该方法将自动聚类首次引入中文文档语义信息组织中,绕开了切词、语法分析等复杂的语言学问题.该研究可应用于网络信息超链的自动生成、信息检索、信息过滤、自动分类训练文档集的构造以及无需词典的交叉语言检索中.论文第一部分论述了自动分类与自动聚类的概念、简要介绍和比较了现有的著名自动分类算法与自动聚类算法.论文第二、三部分是该文的重点.第二部分具体、深入的介绍了什么是n-gram、在进行聚类前所必需的预处理过程和方法、K.M.A聚类算法的原理和步骤、Engrammes系统的功能和使用方法.第三部分则在第二部分的基础上详细描述了实验数据源和实验过程,并通过分类和表格的形式展示了实验所得的全部数据.

其他文献

入侵检测系统分析引擎的研究与实现

随着计算机网络的广泛使用,网络之间信息的传输量不可避免的急剧增长,针对网络进行的入侵和攻击行为也层出不穷,提高网络的安全性和可靠性成为人们目前关心和研究的主要问题.

学位

网络安全入侵检测误用检测状态转换分析技术(STAT)

光纤在线监测系统的研究

本文对光纤在线监测系统的国内外研究现状进行了调查研究,特别是对国内一些厂家的相关产品及市场占有情况作了比较深入的调研.通过对北京世纪瑞尔技术股份有限公司开发的Fibe

学位

在线监测光纤故障光纤监测系统

基于WEB的推荐技术的研究与实现

该文详尽分析了现有Web推荐系统使用的技术和存在的问题,在已有的Web数据模型基础上,结合Web挖掘技术对Web用户的访问模式发现、个性化推荐进行深入研究和探讨,提出了一个快

学位

Web推荐技术多层关联规则增量更新Web数据挖掘

面向实时分布系统的实时网络技术研究

将实时网络与中间件技术相结合，针对实时分布系统对透明的实时数据传输、实时分布的任务调度和异构平台集成的需求，研究满足上述需求的实时网络技术。使用实时网络来解决计

学位

实时分布系统实时网络集成SBS

基于数据仓库的外贸业务智能决策系统

随着计算机信息技术和互联网技术的发展，社会各行各业的分工、业务流程、管理流程在发生着重大的改变。而如何运用先进的信息技术构建电子政府，实践电子政务，以电子化、信息化手

学位

外贸业务决策支持数据仓库联机分析处理（OLAP）数据挖掘（DM）XML Web服务简单对象访问协议。

数据仓库主动更新机制研究

在数据库技术发展过程中,联机事务处理(OLTP,On-Line Transaction Processing)一度占据着数据库应用的主流.随着市场竞争的加剧,企业需要对自身业务的动作及市场相关行业的发

学位

数据仓库数据仓库更新ECA规则

嵌入式实时网络通信技术研究

近年来，嵌入式系统以其可靠性强、体积小、专用性、成本低等特性得到日益广泛的应用。与此同时，一个独立的嵌入式系统的功能缺陷也逐渐暴露出来。新一代嵌入计算系统的功能集成

学位

嵌入式系统网络实时以太网RTCC协议TCP/IP协议OSI参考模型

大规模知识推理及其在深度问答中的应用研究

随着信息技术的飞速发展，尤其是智能个人助理、智能客服、智能教育等应用的出现，人们已经不仅仅将互联网作为一个资料查询的工具，而且期望它能够智能地替人们完成信息筛选、归纳

学位

大规模知识推理规则挖掘概率逻辑深度问答

用于智能交通系统的EJB组件研究及其性能分析

Enterprise JavaBean(EJB)组件是基于J2EE规范的服务器端组件的体系结构。通过EJB规范可以开发和部署可扩展的、健壮的、安全的分布式应用。系统性能是设计EJB组件体系时需要

学位

企业Bean组件J2EE规范排队系统随机服务过程智能交通系统性能

基于XML的文档信息提取技术研究

该文在综述了基本情况后,分析了采用XML文档进行信息提取的优点,提出了一个基于XML的中间文档格式IEML(Information Extraction Markup Language),包括文档的标题、篇章结构

学位

XML信息提取PDFWORD文档标记语言

基于n-gram的大规模中文文档聚类研究

与本文相关的学术论文