聚类分析在文本挖掘中的应用与研究

被引量 : 0次 | 上传用户:susanna2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现实世界中,文本是信息最重要的载体,事实上,研究表明信息有80%包含在文本文档中。特别是在互联网上,文本数据广泛地存在于各种形式,如新闻报道、电子图书、研究论文、数字图书馆、网页、电子邮件等等。人们迫切需要能够从中快速、有效地发现资源和知识的工具。近年来针对文本数据的文本挖掘已逐渐成为人们研究的新课题。其中,对于文本聚类的研究己经引起了广泛的重视,并取得了良好的成果。本文首先对文本挖掘和聚类分析做了深入的理论研究,回顾了文本挖掘的国内外研究现状及其跟相近领域的关系;以数学的形式表示和讨论了聚类分析中数据的类型、距离、相似系数等基本概念;分析了五种常用的聚类算法,并对各种算法的性能做了分析与比较。本文随后对文本预处理过程和方法做了研究,讨论了将无结构的文本数据转化为聚类算法可以处理的结构化数据的方法。预处理的质量直接影响到了最终的挖掘结果,我们结合文本挖掘的特点对文本预处理过程做了详细的介绍。最后,本文阐述一种主题发现系统。它能发现新数据流中的隐含知识,并将其表述为含有主题/副主题的层次树。每个主题包含与其相关的文档集和文档摘要,以便于用户从生成的层次树中浏览和选择所需主题。我们提出一种增量层次聚类算法,它结合划分聚类和凝聚聚类的主要优点。另外,我们还利用一种基于模式识别中的测试理论的方法为每一层标题提供摘要。实验结果表明,无论是作为主题检测系统还是分类和概括工具,本算法都是高效的。
其他文献
在当今各设计领域中,计算机辅助设计与手绘结合大势所趋,而广告元素制作技术的课程改革就是要整合多门课程内容,所有案例项目都要求手绘与计算机绘制相结合,既利用到了传统的
侦查程序的诉讼化是指根据侦查程序诉讼性的规律、特征和机制,将侦查程序纳入控、辩、裁“三方组合”的诉讼性轨道,使其兼具实体、程序、效率等多元化的诉讼价值:实现侦查程
宋代的许多文人都写过咏梅诗词,生活在民族矛盾异常尖锐的南宋时代的爱国主义诗人陆游和布衣文人姜夔也爱梅成癖,创作了许多咏梅诗词。他们的这种爱梅情结是与所处时代环境及
<正>笔者综合考虑了移动通信车天线升降杆的自重轻、加工工艺等因素,并结合力学公式对移动通信车升降杆进行刚度和强度分析,从而得出了适合移动通信车工作环境的最终设计方案
话剧在中国已有百年历史,它不仅被中国"本土化"了,而且从世界范围来看,这一艺术样式也可以说已经基本上实现了"国际化"。从我国现代文学艺术的历史实况来看,不能不承认话剧是
教师是学校里的中心人物,在学生的心目中具有极高的威信。劳动教育主要是依靠教师进行的。劳动教育进行得好不好,教师有极大的责任。为了有效地进行劳动教育,教师至少要注意
消化性溃疡是临床常见病、多发病,呈世界性分布,估计约有10%的人口一生中患过此病,严重影响人类生活质量。世界各国均高度重视消化性溃疡的研究和防治,本文从中西两个角度对消化性
依法治国首先要宪法至上,突出宪法对法治的作用;宪法内客上的缺陷和外部不良环境是影响宪法至上的障碍;实现宪法至上的途径是完善宪法内容、树立宪法至上意识。
提起"何非光"这个名字,很多人不知道,包括电影圈内人。但是,这个中国电影史上富于传奇色彩的人物是绝对不应被湮没和遗忘的。何非光的人生经历与艺术生涯丰富多彩,跨越两岸三