论文部分内容阅读
面对浩如烟海的电子信息,如何帮助人们有效地收集和选择感兴趣的信息,如何帮助用户在日益增多的信息中发现潜在有用的知识,目前已成为信息技术领域研究的热点问题之一。数据挖掘就是为解决这一问题而产生的研究领域。由于现实生活中绝大部分信息资源是以非结构数据的形式存在,而数据挖掘则普遍以结构化数据为对象,因此对非结构化信息进行挖掘成为数据挖掘之后出现的又一重要课题。在常见的非结构化数据中,文本数据是应用最为广泛的一种形式。常用于数字图书馆、产品目录、新闻组、医学报告、组织及个人主页。在自然语言理解、文本自动摘要、信息提取、信息过滤、信息检索等领域,文本挖掘技术都有着广泛的应用,因此具有更高的商业价值。形式概念分析是德国学者Wille于1982年首先提出的一种数学理论,概念格结构模型是它的核心数据结构。概念格本质上描述了对象和属性之间的联系,表明了概念之间的泛化和例化关系。目前形式概念分析已被广泛地研究,并应用于机器学习、信息检索和软件工程等领域。本体是共享概念模型的形式化规范说明。本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,在计算机的许多领域得到了广泛的应用,如知识工程、数字图书馆、软件复用、信息检索和Web上异构信息的处理、语义Web等。本文以文本数据为研究对象,以形式概念分析和本体为工具,研究了文本挖掘中的文本特征提取、文本聚类、文本分类等问题。本文的研究工作和创新包括以下两个方面:(1)文本聚类是文本挖掘中的一种重要方法。基于形式概念分析和概念相似度,给出了一种新的多背景文本模糊聚类方法和模型。该方法不仅考虑了多背景关键词之间的语义关系,而且通过非距离计算得到模糊相似矩阵。可根据不同要求得到相应的聚类结果,具有较好的灵活性。最后通过示例说明了所给算法的可行性。(2)文本分类在文本挖掘和文本管理中扮演着重要角色,在文本预处理阶段引入核本体Wordnet丰富文本的表示形式,提高了文本表示的泛化能力。然后采用KNN算法对文本进行分类。最后在标准文集Reuters-21578上的实验表明,在文本分类中与没有使用本体相比,使用本体的某些策略能取得更好的效果。