论文部分内容阅读
分类作为人类认识世界的一种重要认知手段已经存在很长时间。计算机的问世与普及使用,使得分类成为计算机及相关领域的研究重点,特别是Internet出现以后,在线文本文档剧增,文本的分类就成为广泛关注和研究的关键技术之一。文本分类的一个重要应用领域是数字图书馆。目前,数字图书馆正成为全球范围内信息基础设施建设的热点领域,是二十一世纪全球文化与科技竞争的焦点之一,而数字图书馆建设的基础是元数据的组织和建设。元数据是关于数据的结构化数据,为数字图书馆提供了一种精确描述数据内容、语义和服务的机制。本文就文本分类及其在数字图书馆中的应用进行研究,主要涉及以下4个问题:训练文档的支持向量预抽取、文本特征评估、元数据自动抽取、知识本体元数据。1.定义了凸包相对边界向量方法,获取凸包边界上的边界向量,然后依此边界向量为训练样本来求解支持向量,简化求解二次规划的运算量,从而有效提高支持向量机的训练速度。2.定义了文本特征评估方法,找出类别的重要特征和噪音特征,然后根据分类结果评估测试样本和训练样本的质量,优化和扩充文本库,逐步提高学习样本的质量、扩大文本库的范围,并根据样本质量修改样本在分类模型中的权重,提高分类系统的性能及其对不断变化的外界的适应性。3.定义了元数据的抽取策略与抽取规则。在信息抽取的研究领域,有两条主要的技术路线:基于规则的路线与基于统计模型的路线。基于规则的主要思路是通过分类文本的特征、结构等信息,寻找到一些用于抽取的规则。基于统计模型的基本思想是寻找一个合适的模型,通过改变模型的参数和训练样本集合来达到对应用领域的适应。4.提出了数字图书馆元数据的知识本体。元数据提供数字图书馆的语义基础,使资源有了基本的微观结构,但是元数据并不能完全解决信息系统的语义异构问题,而本体能够对这些情况进行很好地描述,从而为信息的组织、管理以及检索、查询提供模型和方法。