文本分类技术在数字图书馆中的应用与研究

来源 :首都师范大学 | 被引量 : 12次 | 上传用户：liongliong521

【摘要】

：

分类作为人类认识世界的一种重要认知手段已经存在很长时间。计算机的问世与普及使用，使得分类成为计算机及相关领域的研究重点，特别是Internet出现以后，在线文本文档剧增，文本的

【作者】

：

张超林

【出处】

：

首都师范大学

【发表日期】

：

2007年01期

【关键词】

：

数字图书馆文本分类支持向量机元数据本体

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

分类作为人类认识世界的一种重要认知手段已经存在很长时间。计算机的问世与普及使用，使得分类成为计算机及相关领域的研究重点，特别是Internet出现以后，在线文本文档剧增，文本的分类就成为广泛关注和研究的关键技术之一。文本分类的一个重要应用领域是数字图书馆。目前，数字图书馆正成为全球范围内信息基础设施建设的热点领域，是二十一世纪全球文化与科技竞争的焦点之一，而数字图书馆建设的基础是元数据的组织和建设。元数据是关于数据的结构化数据，为数字图书馆提供了一种精确描述数据内容、语义和服务的机制。本文就文本分类及其在数字图书馆中的应用进行研究，主要涉及以下4个问题：训练文档的支持向量预抽取、文本特征评估、元数据自动抽取、知识本体元数据。1．定义了凸包相对边界向量方法，获取凸包边界上的边界向量，然后依此边界向量为训练样本来求解支持向量，简化求解二次规划的运算量，从而有效提高支持向量机的训练速度。2．定义了文本特征评估方法，找出类别的重要特征和噪音特征，然后根据分类结果评估测试样本和训练样本的质量，优化和扩充文本库，逐步提高学习样本的质量、扩大文本库的范围，并根据样本质量修改样本在分类模型中的权重，提高分类系统的性能及其对不断变化的外界的适应性。3．定义了元数据的抽取策略与抽取规则。在信息抽取的研究领域，有两条主要的技术路线：基于规则的路线与基于统计模型的路线。基于规则的主要思路是通过分类文本的特征、结构等信息，寻找到一些用于抽取的规则。基于统计模型的基本思想是寻找一个合适的模型，通过改变模型的参数和训练样本集合来达到对应用领域的适应。4．提出了数字图书馆元数据的知识本体。元数据提供数字图书馆的语义基础，使资源有了基本的微观结构，但是元数据并不能完全解决信息系统的语义异构问题，而本体能够对这些情况进行很好地描述，从而为信息的组织、管理以及检索、查询提供模型和方法。

其他文献

不同工况下燃料电池混合驱动测试系统设计与构建

为了研究燃料电池在不同工艺环境下的放电特性,该方案通过自行搭建燃料电池测试平台,采用理论计算、计算机建模仿真与实验相结合的方法,确定燃料电池的最佳工作性能。在燃料

期刊

燃料电池装卸搬运设备不同工艺环境不同工况混合动力

基于知识本体的企业竞争情报系统机理分析及系统实现

当代科技水平飞速提高,丰富的信息传播途径,市场经济的全球化发展,都不可避免的导致企业竞争环境日益复杂。如今,企业间的竞争已不再局限于物质资源的竞争,还涉及情报策略的

学位

知识本体企业竞争情报机理系统实现

浅析中国原创动画低成本生产模式存在的问题

本文以原创动画企业低成本生产模式为切入点,首先探讨了动画低成本生产模式的概念,以及在目前产业环境下原创动画企业采取低成本生产模式的原因,和低成本生产模式在我国的发

学位

原创动画有限动画低成本生产模式动画企业管理动画成本控制报酬递增率有限理性

私募股权基金促进战略性新兴产业发展研究

战略性新兴产业是我国转变经济发展方式的必然选择,而资金融通是其发展的基础和保障.文章在分析我国战略性新兴产业现有融资途径以及传统的融资手段无法适应创业期的战略性新

期刊

战略性新兴产业融资困境私募股权基金

职工上下班途中工伤认定的三大难点

<正>2011年1月1日新《工伤保险条例》正式实施,新条例进一步明确和扩大了职工上下班途中工伤认定的范围,却也引发了一系列新的思考,诸如上下班途中工伤如何界定、非交通事故

期刊

上下班途中意外事故工伤认定交通事故伤害

法国医疗保险制度掠影

<正>法国的社会保障制度经历了二百多年的漫长发展过程,从19世纪初开始出现,到20世纪中期逐步完善,逐步发展形成了今天的规模和水平。法国社会保障制度的前身是私营行业保险

期刊

医疗保险制度

臭氧发生器电源的研制及有关电路问题的探讨

本文在调研国内外介质阻挡放电臭氧发生器电源的发展现状基础上,探讨了电源设计中相关电路问题,研制了几种用于介质阻挡放电(DBD)臭氧发生器电源,应用到相应的实际工程中。本

学位

臭氧发生器介质阻挡放电(DBD)逆变电源缓冲电路

槐树花

周末,去菜市场买菜,见一老者卖槐树花,身边围了好几个人,问他价格多少,答曰每斤20元,少了还不卖,真是物以稀为贵啊。槐树,落叶乔木,羽状复叶,花淡黄色,结荚果,圆筒形。花可制

期刊

槐树染料作物镰刀炒熟

中小型铁路客站建筑设计安全策略

<正>中小型铁路站房,遍布全国铁路网,建筑规模一般在15 000 m~2以下,与大型枢纽客站相比,具有建筑规模小、建设标准低、公众关注度低的特点,然而作为铁路交通的重要节点,却对

期刊

铁路客站安全策略建筑设计旅客地道铁路站房中小型

班主任工作中的辩证法

班主任工作中的辩证法●河南省平舆县西洋店中心学校段纪录●中国人民大学马列所王来金在班主任管理学生过程中，对待学生宽严关系的把握问题是一个最常见也最难妥善解决的问题

期刊

班主任工作河南省奖惩制度班干部管理学生自我管理中国人民大学平舆县班级自我管理班干部制度班主任管理学生自治

文本分类技术在数字图书馆中的应用与研究

与本文相关的学术论文