文本分类技术在数字图书馆中的应用与研究

来源 :首都师范大学 | 被引量 : 12次 | 上传用户:liongliong521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类作为人类认识世界的一种重要认知手段已经存在很长时间。计算机的问世与普及使用,使得分类成为计算机及相关领域的研究重点,特别是Internet出现以后,在线文本文档剧增,文本的分类就成为广泛关注和研究的关键技术之一。文本分类的一个重要应用领域是数字图书馆。目前,数字图书馆正成为全球范围内信息基础设施建设的热点领域,是二十一世纪全球文化与科技竞争的焦点之一,而数字图书馆建设的基础是元数据的组织和建设。元数据是关于数据的结构化数据,为数字图书馆提供了一种精确描述数据内容、语义和服务的机制。本文就文本分类及其在数字图书馆中的应用进行研究,主要涉及以下4个问题:训练文档的支持向量预抽取、文本特征评估、元数据自动抽取、知识本体元数据。1.定义了凸包相对边界向量方法,获取凸包边界上的边界向量,然后依此边界向量为训练样本来求解支持向量,简化求解二次规划的运算量,从而有效提高支持向量机的训练速度。2.定义了文本特征评估方法,找出类别的重要特征和噪音特征,然后根据分类结果评估测试样本和训练样本的质量,优化和扩充文本库,逐步提高学习样本的质量、扩大文本库的范围,并根据样本质量修改样本在分类模型中的权重,提高分类系统的性能及其对不断变化的外界的适应性。3.定义了元数据的抽取策略与抽取规则。在信息抽取的研究领域,有两条主要的技术路线:基于规则的路线与基于统计模型的路线。基于规则的主要思路是通过分类文本的特征、结构等信息,寻找到一些用于抽取的规则。基于统计模型的基本思想是寻找一个合适的模型,通过改变模型的参数和训练样本集合来达到对应用领域的适应。4.提出了数字图书馆元数据的知识本体。元数据提供数字图书馆的语义基础,使资源有了基本的微观结构,但是元数据并不能完全解决信息系统的语义异构问题,而本体能够对这些情况进行很好地描述,从而为信息的组织、管理以及检索、查询提供模型和方法。
其他文献
为了研究燃料电池在不同工艺环境下的放电特性,该方案通过自行搭建燃料电池测试平台,采用理论计算、计算机建模仿真与实验相结合的方法,确定燃料电池的最佳工作性能。在燃料
当代科技水平飞速提高,丰富的信息传播途径,市场经济的全球化发展,都不可避免的导致企业竞争环境日益复杂。如今,企业间的竞争已不再局限于物质资源的竞争,还涉及情报策略的
本文以原创动画企业低成本生产模式为切入点,首先探讨了动画低成本生产模式的概念,以及在目前产业环境下原创动画企业采取低成本生产模式的原因,和低成本生产模式在我国的发
战略性新兴产业是我国转变经济发展方式的必然选择,而资金融通是其发展的基础和保障.文章在分析我国战略性新兴产业现有融资途径以及传统的融资手段无法适应创业期的战略性新
<正>2011年1月1日新《工伤保险条例》正式实施,新条例进一步明确和扩大了职工上下班途中工伤认定的范围,却也引发了一系列新的思考,诸如上下班途中工伤如何界定、非交通事故
<正>法国的社会保障制度经历了二百多年的漫长发展过程,从19世纪初开始出现,到20世纪中期逐步完善,逐步发展形成了今天的规模和水平。法国社会保障制度的前身是私营行业保险
本文在调研国内外介质阻挡放电臭氧发生器电源的发展现状基础上,探讨了电源设计中相关电路问题,研制了几种用于介质阻挡放电(DBD)臭氧发生器电源,应用到相应的实际工程中。本
周末,去菜市场买菜,见一老者卖槐树花,身边围了好几个人,问他价格多少,答曰每斤20元,少了还不卖,真是物以稀为贵啊。槐树,落叶乔木,羽状复叶,花淡黄色,结荚果,圆筒形。花可制
<正>中小型铁路站房,遍布全国铁路网,建筑规模一般在15 000 m~2以下,与大型枢纽客站相比,具有建筑规模小、建设标准低、公众关注度低的特点,然而作为铁路交通的重要节点,却对
班主任工作中的辩证法●河南省平舆县西洋店中心学校段纪录●中国人民大学马列所王来金在班主任管理学生过程中,对待学生宽严关系的把握问题是一个最常见也最难妥善解决的问题