基于机器学习的生物多样性中文文档的信息抽取研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:qqqqqqwer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取(Information Extraction)的核心在于识别和提取文档中用户感兴趣的数据,并以更为结构化、语义更为清晰的形式表示,为用户查询数据、应用程序利用数据提供便利。近年来国内外已有多位研究者面向各个领域开展信息抽取研究并获得一定成效。介于日益严峻的环境问题对生态和生物研究提出了更高、更紧迫的要求。本文选用生物多样性作为研究领域。物种描述是生物学和生态学的起点,相关文档应为首要进行信息组织和利用的对象。然而分类学描述通常采用自然语言,内容缺乏一致性,难以得到有效地利用。为完善生物学和生态学研究的支持基础,已有多个机构及研究者试图传统格式的分类描述文本转化成新的数字格式(XML或RDF),试图为基于语义的信息组织和利用奠定基础。其中cui等设计开发的MARTT系统实现了良好的标注效果,其自行构建的先导词算法,在标注准确率和召回率上都优于其它两种常用机器学习方法,即支持向量机和朴素贝叶斯。本文通过深入研究MARTT的系统原理,和自建的机器学习算法,选用中国植物志中的物种分类学描述为数据集,设计实现了针对生物多样性中文文档的语义标注系统。文章主要包含了五个部分的内容:(1)数据集的获取与XML标引,本文设计了植物分类学描述的XML标引结构,并将收集的PDF格式的描述文档进行格式转换和XML标引。(2)中文分词软件的选用,本文通过对比不同中文分词软件的分词效果,选用最合适研究中语词切分的相关软件。(3)标注算法的构建。本文设计实现了适用于中文植物分类学文档的机器学习算法,用于实现语义标注。(4)对比研究平台的搭建。本文采用LIBSVM软件包,运用支持向量机算法对文档进行了分类测试。(5)标注效果的评估。本文将数据集合区分为训练集合和测试集合,运用从训练集合获知的标注规则对测试集合进行标注。通过标注准确率对标注结果进行评估。评估结果显示,系统基本完成了对描述文档主要结构的标注,对个别元素的标注结果还有待改善,且总体优于SVM文本分类系统所产生的标注结果。本文将基于机器学习的语义标注应用于植物分类学文档是十分有意义的。首先选用《中国植物志》作为数据集来源具有较强的现实意义和潜在的应用价值,其次语义标注为基于语义的信息组织与利用研究的基础和核心内容,语义标注工作完成后,能够在此基础上开展XML结构化检索、联合搜索等信息创新用法。最后,该项工作对生物学和生态学研究起到一定的支持作用,对于其他领域相关研究的开展也具有极其现实的借鉴价值。本文初步地对系统的几个重要部分进行了介绍并提出了解决问题的方法,并对各部分进行了实现。研究还需在数据集合的丰富、标引工作的简化、标引结构的优化、系统的通用性实现等方面做更多的工作。
其他文献
<正>2012年12月5日,自治区林业厅16位在职在编正科级以上干部参加了2012年机关竞争性选拔林编室主任、法规处副处长、产业处副处长、防火处副处长、基金站副站长等5个处级岗
复杂地形的风能资源形成原因和特征众多,导致风机点位的确定考虑因素众多。现场微观选址的方法和注意事项,关乎风电场建设。复杂地形风电场中微观选址过程中地形图的外延、测
针对环境成本管理问题,采用生命周期的分析方法,从产品生命周期的角度来阐明环境成本的概念、内容,以及产品生命周期各阶段对环境成本的影响,提出生态设计、清洁生产和环境营
<正>0引言随着计算机的发展,网络技术已经渗透到社会上的每个角落,给人们的生活和工作带来了翻天覆地的变化。计算机网络作为一种现代化办公工具,在我国各事业单位的办公上发
王家湾油区位于鄂尔多斯盆地陕北斜坡东部地区,主要的开发层系为长21油层组,具有典型的低孔低渗特征,王家湾油区于2005年已进入注水开发阶段,但注水效果不明显。为了更好的指
在当代中国,提炼社会主义核心价值观,是进一步推进社会主义核心价值体系建设和马克思主义大众化的必然要求,是加强社会主义意识形态建设的紧迫之需。提炼社会主义核心价值观,
<正>从旅游业发展特点看,旅游业是产业关联度高、产业链长、带动功能强的行业。据有关部门估算,秦皇岛旅游者的购买力占全市近30%,发展旅游业带动了三产、繁荣了三产。而事实
现代工业社会的发展离不开电力能源的供应,而火力发电作为我国最主要的电力制造形式也越来越受到人们的关注。随着科技的发展,计算机信息技术、PLC系统等的应用大大提高了发
钛基材料具有优良的物理化学性能和一定的生物相容性,在生物材料领域得到了广泛应用。但钛作为应用于心血管人工器官和器械的材料,其长期抗凝血性仍有待进一步提高,此外钛与
随着信息社会、信息文明和网络经济的发展,各种信息已经成为人类社会发展最重要的战略资源之一。在这样的社会大背景下,《中华人民共和国政府信息公开条例》的实施就同时具有