生物多样性描述文本的语义标注算法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:bossvv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
物种描述是生物学和生态学的起点,两百多年来积累了海量文献。为了满足生物学和生态学领域对物种描述信息的自动语义处理和细粒度检索的需求,物种描述文本的结构化和半结构化成为该学科领域知识基础设施建设的重要任务。由于物种描述信息的绝大部分是以人类可读的形式存在的,因此,存在于文本中的科学事实需要人类智慧来分析和理解。为了使科学事实更便于利用,及生物和生态研究的重复利用,需要一个有效的机制,从主体文件中提取准确的科学事实,并把他们转换成计算机可以理解的形式。这个过程称为语义标注。然而,以手工方式根本无法完成海量文本的转换。因此,物种描述文本的自动语义标注成为亟待突破的领域。本研究以中文生物多样性描述文档为样本,进行语义标注算法研究。文章主要包括五个部分的内容:(1)准备研究样本。本研究采取随机抽样和分层抽样相结合的方式,从《中国植物志》中采集1000个文档作为数据集,并根据已有的schema对数据集进行XML标引。(2)语词切分。语词切分是语义标注的基础,直接影响标注结果。本研究通过对比不同中文分词软件的分词效果,选用易用性和准确性最好的ICTACLAS作为本研究的语词切分工具。(3)构建语义标注算法。本研究自建算法,利用机器学习最大限度地识别所有领域概念,提供标注目标,进而标注复杂文本。并选用经典机器学习算法朴素贝叶斯作为比较的基准。(4)三种算法分别根据学习到的经验对测试样本进行语义标注,生成相应的XML文档。(5)标注效果的评估。本文将数据样本区分为训练集和测试集,运用从训练集获知的标注规则对测试集进行标注。通过标注准确率对标注结果进行评估。评估结果显示,系统完成了对描述文本一层元素和二层大部分元素的标注,对部分二层元素的标注结果还有待改善。进行一层标注时,优先规则算法的效率最好,整体标注结果最佳达0.928,但时间成本也是最高的;二层标注时,优先规则算法优于朴素贝叶斯算法和基础规则算法,标注结果为0.854,时间成本上,朴素贝叶斯仅需2分钟,基础规则算法需要4个小时,而优先规则算法则多达十几个小时。另外,采用先导词后,三种算法的标注结果均有不同程度的提高。因此,我们认为先导词是设计标注算法时应重点考虑的因素,其中重要的原因是采用先导词可以有效降低系统的计算成本。在小样本测试时可以忽视由此产生的优势,但对于实用系统在处理海量文本时则具有重大意义。本文初步地对系统的几个重要部分进行了介绍,并对各部分进行了实现。研究还需在schema的订正和扩展、标引工作的简化、系统的通用性、领域新词识别实现等方面做更多的工作。
其他文献
推进城市化学校的进程,在于学校管理者要有前瞻的目光,前沿的信息管理能力;在于外塑形象,内炼品质;在于做好顶层设计,理顺各种关系;在于坚持立德树人导向,加强智慧校园管理;
<正>在电子商务网站,互联网的安全防御相当重要,尤其是牵扯到支付这一块的。本文总结了一些比较通用的web安全防御常识,供大家参考一下。1.信息传输加密https使用对称加密还
纳税是一个企业对社会所尽的义务,但同时税收又给企业带来了较重的压力。随着新税法的施行,企业对税收筹划的认识,成为各方关注的焦点。基于此目的,本文从企业税收筹划的基本
建筑行业农民工的工伤保险问题,已经引起枉会各界的广泛关注,建立适合建筑行业农民工的工伤保险制度是保护农民工健康和维护社会稳定的必要条件。本文通过分析建筑行业农民工工
2003年以来中国出现信访高峰,研究信访问题对建立和谐社会和理解我国政治体制的运作具有重要意义。本文运用契约理论的分析方法构建理论模型,把信访中的上访看作中央对地方官
在新民主主义革命、社会主义革命和社会主义建设过程中,毛泽东十分重视理论与建设经验的学习问题,形成了自己独特的学习思想,毛泽东的学习思想是毛泽东思想的有机组成部分,其
目的探究在血常规检查中如何鉴别诊断缺铁性贫血与地中海贫血。方法选自我院2010年~2012年进行血常规检测的病理报告共150份,其中检测结果分别有正常、缺铁性贫血以及轻型地中
虽然英语习语的交际语用功能非常多元,但通过纵横比较,还是可以找到目前国内外研究成果中的一些交叉点,包括:表意、亲和、关联、节约、教育与评价等。尝试本身的意义在于从一
古典主义是17-18世纪欧洲文论的主要代表之一,它始于法国并深刻影响到英国及德国等国家,持续时间达两个世纪。本文试从古典主义发生的社会背景以及法国古典主义的美学理念这
本文主要运用文献研究、理论研究的方法,参照动物试验与临床观察的结果,论证了温肝阳与滋肾阴合用,以时相组合的方式,改善运动性疲劳的理论基础。文章采用文献研究的方法,搜