生物学文献的自动标引系统的研究与开发

被引量 : 4次 | 上传用户:Chunbo_Huang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪是生命科学的世纪,生命科学的发展迅猛无比,在整个自然科学中占据着极其重要的地位。国内外生物科学工作者已取得诸多令人瞩目的科研成果,随着internet的发展,充分利用和高效检索海量的科技成果导致对文献信息检索的准确性和全面性要求更为严格。要在浩如烟海的生物学文献中查找所需要的文献,需要建立数据分类更加明确简单,检索更加方便快捷的文献数据库。对文献进行准确标引能提高检索的查全率和查准率。手工标引存在工作量大、效率低下、难以规范化等缺点,开展对标引工作的自动化——自动标引研究已是一项非常重要而紧迫的任务。 当前,由于在生物学文献的手工标引过程中存在着工作量大、效率低下、难以规范化等缺点,数字化的生物学文献在网络上无歧义地快速交换受到了严重的制约,并成为实现生物学文献交互的瓶颈。本文研究将改进的MM算法应用在生物学文献领域的自动分词中,通过在生物学文献的自动分词过程中同时引入正向匹配算法和逆向匹配法,从而实现对生物学文献的自动分词,并以此为基础实现基于词典的生物学文献的自动标引系统。本文的主要工作包括: 基于现存的生物学文献主题词表资源,提出了生物学文献词表的构建过程和构建方法。依据生物学文献,本文构建了生物学停用词表、生物学特例词表、生物学关键词表、以及生物学文献统计词表,形成了生物学学文献抽词词典。该词典构建方法使手工标引的过程简化,减少了领域专家的参与度,为生物学文献的自动标引的实现打下了基础。 本文通过分析主题词表的特点,提出了基于改进的MM自动分词算法的生物学文献的自动标引模式,并利用本文建立的生物学抽词词典实现了基于词典的自动标引系统。该自动标引模式充分利用了改进的MM自动分词算法的优点,提高了生物学文献的自动标引正确率。 基于生物学文献数据挖掘,利用词频反映生物学研究规律,识别新词,完
其他文献
创业投资在迅速成长的创业企业的公司治理中扮演了重要的角色。除了为创业企业提供资金以外,创业资本家还通过提供多样化服务为创业公司增加价值。他们帮助公司制定发展战略,
【正】 关于曹禺与易卜生剧作之间的显著联系,是曹禺自己一再提及并为戏剧研究者们所关注的,因为这种联系是曹禺的戏剧融汇进世界戏剧潮流中去的一条重要渠道。美国戏剧理论
作为现代成像系统中必不可少的一项关键技术,自动对焦技术得到了越来越广泛的应用,涉及到日常生活、科学研究和军事应用等各个领域。尽管近年来自动对焦技术的理论和方法发展
离婚损害赔偿赔偿制度,是2001年在《中华人民共和国婚姻法》的修改中,根据我国改革开放以来社会形势的发展变化,针对婚姻家庭中出现的新问题、新情况而设立的,它体现了对婚姻
基于胸阻抗法和自适应滤波方法实现对心排量等血液动力学参数的实时监测与计算。首先详细介绍胸阻抗法计算心排量的测量模型与原理,推导计算公式,对系统的心电、心阻抗、呼吸
<正>家族企业的融资行为随家族企业生命周期的形成多维波动,导致资本需求的多样性和融资行为的复杂性。伴随着企业生命形态的演变过程,家族企业融资行为各不相同,特别在成长
【正】 乾陵是唐高宗李治(628—683年)和武则天(624—705年)的合葬陵墓,位于陕西省乾县北门外6公里处的梁山上,距西安市约85公里,为陕西省境内唐十八陵中保存比较完整的一座
钢筋混凝土桥梁结构随着时间发展会出现老化和损伤,而且加之桥梁结构的使用频率、承受荷载都随着经济和社会的发展而增加,从而引起桥梁的耐久性降低和承载力不足,这些原因使
关中城市群聚集了陕西省80%的科技实力和73%的国内生产总值,具有带动陕西省经济快速增长的巨大潜力,是陕西省经济发展的核心主体,是国家西部大开发战略布局中欧亚大陆桥经济