基于时间和词频的叙词表新术语发现研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:db8533
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学研究领域的不断深入发展,学科领域中有很多已出现但尚未被该领域叙词表或其他知识组织系统收录的术语,这部分术语被称为新术语,及时发现新术语对于把握学科领域的发展变化、更新相应词表系统及自然语言处理、本体构建等研究工作具有重要的辅助作用。当前,叙词表等知识组织系统的生成和更新主要依赖于专家的手工劳动,而网络环境下各个专业领域中信息量突增,新词汇大量涌现,如何从这些新词汇中发现新术语是比较复杂的,这也使得手工更新的速度滞后于新术语的增长速度。
  为提高知识组织系统的更新效率和效果,本文基于新术语特点,包括新术语的新颖性、时间持续性、以及术语性等特征,利用时间序列分析等方法,探索术语的时间及词频分布特征,并主要以《汉语主题词表》中不同类型术语为例进行验证及特征挖掘。根据新术语相关特征,结合对应文档频率在时间点和时间段上的发展分布,通过相关统计分析,研究术语在不同成长时期的分布特征,尤其界定术语在开始期与成长期的分布差异。本文设计相关统计模型,对叙词表新术语其它入选因素进行分析,包括从公共子串角度探索复合型词汇的分类推荐情况。最后综合以上两点,设计较为完整的新术语发现流程。
  以“计算机技术与自动化技术”以及“环境科学及安全科学”领域为例,选取该领域科技文献关键词、相关网络词库以及《汉语主题词表》基础词库作为候选术语,进行在候选术语中识别并筛选新术语的实证研究。并通过对照实验及一定的评价指标验证该方法的有效性及通用性。
  实证证明新术语一般处于术语发展的成长期,当候选新术语保持正向增长趋势超过一定年限,可以认为该术语同时具有新颖性、时间持续性及术语性特征。基于该分布特征进行领域新术语的识别,结合词表编制专家的判断,该方法在新术语收录判断中具有较高的准确率,且能有效识别实际应用中占比较多的低频词。进而可以为英文超级科技词表、《汉语主题词表》等词表知识组织系统的术语更新及维护提供可行性的建议。
其他文献
术语是领域专家用来刻画、描写领域知识的基本信息承载单元,也是科技文献的核心成分,因此术语翻译的准确性将直接影响到科技文献翻译的整体质量。机器翻译系统在翻译篇章级别的科技文献时,通常采用切分句子、逐句翻译再合并翻译的流程。此种翻译策略导致机器翻译系统在句子语境中对其中的术语进行翻译时,通常会遇到两个问题:1)领域不一致:术语具有较强的领域属性,在不同领域和上下文语境中,翻译会有差异,这种在领域发生变
学位
改革开放至今,我国对外经济发展形式逐渐从简单的以劳动力和自然资源等为主的基础生产要素输出以及以产能和资本输出为主的产品输出,转向为以技术、标准、服务等打包的输出方式。尽管如此,我国在以知识和技术贸易为代表的国际科技合作中与发达国家仍存在差距。技术输出对于加速实现从中国制造到中国创造的转型升级,向先进的技术输出、标准输出国转变提供了一个历史性机遇。2013年“一带一路”倡议的提出则是我国推动技术输出
近年来,全球恶性肿瘤发病率和死亡率持续升高,如何利用已有的诊疗经验进行归纳总结,挖掘潜在的、有效的诊疗关系,以加强恶性肿瘤防治工作,成为医务工作者迫切需要解决的问题。随着我国医药卫生信息化的发展,各大医院已经积累了丰富的中文肿瘤电子病历。电子病历中蕴含着丰富的医学事实,然而其非结构化的文本结构,包含大量的医学专业术语、缩略语等特点,给大数据环境下电子病历的组织和利用带来极大的挑战。知识图谱作为人工
在当前专利申请量和无效请求量剧增的背景下,本研究探索用人工智能方法辅助专利审查工作,提高审查工作的效率与专利授权的准确性,促进科技进步。研究中将审查工作中对于对比文献的检索问题转化为判断目标专利与对比文献是否相关的分类问题,并用深度学习代替人工阅读,解决专利的可专利性判断问题,从而将专利审查工作转化为专利相关性判定模型构建和专利无效判定模型构建两个步骤。  本研究首先针对传统的基于信息检索查找对比
开源科技情报类型多样、数量繁多,真正有价值的信息可能会被海量的无效信息淹没,为了应对这种情况,实现对数据的收集、处理、描述,获得满足用户需求的高情报价值数据,本文提出服务于开源科技情报感知的数据价值评估模型研究。  本文完成的核心内容包括4个部分:第一,根据文献调研和项目实际需求确立数据价值评价的特征为:基础特性(权威性、影响力、关注度)、内容特性(领域相关度、完整性)、前沿特性(新颖性、时效性、
当今科技创新决策愈发复杂,一方面多元创新理论为科技创新指标体系的构建提供了更丰富的理论指导,科技大数据与数据挖掘、可视化等大数据技术结合可以高效地支撑循证决策;另一方面,在实践中仍然存在数据的组织利用不足、指标体系间缺少组织融合、评估结果可视化呈现不充分等问题。因此,建立指标、数据、可视化之间的深度关联将更好地辅助科技创新评估与决策。  鉴于知识图谱有较好的语义关联和知识推理能力,本研究提出了一种
学位
受学术国际化影响,中国学者在国际会议或期刊中发表论文、在国外出版社出版专著已成为一个大趋势。但在文献发表时,需将中文姓名通过音译转变为英文。由于中文姓名的中文形式和英文形式之间存在差异,一定程度上加剧了中国作者的姓名歧义情况,这使得基于中英文成果对作者进行学术影响力评价、科研成果评估、学术推荐时,缺乏科学性和有效性,所以需要进行基于中英文文献的跨语言作者姓名消歧研究。  本文分析了现有姓名消歧的国
学位
基因编辑技术是以特异性改变基因序列为目标,对生命现象进行操作性研究的技术。基因编辑技术拉开了从遗传物质层面操纵生物和生命现象的序幕,未来对于国家竞争力、学界和产业界均会有深刻的影响。而国际科技合作能够充分利用国际科技创新资源,推进科技发展、培养创新人才、提高科技实力、并改善国际关系。本研究以基因编辑技术领域的国际合著论文为研究对象,对该领域国际合作情况进行较为全面细致的研究。  本文以国际合著论文
学位
金融大数据是金融活动的重要产物,是科学研究和实际应用的基础。随着时代的发展,人们对金融大数据的需求越来越大,因此金融机构为人们提供金融数据服务具有广阔的应用前景。但随着数据需求的增加和服务竞争的加剧,对金融数据服务的质量、效率等方面有较高的要求。通过调研发现,传统的金融大数据服务模式存在不足,难以充分满足人们对于金融大数据的需求,因此需要创新金融大数据服务模式。  而采用API是一种可行的服务方式
国家十三五规划纲要中明确提出要支持北京上海建设具有全球影响力的科技创新中心。科技创新中心城市功能的物质载体是以创新驱动发展的高新技术产业,其创新效率不仅取决于内部的创新投入,也极大程度的受外部因素的影响。本文研究了科技创新中心建设背景下的高新技术产业创新效率及影响因素,以期为北京、上海科技创新中心建设提供现实可靠的依据。  首先本文梳理科技创新中心、高新技术产业及创新效率相关理论基础并进行概念界定