论文部分内容阅读
随着科学研究领域的不断深入发展,学科领域中有很多已出现但尚未被该领域叙词表或其他知识组织系统收录的术语,这部分术语被称为新术语,及时发现新术语对于把握学科领域的发展变化、更新相应词表系统及自然语言处理、本体构建等研究工作具有重要的辅助作用。当前,叙词表等知识组织系统的生成和更新主要依赖于专家的手工劳动,而网络环境下各个专业领域中信息量突增,新词汇大量涌现,如何从这些新词汇中发现新术语是比较复杂的,这也使得手工更新的速度滞后于新术语的增长速度。
为提高知识组织系统的更新效率和效果,本文基于新术语特点,包括新术语的新颖性、时间持续性、以及术语性等特征,利用时间序列分析等方法,探索术语的时间及词频分布特征,并主要以《汉语主题词表》中不同类型术语为例进行验证及特征挖掘。根据新术语相关特征,结合对应文档频率在时间点和时间段上的发展分布,通过相关统计分析,研究术语在不同成长时期的分布特征,尤其界定术语在开始期与成长期的分布差异。本文设计相关统计模型,对叙词表新术语其它入选因素进行分析,包括从公共子串角度探索复合型词汇的分类推荐情况。最后综合以上两点,设计较为完整的新术语发现流程。
以“计算机技术与自动化技术”以及“环境科学及安全科学”领域为例,选取该领域科技文献关键词、相关网络词库以及《汉语主题词表》基础词库作为候选术语,进行在候选术语中识别并筛选新术语的实证研究。并通过对照实验及一定的评价指标验证该方法的有效性及通用性。
实证证明新术语一般处于术语发展的成长期,当候选新术语保持正向增长趋势超过一定年限,可以认为该术语同时具有新颖性、时间持续性及术语性特征。基于该分布特征进行领域新术语的识别,结合词表编制专家的判断,该方法在新术语收录判断中具有较高的准确率,且能有效识别实际应用中占比较多的低频词。进而可以为英文超级科技词表、《汉语主题词表》等词表知识组织系统的术语更新及维护提供可行性的建议。
为提高知识组织系统的更新效率和效果,本文基于新术语特点,包括新术语的新颖性、时间持续性、以及术语性等特征,利用时间序列分析等方法,探索术语的时间及词频分布特征,并主要以《汉语主题词表》中不同类型术语为例进行验证及特征挖掘。根据新术语相关特征,结合对应文档频率在时间点和时间段上的发展分布,通过相关统计分析,研究术语在不同成长时期的分布特征,尤其界定术语在开始期与成长期的分布差异。本文设计相关统计模型,对叙词表新术语其它入选因素进行分析,包括从公共子串角度探索复合型词汇的分类推荐情况。最后综合以上两点,设计较为完整的新术语发现流程。
以“计算机技术与自动化技术”以及“环境科学及安全科学”领域为例,选取该领域科技文献关键词、相关网络词库以及《汉语主题词表》基础词库作为候选术语,进行在候选术语中识别并筛选新术语的实证研究。并通过对照实验及一定的评价指标验证该方法的有效性及通用性。
实证证明新术语一般处于术语发展的成长期,当候选新术语保持正向增长趋势超过一定年限,可以认为该术语同时具有新颖性、时间持续性及术语性特征。基于该分布特征进行领域新术语的识别,结合词表编制专家的判断,该方法在新术语收录判断中具有较高的准确率,且能有效识别实际应用中占比较多的低频词。进而可以为英文超级科技词表、《汉语主题词表》等词表知识组织系统的术语更新及维护提供可行性的建议。