一种基于统计技术的中文术语抽取方法

来源 :中国科技术语 | 被引量 : 0次 | 上传用户:jym956
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:中文术语识别与抽取是中文文本信息处理的基础,对于提高中文文本索引与检索、文本挖掘、本体构建、潜在语义分析等的处理精度有着重要的意义。文章以互信息和信息熵理论为基础,提出一种基于统计技术的中文术语半自动抽取方法,并且以互联网新闻话题数据为对象进行了实验验证,结果表明所提方法能够有效支持中文术语的抽取。
  关键词:互信息,信息熵,中文术语抽取
  中图分类号:TP311;NO4;HO83文献标识码:A文章编号:1673-8578(2014)05-0010-05
  收稿日期:2014-03-11
  作者简介:刘剑(1979—),男,汉族,解放军外国语学院讲师,中国科学院计算技术研究所博士生,主要研究数据挖掘和知识工程等。通信方式:liujian_public@sina.com。
  术语是用来刻画、描写领域知识的基本信息承载单元,术语识别与抽取是文本信息处理的基础,对于提高文本索引与检索、本体构建、文本挖掘、潜在语义分析等方面的处理精度有着重要的意义。中文术语识别与抽取是领域中文文本信息处理的一项重要课题,目前有关中文文本信息中术语识别和抽取的研究多体现于对人名、地名和组织名等命名实体的识别和抽取。对于领域中文文本信息处理来说,更重要的是识别并提取那些与特定领域相关的新概念、新术语等。特别是对于互联网上突发的新闻话题,面对大量的新闻报道文本,如何快速而准确地识别其中的主要术语,对于后续的文本信息处理将是至关重要的。
  一现有工作和方法
  目前国内外对术语抽取的方法主要有三种:基于语言规则、基于统计以及混合方法[1]。基于语言规则的方法[2]通过对术语的词法结构进行分析,获取术语的词法规则,根据这些规则构建匹配模板,然后将文本与模板进行匹配抽取术语。该方法抽取的术语准确性高,能够抽取文本中低频次的术语,但是对语言本身和模板有很强的依赖性。统计方法的基本思路是通过对大量文本的统计分析,找出术语的使用规律,又可以细分为基于统计度量的方法[3]和基于机器学习的方法[4]。基于统计度量的方法,其核心思想是认为词在领域内出现的频率代表了该词在领域内的相关程度,可以根据设定阈值对领域术语进行抽取。基于机器学习的方法采用手工或半自动构建训练语料,根据某种机器学习算法对训练语料学习生成模型,采用模型对测试语料进行术语抽取实验,以验证算法的有效性。目前已用于术语抽取的机器学习理论主要包括决策树、支持向量机、隐马尔科夫模型、最大熵模型、最大熵马尔科夫模型和条件随机场。统计分析法对语言本身没有很强的依赖性,对于低频次和多字词组合的领域合成词抽取效果很差。语言规则法或统计法各自有优势和不足,因此在实际抽取领域合成词时还可以将以上两种方法结合起来使用[5-6]。
  二中文术语抽取方法
  在进行信息处理时,快速而准确地识别出其中主要的中文术语是十分重要的。语言规则方法难以保证规则在不同领域的适用性,机器学习方法难以保证及时和足够的训练语料用于训练模型。因此,本文以互信息和信息熵理论为基础,提出了一种基于统计度量的中文术语半自动抽取方法。抽取的流程如图1所示。
  该方法在中文分词的基础上,基于术语内部各组成要素之间较高的关联性和外部的独立性,利用统计技术,计算字符串内部的互信息和外部的信息熵,然后将符合给定阈值的字符串序列抽取出来,作为候选的中文术语,最后结合专家修正,从而实现中文术语的抽取。
  (一)文本预处理
  在对中文文本集进行术语抽取之前,需要对文本进行预处理。预处理过程主要包括分词、词性标注和分隔符切割等。
  1.中文分词和词性标注
  不同于英语或其他语言,汉语的词和词之间没有明显的区分标记。因此,中文文本分词是抽取中文术语的基础步骤和关键环节。在进行分词工作之前可以将已知专业词汇添加到词典中,然后集中各个文本进行处理。
  2.分隔符切割
  中文文本中常常包含一些不相关的高频词,比如连词、副词等:不过、因为、果然、而且等等,还有标点符号、习惯用语等,这些词在文本中大量出现,但是并不构成术语。通过这些词可以将文本切割成较小的字符串集,这样术语抽取运算只需要计算那些被分隔符切割开的字符串集合,在一定程度上减少了合成词抽取的运算量,也有利于提高术语抽取的准确性。
  (二)中文术语抽取的计算方法
  中文文本语料通过分词预处理,文本中由多个字词构成的术语可能被切分为多个字词,如“国家发展银行”,被切成“国家”“发展”和“银行”三个词。本文针对分词后的小段字符串集,首先利用改进互信息算法,通过计算字符串各个组成部分之间的互信息来确定一个字串是否是术语。同时,利用计算字串信息熵评估其与上下文的依赖关系。
  1.基于改进互信息的计算
  2.基于信息熵的计算
  (三)算法描述
  中文术语抽取算法的基本思路是通过给定的阈值,计算字符串的互信息和左右信息熵,从而判定字符串是否是候选术语。抽取中文术语的算法描述如下。
  三结语
  中文术语识别与抽取是中文文本信息处理的重要组成部分,快速而准确地识别中文术语对于中文文本信息处理有着重要的意义。本文以互信息和信息熵理论为基础,提出了一种基于统计技术的中文术语半自动抽取方法,并以“2013年叙利亚化武危机”的新闻报道网页作为实验数据进行了有效性验证,实验结果表明该方法是一种实用性较强的中文术语抽取方法,可以为中文文本信息处理提供较好的基础支撑。
  参考文献
  [1] 季培培,鄢小燕,岑咏华. 面向领域中文文本信息处理的术语识别与抽取研究综述[J]. 图书情报工作,2010, 16(54):124-129.
  [2] Shamsfard M, Barforoush A. Learning ontologies from natural language texts[J]. Int’l Journal HumanComputer Studies, 2004, 60(1):17-63.
  [3] 刘兴林,郑启伦,马千里. 中文合成词识别及分词修正[J]. 计算机应用研究,2011, 8(54):2905-2908.
  [4] 陈飞,刘弈群,魏超,等. 基于条件随机场的开放领域新词发现[J]. 软件学报,2013, 24(5):1051-1060.
  [5] 贾自艳,史忠植. 基于概率统计技术和规则方法的新词发现[J]. 计算机工程,2004, 30(20):19-21.
  [6] 周蕾,朱巧明. 基于统计和规则的未登录词识别方法研究[J]. 计算机工程,2007, 33(8):196-198.
其他文献
解放思想统一认识积极推进中专学校招生并轨改革湖南省教育委员会中等职业教育1992年以来,随着调节性招生计划的增长,我省中专招生规模迅速扩大,到1996年已增长到32250人,占总计划的503%。调节性
第二十一条国家鼓励事业组织、社会团体、其他社会组织及公民按照国家有关规定举办职业学校、职业培训机构释义】本条是关于社会力量举办职业教育机构的规定。本条第一款确立
通过对天津奇信办公楼预制管桩基础设计的阐述,总结了在该项工程设计中关于预制管桩设计的一些经验。
2014年6月8日,新闻学与传播学名词审定委员会在社科院新闻所召开收词审定会议。清华大学崔保国教授、中国人民大学彭兰教授、南京大学胡翼青教授、新闻所所长唐绪军研究员、王怡红研究员、宋小卫研究员、卜卫研究员、殷乐研究员、姜飞研究员等参加了会议。  会议进行了以下工作:(1)审定收词总体框架;(2)讨论各分支领域收词工作中遇到的问题与解决方案;(3)讨论重复和交叉名词的归属问题;(4)讨论定义的样条。
中等职业学校计算机教育的实施与对策郑金玉电子计算机的飞速发展和广泛应用,已将人类带入信息社会。中等职业学校要适应社会发展和经济建设的需要,培养跨世纪的应用型人才,普及
针对平面张弦梁结构的零状态找形分析、荷载态结构变形和构件内力分析、结构稳定问题及施工方法等方面进行了简要分析,与相关工程技术人员作交流。
2014年6月15-20日,全国科学技术名词审定委员会与新闻出版总署教育培训中心在山东省济南市联合举办了第十二期“出版物规范应用科技名词培训研讨会”。来自全国各地55家科技期
患者女,52岁,右乳外上象限肿块10余天就诊。查体:右乳外上象限触及1.0cm×1.0cm肿块,中等硬度,活动可,无压痛;右腋窝未触及肿大淋巴结。超声声像图显示:右侧乳腺组织结构清
结合工程实例,具体探讨氟碳金属漆涂料体系中的氟碳仿金属铝板技术的实际运用。并就施工中的若干技术问题及其控制提出了相应的技术措施。
面向21世纪,加大职高课程结构改革力度的几点认识许高炎一、要巩固和发展“八五”期间职高课程结构改革的成果“八五”期间在国家教委职教司的直接领导下,对建筑施工、电子电器、