论文部分内容阅读
摘要:中文术语识别与抽取是中文文本信息处理的基础,对于提高中文文本索引与检索、文本挖掘、本体构建、潜在语义分析等的处理精度有着重要的意义。文章以互信息和信息熵理论为基础,提出一种基于统计技术的中文术语半自动抽取方法,并且以互联网新闻话题数据为对象进行了实验验证,结果表明所提方法能够有效支持中文术语的抽取。
关键词:互信息,信息熵,中文术语抽取
中图分类号:TP311;NO4;HO83文献标识码:A文章编号:1673-8578(2014)05-0010-05
收稿日期:2014-03-11
作者简介:刘剑(1979—),男,汉族,解放军外国语学院讲师,中国科学院计算技术研究所博士生,主要研究数据挖掘和知识工程等。通信方式:liujian_public@sina.com。
术语是用来刻画、描写领域知识的基本信息承载单元,术语识别与抽取是文本信息处理的基础,对于提高文本索引与检索、本体构建、文本挖掘、潜在语义分析等方面的处理精度有着重要的意义。中文术语识别与抽取是领域中文文本信息处理的一项重要课题,目前有关中文文本信息中术语识别和抽取的研究多体现于对人名、地名和组织名等命名实体的识别和抽取。对于领域中文文本信息处理来说,更重要的是识别并提取那些与特定领域相关的新概念、新术语等。特别是对于互联网上突发的新闻话题,面对大量的新闻报道文本,如何快速而准确地识别其中的主要术语,对于后续的文本信息处理将是至关重要的。
一现有工作和方法
目前国内外对术语抽取的方法主要有三种:基于语言规则、基于统计以及混合方法[1]。基于语言规则的方法[2]通过对术语的词法结构进行分析,获取术语的词法规则,根据这些规则构建匹配模板,然后将文本与模板进行匹配抽取术语。该方法抽取的术语准确性高,能够抽取文本中低频次的术语,但是对语言本身和模板有很强的依赖性。统计方法的基本思路是通过对大量文本的统计分析,找出术语的使用规律,又可以细分为基于统计度量的方法[3]和基于机器学习的方法[4]。基于统计度量的方法,其核心思想是认为词在领域内出现的频率代表了该词在领域内的相关程度,可以根据设定阈值对领域术语进行抽取。基于机器学习的方法采用手工或半自动构建训练语料,根据某种机器学习算法对训练语料学习生成模型,采用模型对测试语料进行术语抽取实验,以验证算法的有效性。目前已用于术语抽取的机器学习理论主要包括决策树、支持向量机、隐马尔科夫模型、最大熵模型、最大熵马尔科夫模型和条件随机场。统计分析法对语言本身没有很强的依赖性,对于低频次和多字词组合的领域合成词抽取效果很差。语言规则法或统计法各自有优势和不足,因此在实际抽取领域合成词时还可以将以上两种方法结合起来使用[5-6]。
二中文术语抽取方法
在进行信息处理时,快速而准确地识别出其中主要的中文术语是十分重要的。语言规则方法难以保证规则在不同领域的适用性,机器学习方法难以保证及时和足够的训练语料用于训练模型。因此,本文以互信息和信息熵理论为基础,提出了一种基于统计度量的中文术语半自动抽取方法。抽取的流程如图1所示。
该方法在中文分词的基础上,基于术语内部各组成要素之间较高的关联性和外部的独立性,利用统计技术,计算字符串内部的互信息和外部的信息熵,然后将符合给定阈值的字符串序列抽取出来,作为候选的中文术语,最后结合专家修正,从而实现中文术语的抽取。
(一)文本预处理
在对中文文本集进行术语抽取之前,需要对文本进行预处理。预处理过程主要包括分词、词性标注和分隔符切割等。
1.中文分词和词性标注
不同于英语或其他语言,汉语的词和词之间没有明显的区分标记。因此,中文文本分词是抽取中文术语的基础步骤和关键环节。在进行分词工作之前可以将已知专业词汇添加到词典中,然后集中各个文本进行处理。
2.分隔符切割
中文文本中常常包含一些不相关的高频词,比如连词、副词等:不过、因为、果然、而且等等,还有标点符号、习惯用语等,这些词在文本中大量出现,但是并不构成术语。通过这些词可以将文本切割成较小的字符串集,这样术语抽取运算只需要计算那些被分隔符切割开的字符串集合,在一定程度上减少了合成词抽取的运算量,也有利于提高术语抽取的准确性。
(二)中文术语抽取的计算方法
中文文本语料通过分词预处理,文本中由多个字词构成的术语可能被切分为多个字词,如“国家发展银行”,被切成“国家”“发展”和“银行”三个词。本文针对分词后的小段字符串集,首先利用改进互信息算法,通过计算字符串各个组成部分之间的互信息来确定一个字串是否是术语。同时,利用计算字串信息熵评估其与上下文的依赖关系。
1.基于改进互信息的计算
2.基于信息熵的计算
(三)算法描述
中文术语抽取算法的基本思路是通过给定的阈值,计算字符串的互信息和左右信息熵,从而判定字符串是否是候选术语。抽取中文术语的算法描述如下。
三结语
中文术语识别与抽取是中文文本信息处理的重要组成部分,快速而准确地识别中文术语对于中文文本信息处理有着重要的意义。本文以互信息和信息熵理论为基础,提出了一种基于统计技术的中文术语半自动抽取方法,并以“2013年叙利亚化武危机”的新闻报道网页作为实验数据进行了有效性验证,实验结果表明该方法是一种实用性较强的中文术语抽取方法,可以为中文文本信息处理提供较好的基础支撑。
参考文献
[1] 季培培,鄢小燕,岑咏华. 面向领域中文文本信息处理的术语识别与抽取研究综述[J]. 图书情报工作,2010, 16(54):124-129.
[2] Shamsfard M, Barforoush A. Learning ontologies from natural language texts[J]. Int’l Journal HumanComputer Studies, 2004, 60(1):17-63.
[3] 刘兴林,郑启伦,马千里. 中文合成词识别及分词修正[J]. 计算机应用研究,2011, 8(54):2905-2908.
[4] 陈飞,刘弈群,魏超,等. 基于条件随机场的开放领域新词发现[J]. 软件学报,2013, 24(5):1051-1060.
[5] 贾自艳,史忠植. 基于概率统计技术和规则方法的新词发现[J]. 计算机工程,2004, 30(20):19-21.
[6] 周蕾,朱巧明. 基于统计和规则的未登录词识别方法研究[J]. 计算机工程,2007, 33(8):196-198.
关键词:互信息,信息熵,中文术语抽取
中图分类号:TP311;NO4;HO83文献标识码:A文章编号:1673-8578(2014)05-0010-05
收稿日期:2014-03-11
作者简介:刘剑(1979—),男,汉族,解放军外国语学院讲师,中国科学院计算技术研究所博士生,主要研究数据挖掘和知识工程等。通信方式:liujian_public@sina.com。
术语是用来刻画、描写领域知识的基本信息承载单元,术语识别与抽取是文本信息处理的基础,对于提高文本索引与检索、本体构建、文本挖掘、潜在语义分析等方面的处理精度有着重要的意义。中文术语识别与抽取是领域中文文本信息处理的一项重要课题,目前有关中文文本信息中术语识别和抽取的研究多体现于对人名、地名和组织名等命名实体的识别和抽取。对于领域中文文本信息处理来说,更重要的是识别并提取那些与特定领域相关的新概念、新术语等。特别是对于互联网上突发的新闻话题,面对大量的新闻报道文本,如何快速而准确地识别其中的主要术语,对于后续的文本信息处理将是至关重要的。
一现有工作和方法
目前国内外对术语抽取的方法主要有三种:基于语言规则、基于统计以及混合方法[1]。基于语言规则的方法[2]通过对术语的词法结构进行分析,获取术语的词法规则,根据这些规则构建匹配模板,然后将文本与模板进行匹配抽取术语。该方法抽取的术语准确性高,能够抽取文本中低频次的术语,但是对语言本身和模板有很强的依赖性。统计方法的基本思路是通过对大量文本的统计分析,找出术语的使用规律,又可以细分为基于统计度量的方法[3]和基于机器学习的方法[4]。基于统计度量的方法,其核心思想是认为词在领域内出现的频率代表了该词在领域内的相关程度,可以根据设定阈值对领域术语进行抽取。基于机器学习的方法采用手工或半自动构建训练语料,根据某种机器学习算法对训练语料学习生成模型,采用模型对测试语料进行术语抽取实验,以验证算法的有效性。目前已用于术语抽取的机器学习理论主要包括决策树、支持向量机、隐马尔科夫模型、最大熵模型、最大熵马尔科夫模型和条件随机场。统计分析法对语言本身没有很强的依赖性,对于低频次和多字词组合的领域合成词抽取效果很差。语言规则法或统计法各自有优势和不足,因此在实际抽取领域合成词时还可以将以上两种方法结合起来使用[5-6]。
二中文术语抽取方法
在进行信息处理时,快速而准确地识别出其中主要的中文术语是十分重要的。语言规则方法难以保证规则在不同领域的适用性,机器学习方法难以保证及时和足够的训练语料用于训练模型。因此,本文以互信息和信息熵理论为基础,提出了一种基于统计度量的中文术语半自动抽取方法。抽取的流程如图1所示。
该方法在中文分词的基础上,基于术语内部各组成要素之间较高的关联性和外部的独立性,利用统计技术,计算字符串内部的互信息和外部的信息熵,然后将符合给定阈值的字符串序列抽取出来,作为候选的中文术语,最后结合专家修正,从而实现中文术语的抽取。
(一)文本预处理
在对中文文本集进行术语抽取之前,需要对文本进行预处理。预处理过程主要包括分词、词性标注和分隔符切割等。
1.中文分词和词性标注
不同于英语或其他语言,汉语的词和词之间没有明显的区分标记。因此,中文文本分词是抽取中文术语的基础步骤和关键环节。在进行分词工作之前可以将已知专业词汇添加到词典中,然后集中各个文本进行处理。
2.分隔符切割
中文文本中常常包含一些不相关的高频词,比如连词、副词等:不过、因为、果然、而且等等,还有标点符号、习惯用语等,这些词在文本中大量出现,但是并不构成术语。通过这些词可以将文本切割成较小的字符串集,这样术语抽取运算只需要计算那些被分隔符切割开的字符串集合,在一定程度上减少了合成词抽取的运算量,也有利于提高术语抽取的准确性。
(二)中文术语抽取的计算方法
中文文本语料通过分词预处理,文本中由多个字词构成的术语可能被切分为多个字词,如“国家发展银行”,被切成“国家”“发展”和“银行”三个词。本文针对分词后的小段字符串集,首先利用改进互信息算法,通过计算字符串各个组成部分之间的互信息来确定一个字串是否是术语。同时,利用计算字串信息熵评估其与上下文的依赖关系。
1.基于改进互信息的计算
2.基于信息熵的计算
(三)算法描述
中文术语抽取算法的基本思路是通过给定的阈值,计算字符串的互信息和左右信息熵,从而判定字符串是否是候选术语。抽取中文术语的算法描述如下。
三结语
中文术语识别与抽取是中文文本信息处理的重要组成部分,快速而准确地识别中文术语对于中文文本信息处理有着重要的意义。本文以互信息和信息熵理论为基础,提出了一种基于统计技术的中文术语半自动抽取方法,并以“2013年叙利亚化武危机”的新闻报道网页作为实验数据进行了有效性验证,实验结果表明该方法是一种实用性较强的中文术语抽取方法,可以为中文文本信息处理提供较好的基础支撑。
参考文献
[1] 季培培,鄢小燕,岑咏华. 面向领域中文文本信息处理的术语识别与抽取研究综述[J]. 图书情报工作,2010, 16(54):124-129.
[2] Shamsfard M, Barforoush A. Learning ontologies from natural language texts[J]. Int’l Journal HumanComputer Studies, 2004, 60(1):17-63.
[3] 刘兴林,郑启伦,马千里. 中文合成词识别及分词修正[J]. 计算机应用研究,2011, 8(54):2905-2908.
[4] 陈飞,刘弈群,魏超,等. 基于条件随机场的开放领域新词发现[J]. 软件学报,2013, 24(5):1051-1060.
[5] 贾自艳,史忠植. 基于概率统计技术和规则方法的新词发现[J]. 计算机工程,2004, 30(20):19-21.
[6] 周蕾,朱巧明. 基于统计和规则的未登录词识别方法研究[J]. 计算机工程,2007, 33(8):196-198.