论文部分内容阅读
摘 要 发现网络新词在中文信息处理方面具有非常重要的作用和意义。本文提出了一种基于质子串分解的网络新词抽取方法。首先,从网络上下载语料;然后,使用分解得到质串;并 在其基础上,进一步使用改进的检验方法结合质子串分解方法抽取具有复杂结构的合串并比较验证新词;实验结果显示,该算法有效地提高了网络新词抽取的精确度。
关键词 网络新词 质子串分解 互信息 F-MI
中图分类号:TP391.1 文献标识码:A
0引言
新词是未登录词的一种,即新词也是未收入在词典中的词,但它和未登录词还是有所不同。它指通过各种途径产生的、具有基本词汇所没有的新形式、新意义或新用法的词语或者是出现在某一时间段内或自某一时间点以来所首次出现的具有新词形,新词义或者新用法的词汇。
1新词获取系统流程
新词识别的信息流采集于门户网站下载的网页,组建语料库,对语料进行预处理,建立Pat Tree索引 ,然后进行术语抽取。其中术语抽取的方法采用基于卡方检验的质子串分解方法。
2网络新词识别方法
该模块是系统的核心模块。首先,对候选术语集合进行C-value参数计算,对于C-value小于给定阈值的候选术语将被从列表中删除;然后对表中的候选术语进行字符串分解,并根据分解结果计算所有候选串的F-MI参数值;最后,根据给定的F-MI阈值,淘汰掉错误的候选术语,并输出最终的术语列表。
2.1质子串分解
我们把词简单地分为两类,一类是不可再分解为更小的词汇单元的词汇,这类词我们称为质词,如“珠穆朗玛”一词,任何子串(“珠穆朗”或“朗玛”等)都不是词;另一类是由质词组合而成的词汇,这类词我们称为合词,如“社会保障体系”则是由三个质词(“社会”、“保障”和“体系”)组合而成的。对于串S,除了单字串和质串以外,都是合串,单字既不是质串,也不是合串。对于合串S,如果S可以串分解为S= S1 S2 S3…Sm,其中Si可以为质串或单字,但必须至少有一个是质串,则称S=S1 S2 S3…S m是S的一种质子串分解。
2.2串分解的F-MI
本文采用改进的互信息参数F-MI来评估一个串成为术语的可能性。参数F-MI的定义分两种:串分解的F-MI值和串的F-MI值,其中串的F-MI值的定义以串分解的F-MI为基础。
对于串S及S的一种分解S= S1 S2 S3…Sm,串分解的F-MI的计算公式为:
S表示待计算的串,F(S)表示S在文档集中出现的次数,T(S)表示S所有父串在文档集中出现的次数,而C(S)表示S所有父串的个数。
参数C-value的目标是为了提高网状术语的抽取效果。由公式3.2可知,对于极大串S,C-value(S)=F(S);而对于非极大串S,C-value参数则综合考虑了S及其所有父串之间的网状关系,例如对于极大串S1=“珠穆朗玛”及其子串S2=“珠穆朗”,如果F(S1)=F(S2),则C-value(S1)=F(S1),而C-value(S2)=0。
而参数的定义为:
其中,i表示表中的行变量,j表示列变量,Oi,j表示表单元(i,j)的观测值,Ei,j表示期望值。这里,我们取2€?的表来计算,如表2所示。
表2 单词质量和监督出现次数之间的依赖关系的2€?的表
检验从理论上讲适用于各种大小的表,但是对于2€?的表的表达形式相对简单:
=(N是语料库中二元对的总数)
2.3串的F-MI
对某一质串S= C1 C2 C3… Cm(其中Ci均为单字),质串F-MI的计算公式为:
其中,本文定义单字的C-value(C)=F(C),如质串“珠穆朗玛”的F-MI值为:
而对某一合串S,如果S的所有质子串分解为:
即共有n种分解方式,根据公式3.1,分别计算每一种串分解的F-MI值(f1,f2,f3,…,fn),则合串S的F-MI的定义为:
F-MI(S)=Max(f1,f2,f3,…,fn) (3.5)
本文术语抽取的重点是合串的抽取。而在抽取到的62190个合串中,只有4531个被Hownet收录,92%以上的合串未被收录,其原因是这些合串大部分并不属于严格意义上的词,而主要是一些短语和组合术语。另外,本文结合卡方检验对组合术语出现的偶然性进行验证,从而使合串抽取的正确率有所提高。
3实验结果及分析
(1)测试数据
我们下载了新浪(http://www.sina.com.cn)网站上从2013年1月到2013年6月的文章,共计130016篇文章,约345M。
(2)测试结果及评估
本次实验共抽取到了241998个术语,其(下转第45页)(上接第43页)中108102个被Hownet收录,占所有抽取总数的 44.67%,质串99040个(91.62%),合串9062个(8.38%);词典之外(OOV)的133896个术语中,质串18578个(占13.87%),合串115318个(占86.13%)。当我们对词典之外的进行了人工评估,并规定,在合串中只有名词性短语才被认定为是正确的词汇。正确的词汇共有204696个,总体准确率为85.41%。
(3)实验结果分析
本文网络新词抽取的重点是合串的抽取。而在抽取到的124380个合串中,只有9062个被Hownet收录,90%以上的合串未被收录,其原因是这些合串大部分主要是一些短语和组合术语,并不属于严格意义上的词。另外,本文采用结合卡方检验和互信息F-MI检测对组合术语出现的偶然性进行验证,从而使合串抽取的正确率有所提高(表3、表4)。
我们通过计算抽取到的术语数目与语料规模的比值来考察分析。与文献(Patrick & Dekang 2001)10M测试语料抽取到10268个术语相比(比值约1026.8),本文在约345M的测试语料上抽取到241998个术语(比值约876.8),该参数要小于前者,随着测试语料规模的增大,重复术语出现增多,所以在结果上基本是一致的。
4结语
本文介绍了基于卡方检验和质子串分解来获取网络新词,今后我们将针对参数F-MI的特点,继续对F-MI公式进行研究和改进,以提高质串的抽取效果;在今后会根据词法规则来自动过滤非名词的词汇。在本文提出的方法和实验结果的分析的基础上,我们将尝试结合自然语言处理中的文本自动分类技术,基本上自动实时动态地从Internet上抓取网页,并自动分类,对不同类别的文本集分别进行术语抽取,建立一个实时的动态的网络新词发现系统。
参考文献
[1] Frantzi K, Ananiadou S. Extracting Nested Collocations[c]. Copenhagen Denmark:Proceeding of COLING,1996:41-46.
[2] Patrick Pantel,Dekang Lin. A Statistical Corpus-Based Term Extractor[c]. Canada:Canadian Conference on AI,2001:36-46.
[3] 刘建舟,何婷婷,姬东鸿等. 基于开放语料的汉语术语的自动抽取[c]. 沈阳:第二十届东方语言计算机处理国际学术会议,2003:43-49.
[4] 何婷婷,张勇. 基于质子串分解的中文术语自动抽取[J].上海:计算机工程,2006,32(23):188-190.
关键词 网络新词 质子串分解 互信息 F-MI
中图分类号:TP391.1 文献标识码:A
0引言
新词是未登录词的一种,即新词也是未收入在词典中的词,但它和未登录词还是有所不同。它指通过各种途径产生的、具有基本词汇所没有的新形式、新意义或新用法的词语或者是出现在某一时间段内或自某一时间点以来所首次出现的具有新词形,新词义或者新用法的词汇。
1新词获取系统流程
新词识别的信息流采集于门户网站下载的网页,组建语料库,对语料进行预处理,建立Pat Tree索引 ,然后进行术语抽取。其中术语抽取的方法采用基于卡方检验的质子串分解方法。
2网络新词识别方法
该模块是系统的核心模块。首先,对候选术语集合进行C-value参数计算,对于C-value小于给定阈值的候选术语将被从列表中删除;然后对表中的候选术语进行字符串分解,并根据分解结果计算所有候选串的F-MI参数值;最后,根据给定的F-MI阈值,淘汰掉错误的候选术语,并输出最终的术语列表。
2.1质子串分解
我们把词简单地分为两类,一类是不可再分解为更小的词汇单元的词汇,这类词我们称为质词,如“珠穆朗玛”一词,任何子串(“珠穆朗”或“朗玛”等)都不是词;另一类是由质词组合而成的词汇,这类词我们称为合词,如“社会保障体系”则是由三个质词(“社会”、“保障”和“体系”)组合而成的。对于串S,除了单字串和质串以外,都是合串,单字既不是质串,也不是合串。对于合串S,如果S可以串分解为S= S1 S2 S3…Sm,其中Si可以为质串或单字,但必须至少有一个是质串,则称S=S1 S2 S3…S m是S的一种质子串分解。
2.2串分解的F-MI
本文采用改进的互信息参数F-MI来评估一个串成为术语的可能性。参数F-MI的定义分两种:串分解的F-MI值和串的F-MI值,其中串的F-MI值的定义以串分解的F-MI为基础。
对于串S及S的一种分解S= S1 S2 S3…Sm,串分解的F-MI的计算公式为:
S表示待计算的串,F(S)表示S在文档集中出现的次数,T(S)表示S所有父串在文档集中出现的次数,而C(S)表示S所有父串的个数。
参数C-value的目标是为了提高网状术语的抽取效果。由公式3.2可知,对于极大串S,C-value(S)=F(S);而对于非极大串S,C-value参数则综合考虑了S及其所有父串之间的网状关系,例如对于极大串S1=“珠穆朗玛”及其子串S2=“珠穆朗”,如果F(S1)=F(S2),则C-value(S1)=F(S1),而C-value(S2)=0。
而参数的定义为:
其中,i表示表中的行变量,j表示列变量,Oi,j表示表单元(i,j)的观测值,Ei,j表示期望值。这里,我们取2€?的表来计算,如表2所示。
表2 单词质量和监督出现次数之间的依赖关系的2€?的表
检验从理论上讲适用于各种大小的表,但是对于2€?的表的表达形式相对简单:
=(N是语料库中二元对的总数)
2.3串的F-MI
对某一质串S= C1 C2 C3… Cm(其中Ci均为单字),质串F-MI的计算公式为:
其中,本文定义单字的C-value(C)=F(C),如质串“珠穆朗玛”的F-MI值为:
而对某一合串S,如果S的所有质子串分解为:
即共有n种分解方式,根据公式3.1,分别计算每一种串分解的F-MI值(f1,f2,f3,…,fn),则合串S的F-MI的定义为:
F-MI(S)=Max(f1,f2,f3,…,fn) (3.5)
本文术语抽取的重点是合串的抽取。而在抽取到的62190个合串中,只有4531个被Hownet收录,92%以上的合串未被收录,其原因是这些合串大部分并不属于严格意义上的词,而主要是一些短语和组合术语。另外,本文结合卡方检验对组合术语出现的偶然性进行验证,从而使合串抽取的正确率有所提高。
3实验结果及分析
(1)测试数据
我们下载了新浪(http://www.sina.com.cn)网站上从2013年1月到2013年6月的文章,共计130016篇文章,约345M。
(2)测试结果及评估
本次实验共抽取到了241998个术语,其(下转第45页)(上接第43页)中108102个被Hownet收录,占所有抽取总数的 44.67%,质串99040个(91.62%),合串9062个(8.38%);词典之外(OOV)的133896个术语中,质串18578个(占13.87%),合串115318个(占86.13%)。当我们对词典之外的进行了人工评估,并规定,在合串中只有名词性短语才被认定为是正确的词汇。正确的词汇共有204696个,总体准确率为85.41%。
(3)实验结果分析
本文网络新词抽取的重点是合串的抽取。而在抽取到的124380个合串中,只有9062个被Hownet收录,90%以上的合串未被收录,其原因是这些合串大部分主要是一些短语和组合术语,并不属于严格意义上的词。另外,本文采用结合卡方检验和互信息F-MI检测对组合术语出现的偶然性进行验证,从而使合串抽取的正确率有所提高(表3、表4)。
我们通过计算抽取到的术语数目与语料规模的比值来考察分析。与文献(Patrick & Dekang 2001)10M测试语料抽取到10268个术语相比(比值约1026.8),本文在约345M的测试语料上抽取到241998个术语(比值约876.8),该参数要小于前者,随着测试语料规模的增大,重复术语出现增多,所以在结果上基本是一致的。
4结语
本文介绍了基于卡方检验和质子串分解来获取网络新词,今后我们将针对参数F-MI的特点,继续对F-MI公式进行研究和改进,以提高质串的抽取效果;在今后会根据词法规则来自动过滤非名词的词汇。在本文提出的方法和实验结果的分析的基础上,我们将尝试结合自然语言处理中的文本自动分类技术,基本上自动实时动态地从Internet上抓取网页,并自动分类,对不同类别的文本集分别进行术语抽取,建立一个实时的动态的网络新词发现系统。
参考文献
[1] Frantzi K, Ananiadou S. Extracting Nested Collocations[c]. Copenhagen Denmark:Proceeding of COLING,1996:41-46.
[2] Patrick Pantel,Dekang Lin. A Statistical Corpus-Based Term Extractor[c]. Canada:Canadian Conference on AI,2001:36-46.
[3] 刘建舟,何婷婷,姬东鸿等. 基于开放语料的汉语术语的自动抽取[c]. 沈阳:第二十届东方语言计算机处理国际学术会议,2003:43-49.
[4] 何婷婷,张勇. 基于质子串分解的中文术语自动抽取[J].上海:计算机工程,2006,32(23):188-190.