字母词的全/半角形式对中文分词的影响及对策初探

来源 :中国科技术语 | 被引量 : 0次 | 上传用户：lurnay

【摘要】

：

【作者】

：

胡凤国

【出处】

：

中国科技术语

【发表日期】

：

2010年4期

【关键词】

：

字母词科技名词术语抽取分词全/半角 lettered words term extraction word segmentation full-

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要:中文科技名词自动抽取的关键步骤是分词,文章首先讨论中文语料库中字母词的全/半角现象,然后考察这种现象对自动分词结果当中字母词的一致性和准确性所产生的影响,并给出提高切分结果的一致性和准确性的对策,最后阐述中国传媒大学的分词系统在这方面所做的工作。
　　关键词:字母词,科技名词,术语抽取,分词,全/半角
　　中图分类号:H08;N04 文献标识码:A 文章编号:1673-8578(2010)04-0019-05
　　
　　一引言
　　
　　汉语中的“字母词”是由字母单独,或字母与汉字、数字、符号等一起构成的词[1]。字母词从19世纪后期就开始出现[2],但对字母词的研究直到20世纪后期才开始[3]。近年来字母词数量增长迅速,字母词频繁地进入社会生活,目前已有多部专门的字母词词典出版。收词比较严谨的《现代汉语词典》(以下简称《现汉》)在1996年第3版中开始收录少量西文字母开头的字母词,2002年第4 版和2005年第5版收录的字母词条目的数量均比前一版次有所增加。
　　 “全角”和“半角”是跟字符集和编码有关的概念。ASCII字符集中的可显示字符都是单字节编码的,它们在GB 2312字符集中,又都有对应的双字节编码形式。在中英文混合文本中,如果可显示的单字节编码字符用宋体字显示的话,会占半个汉字的位置,俗称“半角”字符,它们在GB 2312字符集中的对应形式会占据一整个汉字的位置,相应称为“全角”字符。
　　汉语语料库在计算机化之前,字母词是不存在全角半角问题的。从纸质媒介上看,“卡拉”和“卡拉OK”的含义是一样的,“牌照”和“3G牌照”也不会让人误认为是两种不同的东西,只不过字符的宽度稍有不同而已。但在语料库引入计算机存储之后,可显示的单字节编码字符的全/半角问题就开始出现。首先受影响的是语料检索,一般的文本处理软件根本不认为全角和半角有什么关联,检索一个字母词,需要同时检索其半角形式和全角形式才能得到完整的数据。其次受影响的是分词。目前的分词系统,在字母词的全/半角处理上很难给出一致性的切分结果,这会直接影响词频统计结果的准确性,而词频统计正是术语抽取工作的一个环节。
　　
　　二研究的准备工作
　　
　　1.几个语料库的字母词全/半角收录调查
　　目前的汉语语料库,在语料的全/半角形式方面多数没有统一的规定,通过对国内能公开检索到的4个汉语语料库(国家现代汉语语料库①、传媒语言语料库②、人民日报切分/标注语料库③、CCL语料库④)的检索,发现只有人民日报切分/标注语料库对语料中的字母词作了全角化处理,其他语料库都是全、半角字母词兼收并蓄,传媒语言语料库甚至在一个字母词中同时包含了全角和半角字符。
　　我们使用传媒大学分词系统对传媒语言语料库1999—2007年的全部语料(大约2.3亿字)进行了自动切分标注,然后对结果进行了全/半角统计。除了标点符号之外,包含字母、数字或者其他符号的切分单位⑤共出现2 380 372次,其中纯全角形式占86.5%,纯半角形式占12.2%,全/半角混合形式占1.3%。
　　同一个字母词的全角形式和半角形式在语料库中的编码是完全不一样的,如果进行词频统计,需要将经过分词的语料当中同一个字母词的全角形式和半角形式转换成同一种形式,才能进行后续的统计工作。2006年度的《中国语言生活状况报告》(以下简称《报告2006》)在统计字母词频次的时候,就是这样做的。这样的统计需要一个前提:语料分词结果中的字母词具有较好的一致性和准确性。
　　这里的一致性是指同一个字母词的全角形式和半角形式在相同的上下文中具有相同的分词结果。而准确性是指语料中的字母词在分词之后能被正确地识别出来。目前国内的汉语分词系统对分词结果中字母词的一致性和准确性还没能给予足够的重视。
　　2.分词系统的选取
　　在研究中,我们选取如下几个可以公开得到的分词系统的分词结果作为参考:
　　(1)哈尔滨工业大学信息检索研究室的分词系统⑥;
　　(2)中国科学院计算技术研究所开发的商业版分词系统ICTCLAS⑦;
　　(3)北京法国电信研发中心开发的好又快词法分析系统⑧;
　　(4)史晓东个人开发的分词系统⑨;
　　(5)赵海个人开发的分词系统⑩。
　　上述5个分词系统,有一个来自学术研究机构,两个来自商业机构,两个来自学者个人。这几个系统基本上算是能公开得到的分词系统中比较有代表性的组合。在研究中,为了方便比较分词结果,我们将这五个分词系统随机命名为A、B、C、D、E。
　　3.字母词的考察范围界定
　　《现汉》为反映汉语词汇的发展而收入了常用的字母词,但由于容量限制等因素,收录的字母词数量较少,第5版[4]仅收录字母词词条185个B11。在社会语言生活中常用的字母词要远远多于这个数目。据《报告2006》统计,不同形式的字母词有139 821条,其中典型字母词有1619条B12。2009年1月份出版的《汉语字母词词典》正文中收录的字母词达2600条[5]。
　　考虑到《现汉》和《报告2006》在我国语言生活中的权威性,本文的研究把字母词范围限制在《现汉》和《报告2006》的范围之内,共包含1399个字母词。
　　
　　三字母词全/半角形式对语料切分结果一致性的影响
　　
　　1.实验数据
　　为了考察字母词的全/半角形式对字母词切分结果一致性的影响,我们设计了三组实验数据。这三组数据在字母词的数量和内容上是完全一样的,只有全/半角的不同。
　　第一组:纯全角形式的字母词表,其中每一个字母词的所有字符都以全角形式存在。
　　第二组:纯半角形式的字母词表,其中凡是同时具有全角和半角这两种形式的字符都一律以半角形式存在。
　　第三组:全/半角混合的字母词表,每一个字母词都同时包含全角字符和半角字符。
　　由于一些字母词无法同时具有全、半角混合形式,例如α射线、维生素A,因此我们从《现汉》和《报告2006》的1399个候选字母词中剔除一部分,以余下的1290个作为基准,按照纯全角、纯半角和全、半角混合这三种形式把它们转换成了三组实验数据。第三组数据中,在保证每个字母词同时含有全角字符和半角字符的前提下,每个字符的全/半角形式都是随机指定的。
　　2.实验
　　本实验是对独立字母词进行切分,也就是说把字母词放到空的上下文中,对字母词进行切分。三组数据都切分之后,统计每一个切分标注系统对三组数据切分结果的一致性。这里考虑一致性的时候,不考虑切分结果是否正确。表1给出了五个分词系统对三组数据切分结果一致性的统计:
　　

　　3.分析
　　从实验结果可以看出,除了系统E之外,其他几个分词系统没有对字母词切分结果的一致性予以足够的重视。其中两个系统的切分结果一致性程度相当低,原因可能是这两个系统以处理中文文本为主,暂未引入字母词处理机制。但目前汉字文本中的字母词越来越多,字母词的切分问题已不容回避。
　　
　　四字母词全/半角形式对语料切分结果准确性的影响
　　
　　 1.实验数据
　　实验数据仍取三组字母词,全/半角规定和收词数量同上。
　　2.实验
　　本实验仍然是对独立字母词进行切分,字母词所处的上下文为空。三组数据都切分之后,统计每一个切分标注系统对三组数据切分结果的准确性。一个字母词的切分结果和它本身比较,忽略全/半角之后如果相同,则算是正确的切分结果,否则就是错误的。每一个分词系统分别对三组数据进行切分,分别统计每一组分词结果的准确性。
　　结论如表2所示:
　　

　　3.分析
　　从统计数据可以发现,对于纯全角数据和纯半角数据,几个系统的分词准确率相差不大,只有系统D对纯半角数据的分词准确率稍低一些。但对于全/半角混合数据,几个系统的分词准确率差别很大,准确率最低为0,最高为83%。
　　
　　五提高字母词分词结果的一致性和准确性的对策
　　
　　 1.对策
　　在术语抽取工作中,语言数据的一致性和准确性都是非常重要的,它们直接影响到字母词频率统计的准确性,进而影响语言数据的权威性。就字母词而言,本文考察的五个有代表性的分词系统都不能同时很好地满足这两个指标。本文提出一种全/半角还原方法可以很好地解决这个问题。主要步骤如下:
　　第一步:将所有被确认为字母词的字符串全角化,放入系统的字母词词典。
　　第二步:分词前先将待切分的原始语料文本全角化。
　　第三步:分词。分词过程中查词典时确保字母词词典优先匹配,由于字母词的切分歧义很少,采取简单的正向最大匹配方法即可。
　　第四步:对照原始语料文本,把分词结果的词语部分进行全/半角还原。由于分词结果在去掉词性标记后跟原始语料文本是按顺序完全对应的,只有全/半角形式的不同,具体的还原算法是很容易实现的。
　　2.应用
　　中国传媒大学分词系统在字母词部分采取了上文所说的全/半角还原方法。拿前述的三组实验数据来检测,只有8例的切分结果是错误的,系统的一致性和准确性相当高。从理论上讲,只要分词词典收录的字母词足够全,那么,分词结果的一致性和准确性都有可能达到100%。这里的少量分词错误全出自测试数据中的半角句号“.”,而且错误原因跟字母词切分机制无关。因为该系统读入切分数据的时候是按整句为单位读入,碰到半角句号就认为是一个整句从而结束读入后面的数据。这样,类似“.net”之类的数据就在进入分词系统之前被肢解,分词结果自然不对。这个问题只需改进系统的文本读取部分即可解决。
　　3.全/半角还原方法的优缺点
　　从字母词切分的角度看,该方法的优点很明显,切分结果的一致性和准确性都非常高。该方法的缺点也是显而易见的,它对字母词词典的依赖性非常高。字母词词典的词条需要不断地更新维护,因此需要花费较高的人力成本。
　　4.可行性分析
　　全/半角还原方法所需要的人力成本,相对于术语提取工作每年的实际开销来说,是不足为虑的。若干个人组成的团队即可胜任字母词词典的更新和维护工作。对这样的团队提供资助,能够在最大程度上保证字母词词表和词频数据的一致性和准确性,从而有利于下一步术语抽取工作的开展。
　　事实上即时更新词典的办法已经有软件系统在用,不过不是分词系统,搜狗拼音输入法每天都提供包括字母词在内的词语更新,联网的话会自动更新用户计算机上的词库。
　　
　　后记
　　
　　术语自动抽取工作对分词系统的一致性和准确性要求很高。现有的很多分词系统在字母词的一致性和准确性方面处理能力欠缺,语料库中客观存在的全/半角现象更是进一步降低了系统在这方面的性能。本文提出的全/半角还原方法可以在最大程度上保证字母词切分结果的一致性和准确性,建立在该方法基础上的分词系统在实践中验证了该方法的可行性。
　　
　　致谢
　　感谢侯敏教授和滕永林教授对本文作者在开发中国传媒大学分词系统期间给予的指导和帮助。感谢北京大学计算语言研究所为中国传媒大学分词系统的开发提供的帮助。另外,本文在研究中使用了以自由下载方式和协议获取方式得到的五个免费分词系统,在此对它们的开发单位和作者(哈尔滨工业大学信息检索研究室、中国科学院计算技术研究所、北京法国电信研发中心、史晓东先生和赵海先生)表示感谢。
　　
　　注释
　　①http://202.114.40.171:9090/cqs/。(2009-04-14)
　　 ②http://ling.cuc.edu.cn/rawpvt/index.asp。(2009-07-12)
　　 ③http://icl.pku.edu.cn/icl_groups/corpus/dwldform1.asp。(2009-04-14)
　　 ④http://ccl.pku.edu.cn:8080/ccl_corpus/index.jsp?dir=xiandai。(2009-04-14)
　　 ⑤有些切分单位虽然包含字母、数字或符号,但并不是字母词,而具体区分一个切分单位是否字母词是相当不容易的,这里不作区分,将符合字母词组成形式的切分单位统称为类字母词。
　　 ⑥分词系统是自己写的框架代码,内核直接调用了哈尔滨工业大学信息检索研究室语言技术平台中的分词模块。
　　 ⑦http://ictclas.org/packetcount.asp?PacketId=38&url=down/ictclas2009/windows_c_32.rar。(2009-04-14)
　　 ⑧http://www.nlptech.net/index.php。(2009-07-5)
　　 ⑨http://www.nlp.org.cn/docs/upload/20061228/36/segsdk.rar。(2009-04-14)
　　 ⑩http://bcmi.sjtu.edu.cn/~zhaohai/downloads/BaseSeg-pub-20070521.rar。(2009-04-14)
　　B11在正文中收录3个汉字开头的字母词词条,在正文后附录前的“西文字母开头的词语”部分收录了182个字母词词条。有些字母词仅仅在词条释义中出现(如“维生素C”出现在“维生素”词条的释义中)而没有被作为词条列出,故不算在内。
　　 B12数据来自《报告2006》下编,第41～43页。
　　
　　参考文献
　　[1]国家语言资源监测与研究中心.报纸、广播电视、网络(新闻)字母词语使用状况调查[C].中国语言生活状况报告(2006).北京:商务印书馆,2007:37-127.
　　 [2]张铁文.《现汉》“西文字母开头的词语”部分的修订[J].语言文字应用,2006(4):131-138.
　　 [3]刘涌泉.谈谈字母词[J].语文建设,1994(10):7-9.
　　 [4]中国社会科学院语言研究所词典编辑室.现代汉语词典[M].5版.北京:商务印书馆,2005.
　　 [5]刘涌泉.汉语字母词词典[M].北京:外语教学与研究出版社,2009.
　　 [6]刘涌泉.关于汉语字母词的问题[J].语言文字应用,2002(1):85-90.

其他文献

人民币汇率“跌停”与人民币“贬值”

进入12月份以来,国内各大报纸和网络媒体纷纷报道人民币汇率的异动,如：中国新闻网＂商务部谈人民币连续跌停：说明汇率由市场调节＂,腾讯网＂全球避险情绪上升人民币即期汇率8触跌停＂,

期刊

人民币汇率网络媒体市场调节商务部

生态视角下中外合作办学中英语教学的困境和出路

中外合作办学项目中的英语教学现如今面临重重困境,以至于严重影响了项目的良性和可持续性发展。本文从生态教育学的角度出发,剖析英语教学所面临的生态困境,并探讨该如何建

期刊

生态教育学中外合作办学英语教学困境出路

字母词的全/半角形式对中文分词的影响及对策初探

其他学术论文