命名实体类流行语描述性释义的识别研究

来源 :现代语文(语言研究) | 被引量 : 0次 | 上传用户:w253602739
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:从命名实体类流行语描述性释义的语言学特征分析入手,制定其特有的语言规则匹配模板,从海量信息中,自动识别出符合条件的候选项,再通过构建语言模型,设定包含时间词的句子权重,来体现命名实体类流行语的时效性,从候选项中识别出命名实体类流行语的描述性释义,该识别研究可为流行语词典的编纂与动态更新提供一定的参考。
  关键字:命名实体类流行语  描述性释义  词义演变  词典编纂
  一、命名实体类流行语描述性释义识别的必要性
  流行语是在某一时期,某一地域或某一人群中迅速传播、盛行的词汇。命名实体指文本中具有特定意义的实体,包括人名、地名、机构名、专有名词等。上述两个方向的已有大量研究成果,而命名实体类流行语的研究还是一项空白。谢学敏(2005)将流行语分为有标记的流行语释义与不带标记的流行语释义两类,不带标记类又分为事件类、人物简历类释义两个分类分别加以处理,计算复杂度相对较高。术语定义提取方面的工作一直受到学界关注。张艳(2003)利用句法分析工具分析短语成分,根据句型结构,并建立数据和概念描述,给出术语发现算法,最终识别出术语定义。荀恩东(2004)采用术语定义的语言学模式,多线程高效下载网页,经后续处理返回给用户术语定义。荀恩东后续又通过考察术语定义构成的语言学模式、定义中词汇和术语周边的统计特征,并根据新术语出现的上下文统计特征,用SVM分类器进行术语定义的识别。词义演变的研究多数从语言学本体或者加入社会学的因素进行考察[6],或就某一个词语的语义演变进行考察。
  词义演变是词汇发展的一个基本特征,相关的研究多半从语言学本体的角度探讨词义的扩大、缩小、转移。词义演变考察对象通常不包含命名实体。实际上,很多命名实体的在使用者的心理词汇库中的词义呈现出明显的词义演变趋势。本文阐述了该类词汇的词义历时变化,在此基础上进行描述性释义的识别。该识别研究对于流行语词典与流行语数据库的建立与动态更新都具有现实的参考价值。
  由于命名实体类流行语不同于术语,我们将识别对象定义为“描述性释义”。
  二、命名实体的语言学特征
  (一)流行语的构词成分
  本文考察了从2003年至2012年十年间由国家语言资源监测与研究中心、北京语言大学等单位联合发布的各年度中国媒体十大流行语,构建了一个流行语信息库。这些流行语包括综合类、经济类、文化类、科技类等,共1060条(包括重复出现的流行语如“刘翔”,但这些流行语在不同年度入选的原因不同,作为命名实体类流行语的描述性释义是不同的,故本文作为不同词条处理。)。通過对该信息库的考察,我们发现流行语的构词形式于普通词汇相比,具有明显的不确定性与多样性。
  1.包含大量缩略语和字母词(或字母词与数字的组合)
  例如:“高铁”“驻京办”“T3航站楼”“CMMB”“CPI回落”
  2.包含大量命名实体(人名、地名、机构名)或包含命名实体的组合词
  例如:“郭明义”“钓鱼岛”“高盛”“北川中学”“珠海航展”。
  从流行语信息库中,检索到命名实体184项,占所有流行语总量的17.36%。其中人名124项、地名29项、机构名31项。各项在命名实体中所占比重如下表:
  (二)命名实体类流行语的描述性释义
  命名实体词义的演变与近现率是紧密相关的。近现率是反映流行语流行程度的一项重要指标。词汇的近现率是动态变化的,在一个时间段里近现率高且使用广泛便构成了流行语。从心理语言学的角度考察,一个词,在使用者心理词汇库中被激活的概率与被激活的速度与近现率成正比关系。从历时角度考察,在受试者心理词汇库中,被测试词汇每个时间节点上的词义都会被激活,构成一个词义组合,如何从这些这些词义组合中筛选出近现率高的词汇释义是我们的研究主题。
  通过对人工识别出的命名实体类流行语的描述性释义的考察,我们发现流行语的描述性释义,与普通词汇的义项以及术语的定义不同。由于流行语是动态更新的,具有时效性、流通性、新闻性,这些属性是其他类别的词汇所不具备的。我们以2006年入选文化类流行语“孔子”为例,在搜索引擎中输入该词,检索到的“孔氏,名丘,字仲尼”之类信息无法反映出“孔子”入选流行语的缘由。这些释义与词汇近现率是脱节的。换言之,我们无法从该描述性释义中找出其作为当年流行语的任何理据。最终通过手工检索到的描述性释义为:
  2006年1月,中国孔子基金会发起制订孔子标准像,6月向全球发布孔子标准像初稿,此举引起了不少争议。
  该描述性释义解释了缘何“孔子”入选该年文化类十大流行语。
  上述流行语的描述性释义与普通词语义项或术语定义存在明显的差别,义项与定义通常不包含时间词,或类似“以来”“此举”“争议”这样的词语;而命名实体类流行语的描述性释义包含的词类与词例数更为广泛。
  (三)命名实体类流行语的描述性释义识别的必要性
  显然传统意义的辞典无法检索到流行语的词条释义。网络搜索引擎,虽方便快捷,但从海量信息出定位最佳的释义,效率与准确率都不尽如人意。目前网络搜索引擎的功能已经非常强大,指定功能性的搜索服务也很完善,例如“百度百科”“智库百科”“互动百科”,这些查询服务一般可以直接定位所查询项的术语定义、词语定义、定义性描述。即便如此,很多流行语、新词语,仍不能从网络上找到现成的描述性释义。人工从网络海量信息中检索到这些词语的解释费时费力,且一些人为因素也影响到识别的准确率。
  以2008年流行语“北川中学”为例,用户在百度搜索引擎可查找到的内容分两类。返回的前100个网页中一类是将“北川中学”作为一个普通的机构名来处理,介绍该中学从建校起的历史沿革。第二类是包含有关“北川中学”以及“北川中学”的学生各个不同方面的新闻事件。“北川中学”入选2008年媒体流行语,是与汶川地震这一背景事件密不可分的,与它作为一个普通的机构名并无关联。两者所要表达的语义内涵是截然不同的。在汶川地震之前的“北川中学”与地震之后的“北川中学”语义层面上有很大差异。   同样,命名实体“刘翔”多次入选近年的流行语,但每年入选的原因是不同的,表达的词义内涵显然是不同的。将一个命名实体作为一个固定不变的词汇统一处理显然是不科学的。
  搜索引擎只能提供给我们一个不具备时间区分度的词语解释,而这显然不符合流行语的时效性特征,也无法体现语义演变与近现率的特征。
  考察中,本文发现大量使用度颇高的流行语,通过搜索引擎查询,也缺少现成可获取的较为规范的描述性解释。如何准确地识别这些命名实体类流行语的释义,是一个需要语言学界关注的课题。基于此,本文使用一种规则加统计的方法进行命名实体类流行语描述性解释的识别。通过构建了命名实体类流行语的描述性释义的匹配规则进行初次过滤,在规则匹配的基础上,再通过建模统计计算方法进行最终识别。
  三、命名实体类流行语描述性释义的规则匹配
  (一)文本预处理
  提交给百度搜索引擎一项流行语查询,返回一系列的包含查询项的相关文档。首先对返回文档进行预处理,将预处理文本转化为纯文本,滤掉垃圾信息,再将文本进行分词和词性标注。本文使用中科院计算所汉语词法分析系统ICTCLAS进行分词和词性标注。
  (二)命名实体类流行语描述性释义的匹配模板
  本文通过对命名实体类流行语描述性释义的词语构成分析,构建了如下的匹配模板,两个句子结束符之间的字符串,或段首与句子结束符之间的字符串,若有一个子串同以下某个模板匹配,则整个字符串便是抽取的候选描述性释义。
  模板使用正则表达式表示,其中圆括号中用竖杠分开的是可选项,圆括号表示可选项中必须出现一项。星号表示任意字符串。汉字和其他符号是应匹配的字符。PopNE表示命名实体类流行语,其他英文字符串是模板名称。
  1.PopNE(是|即)
  2.PopNE (包括|包含)
  上述两条匹配规则主要针对普通流行语。
  3.PopNE (位于|坐落于|地处)
  该匹配规则可以检索出流行语包含大量的机构名和地名。
  4.*Time*
  该匹配规则检索出所有与被查询命名实体类流行语在同一文本中出现的包含时间词的句子。流行语是某个特定时期使用度高的词语,所以我们将时间范围定义在2003年到2012年,本文的研究对象也主要针对这十年间出现的命名实体流行语。
  (三)命名实体类流行语描述性释义匹配模板的特点
  为确保描述性释义的召回率,本文将匹配模板适当放宽。该步骤中,由于语言现象的多样性和不可预测性,一些检索到的句子在语言形式上不符合匹配规则而被滤掉,这也是匹配模板自身难以克服的缺陷,不过本文的描述性释义识别是基于网络海量、动态更新的信息源,所以该类句子在数量上微乎其微,规则基本能涵盖所有命名实体类流行语的描述性释义。
  四、基于统计方法的命名实体流行语描述性释义识别方法
  经过模板匹配过滤,检索出的符合匹配模板的一些候选项,准确度达不到实际的查询需求,在此基础上进入下一步统计方法的计算,以提高最终识别的准确度。本文采用向量空间模型(VSM)进行最终句子的识别[8]。
  给定流行语描述性释义候选句子S1、S2、S3…… Sn,将它们视为n个单个短文本:Doc1、Doc2、Doc3 ...Docn。
  采用向量空间模型时,通常会构建停用词表,将区别性低,意义贡献小的词语滤掉;但本文针对命名实体类流行语的处理具有其特殊规律。首先描述性释义不同与严格意义的术语或词语定义。从词性类别角度考察,形容词、副词、数词、量词、感叹词在描述性释义中出现频率都很高,所以我们构建的停用词表词条数目相对通用停用词表小很多。
  将候选释义视为一个集合,在这个集合中进行高频词抽取,抽取出来的前15位高频词组成一个高频词向量HiFre_word。
  该向量等同于信息检索中的查询向量,每个候选句子视为一个小文本,等同于一个文本向量,
  通过构造上述向量空间模型来计算HiFre_word向量与doc向量之间的距离,由距离远近来定义相似度大小。
  (一)特征项权重的选择
  词频是最常用的特征项的权重指标。本文以候选句子中的词频作为构造文本向量的权重。
  (二)VSM计算
  给定一个文档,把视为一个维的坐标系,为相应的坐标值,即权重,则可以视为是维空间中的一个向量。Q为高频词向量HF_word。两个向量之间的距离计算公式:
  根据公式,识别出与HF_word最相似的文本向量,作為释义的最优选择。
  (三)包含时间词的候选句子的权重设定
  流行语与普通词语最显著的差别是时效性,因此在释义提取时加入内容的时效性会显著提高流行语释义识别的准确率。通过考察发现,包含命名实体释义的句子与包含时间内容的句子连接越紧密,该释义的准确率越高,两者之间的间隔距离与两者之间的语义相关度成正比。我们加权计算方法,对VSM计算出来的相似度进行最终修正:
  其中n为释义句子与包含时间词的句子之间的距离,如果两个句子连在一起,n取值为1;如果两个句子中间有一个其他句子间隔,n取值为2;其余依次类推。实验发现,当两个句子的距离超过5以后,权重之间差别不大,这也符合距离主题句超过一定距离后语义相关度之间没有太大差别这一规律。
  (四)流程图
  流程说明:
  1.将命名实体类流行语提交搜索引擎;
  2.搜索引擎返回相关搜索结果文档;
  3.搜索结果文档集合,通过预定义的语言模板进行过滤;
  4.将过滤后的集合经过时间模板过滤;
  5.构建VSM,计算各个定义与高频词之间的相似度并进行排序;   6.抽取相似度最高的n个定义作为最终结果,n可自定义。
  (五)实验结果评价
  本文基于网络信息源进行识别,故实验结果评价无须考虑召回率,只需用准确率表示。
  “P”表示识别出的正确的流行语描述性释义在所有识别出的句子中的比例,计算公式如下:
  其中识别出的正确的流行语描述性释义是指最终结果中排名前三的句子中有正确的释义。我们选取从2003年至2012年184个命名实体类流行语作为实验对象。实验对象包括“时政类、经济类、科技类、教育类、文娱类”等各领域的命名实体类流行语。识别出正确的描述性释义为161条,准确率为87.5%
  五、结语
  传统语言学的角度,从词义层面上考察,人名、地名、机构名这些看似静态的词汇不存在词义演变的条件与可能。然而,命名实体类流行语描述性释义的识别,使得我们有可能从历时发展的角度去研究命名实体的词义演变,该研究对于流行语辞典编纂、流行语数据库的建立,都提供了一定的支持。对语言学研究、社会学研究、自然语言处理研究来说都是一项有意义的工作。
  参考文献:
  [1]张普.基于DCC的流行语动态跟踪与辅助发现研究[A].第三届全国语言文字应用学术研讨会论文集[C].2004.
  [2]谢学敏.基于动态流通语料库(DCC)的流行语释义信息自动提取研究[A].中国人工智能学会第11界全国学术年会论文集[C].北京:北
  京邮电大学出版社,2005.
  [3]張艳,宗成庆,徐波.汉语术语定义的结构分析和提取[J].中文信息学报,2003,(6).
  [4]荀恩东,贾爱平,宋柔.基于互联网的术语定义获取系统[J].中文信息学报,2004,(4).
  [5]荀恩东,李晟.采用术语定义模式和多特征的新术语及定义识别方法[J].计算机研究与发展。2009,(1).
  [6]石静.词义发展演变的系统性研究[D].济南:山东大学硕士学位论文,2007.
  [7]玄玥.“见”不是虚化结果补语——谈词义演变与与语法化的区别[J].世界汉语教学,2010,(1).
  [8]张华平,李恒训,刘治华.信息检索:算法与启发式方法(第2版)[M].北京:人民邮电出版社.
  (张榕  北京语言大学汉语速成学院  100083)
其他文献
基于问题的学习法是备受关注的现代教学法。文章探讨了这种方法在“国际金融”课程教学实践中的应用。文章认为,“国际金融”课程的性质、教学目标以及学生的期望、知识结构支
对沙地上不同年龄毛白杨人工林的根系,从形态、数量和分布密度3个方面进行了调查研究。结果表明,其根系为水平斜生复合根型,14a生林木根系的分布深度可达4.5m,水平根幅达8m左右。以重量划分
用火棉胶包埋,Nissl,Luxol固蓝-克紫和Weil氏染色方法,对成年北京鸭的前庭核和耳蜗核各亚核的位置,细胞构筑进行了研究。测量和计算出前庭核和耳蜗核各亚核的长度,细胞胞体的直径,并按胞体直径大小
对第29届奥运会男子200 m个人混合泳决赛中的8名运动员比赛成绩进行分析,发现菲尔普斯在各分段末均保持第一领先优势,4个分段发挥稳定,体力分配合理,拉斯洛.切赫在仰泳阶段的
采用对比试验及典型调查试验的方法,对河北省肉牛养殖结构的区域化进行了研究。结果表明:河北省北部丰宁、隆化和南部的临漳、大厂母牛每产一头犊牛的成本分别为522.49,493.06和868.70,1176.72元。在北部以
结合网络购物的特性,从店铺信用、产品价格、所销售体育用品的描述完整度、顾客好评率和配送服务质量五个测量维度,对所得到的数据进行统计分析,并提出了相应的网络营销建议,以期
通过考证有关文献,初步确定了中国小麦真菌病害有70种,并对这些病害的报道年限、分类地位、地域分布等做了分析。
摘要 提出了基于随机控制优化奇异衍生品交易策略的方法,并应用于Merton经典模型和Almgren-Chriss-Chriss(非)线性价格影响模型:首先,根据选定的效用函数计算出值函数;再由值函数推导出HJB方程;然后,计算HJB方程最大值函数的解,即理论的最优交易策略π4;最后,使用Monte Carlo方法完成数值分析,验证理论结果。  關键词 随机控制;值函数;HJB方程;最优交易策略;M
细胞凋亡是有机体在自身基因控制下的细胞有序死亡的方式.概述了当前关于正常妊娠和流产过程中细胞因子IFN、TNF、Ils、NO与细胞凋亡基因Bcl-2、Fas相互作用的研究情况,指出
以长春密刺黄瓜为试材,对大棚黄瓜的光合作用规律进行了探讨。大棚黄瓜存在的明显的光合“午休”现象,中午叶温升高,大气湿度下降造成气孔导度下降是形成光合“休午”的外部原因