基于语义角色和句法标注的新词语语义类识别研究

来源 :安徽文学·下半月 | 被引量 : 0次 | 上传用户:elong_ctu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:对语义的理解能帮助我们更好地理解某个词语、整句话乃至整个篇章或整个对话的含义,而找出语义识别则就是帮助计算机“理解”词语、句子和篇章含义的前提性工作。其中,词语的语义识别是基础。新词语的增长早已是一个不可忽视的趋势,中文信息处理作为应用语言学的一大触手,面对这样的形势当然也要迈出自己的步伐。本文以语料的句法成分和语义角色的标注为基础,研究满足某句法成分和语义角色条件的词语的义类倾向,以期能够将研究成果用于中文信息处理中新词语义类的推测研究,来帮助推进中文信息处理早日实现“智能化”。
  关键词:中文信息处理 语义角色标注 句法成分标注 义类识别
  一、引言
  在信息处理中,若能让计算机对语义做出分析、判断、预测,让计算机能够识别和理解人类自然语言,这将是信息处理的一项重大举措,也是让计算机真正实现“智能化”的重要前提。其中,词语的语义识别是基础,也是信息抽取、机器翻译等应用领域的基础问题。本文的研究重点就是词语的语义识别。
  在句法与语义对应关系的接口问题的研究上,我们认为是词汇语义在这条锁链中起着决定性作用,它决定着语义角色,进而影响到句法成分,部分研究也正是选用了从词汇语义到语义角色、句法成分的研究方向。结合阿普列相的语言整合描写理论,本文采取了与上述研究方向相反的逆向研究方向,以语义角色和句法成分为抓手,反推词汇语义,以期用于中文信息处理的新词语处理工作中。
  二、本研究思路
  词语组成句子,句子进而构成篇章,这是人类自然语言通常的构成层次,我们也可以据此将语义识别分为词语语义识别、句子语义识别和文本(篇章)语义识别。对于中文信息处理来说,对词语的识别是一系列后续工作的基础。目前,新词语的增长早已是一个不能忽视的事实,又加上汉语的博大精深,这些都无疑不给中文信息处理带来巨大的挑战。同时,阿普列相在他的语言整合描写理论中主张将词汇和语法这两个不同意义层面的概念结合起来,融为一体。综合以上三点,作者以语料的句法成分和语义角色的标注为基础,研究满足某句法成分和语义角色条件的词语的义类倾向,结合当前新词语增长给中文信息处理带来重重困难的汉语真实现状,以期能够将研究成果用于新词语义类的推测研究,来帮助推进中文信息处理进一步实现“智能化”。
  (一)语料库的建设
  整个实验研究分析是以语料库为依托的,本文研究需要两个语料库,分别为《中小学语文课本标注语料库》和《义类倾向信息库》。下文将分别介绍这两个语料库的构建步骤和方法。
  一、《中小学语文课本标注语料库》的建设
  《中小学语文课本标注语料库》是以人民教育出版社的语文课本为基础,然后进行扩充形成的。我们选用其中全日制普通高级中学教科书部分为母库,语料总计约40万字左右。
  我们将目标语料通过分词系统进行分词,并做词性标注,在一定的人工检查后进行语义角色和句法成分的标注。需要注意的是,在标注语义角色和句法成分时,是以语块为单位的,而并不是单个的词。在做句法成分的标注时,我们这里把语块分为主语语块(S)、谓语/述语语块(P)、宾语语块(O)、定语语块(A)、状语语块(D)、补语语块(C)、兼语语块(J)和独立语语块(T)。在做语义角色的标注时,我们选用以下几个语义角色:施事(S)、当事(D)、领事(L)、共事(Y)、受事(O)、客事(K)、致事(Z)、结果(R)、与事(T)、系事(X)、分事(F)、同源(B)、材料(H)、方式(Q)、依据(W)、原因(C)、目的(G)、时间(H)、处所(P)、数量(N)、基准(J)、杂类(U)。同时,还需要注意的是,我们虽然在同一句语料上同时标注句法成分和语义角色,但这两个工作是互相独立的,互不干扰。因为句法成分和语义角色是不同的两个概念,不在同一个层面上,语义角色是更深层次的概念,并且两者各有一套完整的标注标记,两者互不牵连。下面用例句来展示标注结果:
  (1)[D在/p 20/m 世纪/n 的/u 百年/m 中/f]H ,/w [S中华/b 民族/n 的/u 命运/n]D [P发生/v]V 了/u [O历史性/b 的/u {转折/n}@ 和/c {巨变/n}@]K 。(《在庆祝北京大学建校一百周年大会上的讲话》)
  (2)[D几乎/d [S所有/b 可/v 被/p 动物/n 用/v 来/v 发声/v 的/u 东西/n]D [D都/d 被/u [P用/v]V [C上/v] 了/y(《这个世界的音乐》)
  (3)[D在/p 文学/n]E ,/w 无论/c [D{阅读/vn}@ 或/c {写作/vn}@]E ,/w [S我们/r]L [D必须/d [P有/v]V [O一字/n 不/d 肯/v 放松/v 的/u 谨严/n]K 。/w(《咬文嚼字》)
  二、《义类倾向信息库》的生成
  我们在已有句法成分和语义角色标记的语料基础上,设计抽取程序,以语义角色和句法成分为经纬,两者两两组合形成抽取条件,在《中小学语文课本标注语料库》中抽取符合条件的所有中心词。由于我们在查询义类时是参照《同义词词林》的义类体系,所以我们在抽取时尽量保证中心词是一个词,而不是多个词或是短语。另外,为了实验结果的准确,在同一词语多次出现的情况下,会将其出现的频次计入统计结果,用于计算概率。按照《同义词词林》中的语义分类体系和符号体系给提取出的中心词打上相应的义类标记。同时,本文将抛弃单纯的新词语本身研究,在对提取出的中心词,特别是中心词是多义词的情况下进行义类标注的时候结合其所在上下文语境情况来帮助确定其语义类。
  我们把经过上文操过的信息,包括提取出的中心词及其频次、义类,录入到EXCEL表格中,生成《义类标注信息库》,以用于后续的研究分析。
  (二)词语语义类倾向研究
  在以26个语义角色和8个句法成分两两组合作为提取中心词条件的框架下,我们对语料进行了穷尽式的排查和统计,由于实验所用的语料库覆盖面有限,有些语义角色和句法成分的组合在语料中并未出现,这种情况并不是说明在语言事实中绝对不会出现,但也可以据此推断,这些现象在实际的语言运用中大多出现的频率比较低,甚至是几乎不出现。   由于篇幅有限,我们仅以SS施事主语为例做统计结果的展示:
  通过统计可知,处于SS施事主语位置的词语义类的分布情况,可得其优先度不等式:A人(2716)>B物(341)>D抽象事物(168)>E特征(56)>C时间与空间(39)>K助语(14)>H活动(9)>G心理活动(8)>I现象与状态(3)>J关联(2)>F动作(1),没有出现的是L敬语。其中A类所占比重远大于排在第二位的B类,是由于A类中包含指代人称的代词,像“你”“我”在语料中出现的频次非常多。
  由于仅按照义类大类进行分析比较粗糙,为了细化信息颗粒度,得出更加深入、更精确的结果,我们将义类从大类细化到中类,可得优先度前五名不等式如下:Aa泛称(2310)>Ah亲人眷属(122)>Ba统称(116)>Al才识(55)>Af身份(51)。
  通过上述操作,我们发现处在SS位置的词语义类中,Aa类出现的频次远大于处于第二位的Ah类,则SS施事主语位置的词语义类的显著性特征为Aa类。
  我们依据这个思路,依次考察SO施事宾语、SD施事状语、SP施事述语、SJ施事兼语等位置的词语义类情况。发现以S为纲的几个不等式中,大类前几位保持一致,即A>B>D>C/E,而中类则保持Aa>Ba/Ah的序列。
  按此思路继续考察以当事D为纲、以领事L为纲、以共事Y为纲、以受事O为纲等等不同语义角色与8个句法成分两两组合位置的词语义类情况,并得出符合各个条件的词语的显著性特征义类。
  (三)新词语义类的倾向研究
  我们选用《新词语大词典》,选取其中出现的新词语的例句作为检测词语义类倾向研究效果的测试语料。限于篇幅,我们还是以SS施事主语位置词语义类情况为例说明。
  在我们选取的《新词语大词典》的新词语释义举例例句中,经过分词、语义角色和句法成分标注、提取中心词等一系列工作,统计出出现在SS施事主语位置的词语约有2851个,经过义类的标注,发现义类为Aa的约有2365个,占总数的约83%,符合我们在第二步工作中得出的实验结果,因而,此显著特征可作为中文信息处理在推测SS位置新词语义类的一个依据。
  其他位置新词语的义类情况推测思路与做法与上述一致。
  三、总结
  本研究将词类、句法成分、语义角色结合起来,从句法成分和语义角色反推词汇意义,进一步丰富和完善汉语句法语义理论,为汉语句法语义理论研究提供了一种新的思考方式。同时,本研究是基于大型标注语料库得出的,可以基本反映汉语的真实状况。研究成果可用于新词语的词义识别,为中文信息处理的自动分析提供帮助,也可用于机器翻译、新词语词典的编纂以及信息检索等有新词语出现的地方,帮助机器更好地“理解”新词语,进而更准确地进行语义方面的处理,有助于推动中文信息处理的进一步发展,具有一定的实践意义。
  本研究的创新之处在于在新词语的识别研究上着重在对其语义类的识别上。采取了在句法、语义接口方面研究时不同的研究方向,并将实验与中文信息处理有机结合。而不足之处在于本研究所采用的语料库取材有限,覆盖面有限,因而实验结果还有待完善。另外,由于本人专业知识有限,疏漏之处还请批评指正。
  参考文献
  [1] 于鑫.阿普列相及其语义理论[J].解放军外国语学院学报,2006(2):29.
  [2] 周明海.核心语义角色句法实现的词汇语义制约[D].鲁东大学硕士学位论文,2011.
  [3] 秦春秀,祝婷,赵捧未,张毅.自然语言语义分析研究进展[J].国家情报工作,2014(22):58.
  [4]邹煜,李开拓.汉语新词语检测:检测的不只是语言——新词语监测与研究5年回顾[J].北华大学学报:社会科学版,2012(5):13.
  [5] 杨辉.汉语新词语发现及其词性标注方法研究[D].上海:复旦大学,2008.
  [6] 田震.非核心语义角色句法实现的词汇语义制约[D].鲁东大学硕士学位论文,2014.
  [7] 梅家驹,等.同义词词林[M].上海:上海辞书出版社,1983.
其他文献
近年来,国内外层出不穷的会计丑闻和频频发生的企业高管人员舞弊案件,不仅给企业和股东造成了巨大的经济损失,也对国内外资本市场的发展产生了重大冲击和深远影响。2010年,注册舞弊审查师协会发布了第六版《职务舞弊与滥用国别报告》对职务舞弊造成的损失、职务舞弊的形式、职务舞弊的发现方式、职务舞弊的受害组织、职务舞弊的作案者等进行了调查分析。笔者将探讨职务舞弊及其相关概念、舞弊的类型及针对不同类型的舞弊预防
在南疆地区发展新型农村合作组织,不仅有利于农牧民就业、脱贫致富,推动农业现代化进程,也对新疆社会稳定和长治久安具有积极的促进作用.以和田地区墨玉县为例,通过对当地农
摘 要 目前,许多高职院校都开设有会计信息化的课程,但是在实际的教学过程中,还存在着一些问题,因此,本文结合高职院校的会计信息化实验教学的现状,并提出有关会计信息化实验教学的改革的对策。  关键词 会计信息化 实验 教学 改革  中图分类号:F230-4 文献标识码:A  一、高职会计信息化实验教学的现状  会计信息化是会计学和信息技术相结合的产物,随着我国社会信息化程度的不断提高,这对企业的财务
期刊
明代中后期的妓女面对从良这一人生道路再次选择时,往往有着强烈的自主意识。她们积极借助各种可触及的社会力量,暗自积累从良所需资财。同时审时度势,精心挑选从良对象。她
住房抵押贷款的信用风险在我国现阶段已经凸现,本文首先从经济学角度分析了住房抵押贷款信用风险形成的原因,认为信用风险主要来自住房抵押贷款市场上的逆向选择和道德风险,
超主权国际机构自身业务的成功运作与美元体系及欧元体系的发展有机结合,不仅形成了国际债券市场中的重要力量,更为人民币金融体系“走出去”及亚投行未来的筹资模式提供了参
摘 要:《他和他的老婆》中分别以计程车司机张立国和色情光碟《楚门的世界》为线索,向观众呈现了两层主旨:社会中精神交流的缺失与媒体时代隐私的保护。本文通过分析这两层主旨的隐含联系,指出了话剧中这两者之间的内在矛盾,即隐私权的存在实际上使得不道德者逃避深层交流,不愿被人识得真面目的愿望得到了法律的保护。  关键词:精神交流 隐私保护  赖声川创作的话剧《他和他的老婆》,以计程车司机张立国偶然获得名为《
摘 要 随着经济全球化和知识经济的不断发展,传统的管理会计已不能充分满足企业战略决策的现实要求,战略管理会计这一概念愈发得到重视。战略管理会计本质上是为企业的战略管理过程提供服务的信息系统。随着我国企业管理水平的不断提高和战略管理的广泛应用,战略管理会计必将得到长足发展,其理念会渗透到整个会计系统以及企业管理系统中。本文及通过对战略管理会计的理论与内容进行研究,并探讨其发展方向。  关键词 战略管
公安管理体制就是指我国的公安机关为实现相关权利而设置的各种机构以及相应的组织领导制度。当前,公安管理体制是延续计划经济时期的较为传统的模式,面对新时期新形势,日益凸显诸多不相适应的问题,改革公安管理体制已是势在必行。针对公安管理体制存在的弊端,基于对公安机关本质属性的深刻认识和其他多方面的了解,笔者将从提升执法水平、严把警员的引进录用制度、合理分配警员的工作岗位、灵活的管理和培养工作、经费保障改革