WordNet应用问题研究

来源 :科技致富向导 | 被引量 : 0次 | 上传用户:idlerman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】本文介绍WordNet的来源与发展,阐述以半自动方法设计WordNet,讨论了意义排歧过程的复杂性,最后展望WordNet的发展趋势与应用。
  【关键词】语义;本体;同义词;排歧
  0.引言
  随着信息技术的发展,对电子计算机依赖的群体越来越大,更多的人都希望自己编写的自然语言能够与计算机直接对话,而实际上要使计算机能够接受这些自然语言或者伪代码,必须让计算机本身具备语法、语义、词法、句法等语境,而词汇语义的构建就是基于WordNet的,WordNet一直是知识工程研究的重点,下面对它分别做一些分析和讨论。
  1.WordNet的来源与发展
  WordNet[1]原本是由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是把单词以字母排列顺序为原则,而是基于心理学和语言学的数据库,组织形式是用户在认知过程中所表现出的义类原则即词以义聚,按照单词的意义组成一个“单词的网络”。 它是一个覆盖范围宽广的英语词汇语义网,以一种“网“的形式来描述词语的意义,可以是利用语义成分表示语义[2],也可以是利用关系表示语义,比如:“碗”(bowl)和“餐具”(tableware)代表两个节点(node),而这两个节点之间有一个箭头(dart)来表示这样的命题:碗是一种餐具(a bowl is a kind of tableware),即“Is-A-KIND-OF”这样的语义关系 , 名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,即在词的形式和意义之间建立起映射关系(mapping)用于描述词汇矩阵,并且这些集合之间也由各种关系连接。一个多义词就有可能出现在它的每个意思的同义词集合中,对于这样一个复杂的词库该如何创建呢,是手工编制还是机器自动生成,选择手工构建词典的优点之一是便于创建更为丰富的词条信息;其次是便于控制,下面我们将阐述以非手动的方式来设计WordNet。
  2.半自动方法设计WordNet
  人工编制显然工程浩大,必然时间长,要花费大量的人力、物力、财力,而对于机器完全自动生成,就是让机器本身独立判断一个个的概念,准确的定位各种关系,这样产生的结果往往是准确性不高,在目前多方面受限制的前提下可以试着以本体半自动的设计方法。
  在设计方法前先讲述“本体”和“关系”概念。
  本体:本体目前还没有规范化的统一定义,它是一种概念模型的明确规范说明,而这个概念模型又是共享的,它主要表达了四个方面的含义:概念模型、明确、形式化、共享。概念模型指通过抽象出客观世界中一些现象的相关概念而得到的模型;明确是指所使用的概念及使用这些概念的约束都有明确的定义;形式化指必须是计算机可读的;共享指概念模型所体现的是共同认可的知识,反映的是相关领域中公认的概念集。
  关系:Hypernyms关系表达的是目标词汇作为实体的隶属关系,表示目标词汇与上类词汇是一种a kind of 关系。
  Holongms关系表达的是目标词汇作为一部分所隶属的上位关系,表示目标词汇与上系词汇是一种 a part of 关系。
  Meronyms关系表达的是目标词汇作为一个实体的一个部分,表示下位词与目标词汇的是一种a part of 关系。
  Coordinate terms关系表达的是哪些与目标词汇有相同上类词的词汇,表示的是同族关系;
  Troponyms关系表达的是目标词汇的近义词,表示的是近义关系。
  Antonyms关系表达的是与目标词汇相反的关系。表示的是反义关系。
  2.1抽取核心子本体、扩展、编辑以达到完善本体的方法
  以领域数据字典为依据,从wordnet中抽取一个子本体,从wordnet抽取world本体核心概念为示例,这个过程其实就是一个概念发现的过程,必须有本体雏形作为抽取子本体的基础,也就是通常所说的middle-out方法;在抽取出的子本体基础上,对其进行扩展与分析,wordnet是一部同义词典,其有jwordnet和JWNL API作为词典的访问函数,wordnet只具有上下位等关系,没有objectproperty这种关系,概念可以抽取出来,关系的获取还有一定的困难,通过抽取出的种子概念的相关概念为候选概念,利用种子概念与候选概念出现的概率,运用语料库推算两种子紧密度,以此确认候选概念是否扩展到本体中,wordnet获取本体其实已经获取了本体的关系,而无分类关系的可利用的方法是关联规则挖掘法;最后用可视化工具protégé处理,这也是目前应用最广泛的本体编辑工具[3]。
  2.2其它方法简述
  上述的方法是基于语义字典的生成本体的方法,其实生成本体的方法也可以基于文本甚至是基于知识库的,如果是基于文本的话可以利用聚类算法把相关词集合在一起,选择使用频率高的词代表这个类,而基于知识库的则是先构建知识库,运用知识库已有的规则组合小型本体,运用的方法是自然语言处理、统计分析、数据挖掘等等。
  3.意义排歧过程的复杂性
  构建的wordnet由于是作为语义知识创建的,几乎没有句法信息,它是用同义词的集合体表达词汇的概念,并描述词汇的矩阵,即在词性与意义上建立起了一一对应,在一篇文章中,取某一个多义词的意义的排歧的过程却是相当的复杂,只有通过内部结构本身利用概念密度加以计算才能排歧,使用目标周围的词来确定本词的意义,一般说来主要有三种方法可以实现[4、5]。
  方法一,通过选择约束性规则来确定词汇在文章的不同位置的词义进行选择,可以是选择性限定规则(selectional restriction)、决策树(decision trees)、决策表(decision lists)等,当然这一定性的方法在理论上依赖语言学知识库的,实际操作构建这个知识库并不是意见简单的事。
  方法二,通过统计每个词汇候选词汇在文章出现的概率权值,这种基于定量的方法,是将最大概率权值的词汇作为结果,可能是独立于语言学的,局限性是统计数据稀梳是基于带标语的人工构造获取知识。
  方法三,将方法一与方法二结合起来,主要依靠的是统计学算法处理文字的文本切分和词性标注问题,可以是根据语言学对词汇进行首次划分,再应用统计学的算法进行二次划分,推算段落起点终点。
  4.WordNet的发展趋势与应用
  说到底,wordnet的构建还是需要创建一个知识库,包含无数的概念的,但在关系上很难顺利进行直接推理,比如:在饥饿(hungry)与厨房(kitchen)之间存在一条路径,因为这两个词在食物(food)这个节点上有碰撞,从而可以把饥饿(hungry)与厨房(kitchen)间接联系在一起进行常识判断。对于wordnet的更深层次的研究与应用还是很有意义的,尽最大的可能去解决语意分类的全球化处理与众多的词义排歧,力求全局范围内准确的处理语言信息,在未来的发展上检索方式正朝着越来越多的方向发展,对于模糊检索、同义检索更是方便用户,真正做到以语义为本体,聚集与词目在语义关联的所有词汇,实现以词为中心的、发散式的、描述词目所有基本语义关系的语义网络集。 [科]
  【参考文献】
  [1]梁健,吳丹.种子概念方法及其在基于文本的本体学习中的应用[J].图书情报工作,2006,50(9):l8-21.
其他文献
这时大家可能会产生疑问,把节温器拆掉后冷却液会一直走大循环,冷却效果加强了对发动机不是有好处吗?这样的想法其实是错误的,节温器最重要的作用是能够将发动机的工作温度调
【摘 要】杨必是著名的翻译家,她翻译的《名利场》被誉为翻译的名家名篇,深受中国读者的欢迎。她的译文使中国的读者感觉亲切,易于理解。本文选取杨必女士翻译的名利场中的第一章,分析她是如何使用翻译字、短语、句子等方面的翻译技巧来使译文符合目的语读者的阅读习惯。  【关键词】翻译;杨必;名利场  1.翻译家杨必  杨女士是我国著名的翻译家,翻译的作品有(英)埃杰窝斯著《剥削世家》、(英)萨克雷著《名利场》
随着计算机技术不断发展,加强计算机教学改革势在必行.为了培养出优秀的人才,计算机教学要融入信息化教学理念,积极改善教学中存在的不足,这样方可提高教学质量,真正实现改革
2008年夏,我在湖南郴州鬻字后购得两块民国丙寅年(1926年)瓷板肖像画,瓷板画高40厘米、宽26厘米,落款为“南昌丽泽轩梁兑石写照”。梁兑石,别号石庐,是民国时期南昌瓷板肖像
CT引导下胸部病变穿刺活检是目前被广泛应用的非血管性介入技术[1],病人痛苦小、易接受,是在形态学对胸部病变诊断不明时采用的最佳检查方法。为胸部病变的治疗提供了可靠依
胸部摄影在常规摄影中占较大的比例,是放射影像学中永恒主题,而照片质量的优劣直接影响诊断准确性。因此,抓住胸部摄影的质量评价与管理也抓住了矛盾的主要方面[1]。请资深的
随着中国特色社会主义法律体系的初步建成和法治政府理念的逐步深入,法制工作在政府工作中的重要性进一步凸显,党中央国务院对政府法制工作空前重视,对政府法制工作的要求也
对话式教学在初中英语教学中具有重要的意义,它改变了传统课堂中注重知识传授的课堂倾向,重视学生知识、技能、情感的生成,重视培养学生兴趣以及积极主动的学习精神。本文从
在笔者学校,从三年级到六年级,很多班级都是大班额。所以,老师们倡导以小组学习的形式来开展课堂活动,鼓励大家合作学习、互动交流,突出学生的主动性、积极性和创造性,减轻大
【摘 要】现代信息社会的到来,给全球带来了信息技术飞跃发展的契机。人类社会正由工业社会全面进入信息 ,其主要动力就是以计算机技术、通信技术和控制技术为核心的现代信息技术的飞跃发展和广泛应用。信息技术在众多的科学技术群体中越来越显出强大的生命力,因此,认知信息技术、信息技术在现代教育中的影响,对教育发展及其前景都会有着不可低估的作用。  【关键词】剖析;信息技术  1.信息技术  随着信息技术的发展