基于机器可读词典的词汇知识抽取

被引量 : 0次 | 上传用户:jerryfong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
越来越多的实践证明,词汇知识库是自然语言处理系统不可或缺的组成部分,语言知识库的规模和质量在很大程度上决定了自然语言处理系统的成败。这已经成为自然语言处理研究人员和系统开发者的共识。构建概念之间的关系,是建立本体,特别是汉语本体的重要的研究课题,它们是自然语言处理进一步发展所必须倚重的基础知识,不但是建立语言知识库的理论基础,而且有着广泛的应用。目前语义关系库的建立,还是采用手工的方法,工作量很大[5]。如果能够引进计算机的辅助提取,那么建立这样词汇知识体系的效率将大大提高。我们相信,这种词汇间的关系,必然有着其内在的规律,完全有借助程序高效自动抽取的可能。本文利用机器可读词典作为资源,首先通过对释义项进行分类,然后基于释义分析自动生成用于抽取词汇知识的模版,然后采用模版匹配的方法,实现词汇知识的自动抽取,使用的是规则提取加上特征消歧的方法。在机器可读词典中,已经蕴含了许多候选的关系模式,标注词典中一部分具有特定类别的释义进行分析,提取对其中上下位等语义关系有较为明显指示作用的模式,来构建被释义的名词和释义中出现的词汇之间的语义关系。并根据上下文中的形态、句法等特征,建立相应的统计模型用以对结果进行过滤。在实现上述模型,在应用到《应用汉语词典》中后,取得了较好的抽取效果。然后,在前面的研究基础上,通过分析从机器可读词典中手工标注出来的各种上下文信息,研究对概念内涵特征信息进行自动抽取的问题,并做了一些初步的尝试。主要集中在对提取名词的属性特征以及部分形容词(主要是颜色词)的研究,具体方法是先手工标注一部分语料,提取出其“功能”属性的定位特征及其前后的上下文特征,先使用定位特征进行概念内涵特征的候选集的初步抽取,最后使用最大熵方法对候选集进行分类,取得了一定实验性的成果。
其他文献
目前我国刑法关于绑架罪规范中,具有"勒索财物为目的"的主观构成要件要素。从历史上看,立法将绑架罪规定为具备特定目的的行为,是受我国历史因素的制约。当前情况下,再凸显"
数学学习困难的研究是数学教学与实践中一个引人注目的问题,所谓数学学习困难,指的是学生在学习过程中所达到的实际水平明显低于预期标准的现象,表现在学生学习的可能性与对
随着自来水厂排泥水直排河道的方法不再可行,水处理过程中产生的污泥量及污泥性能将直接影响整个水厂的造价及运行费用。试验在水处理工艺流程相同的条件下,分别使用了硫酸铝、
当前,构建信息化校园,将信息技术有效地融合于各学科的教学过程来营造一种新型的教学环境,让学习者不受到校园的空间和时间的限制,并用科学规范的管理对这些信息资源进行整合和集
回弹是板料冲压成形中存在的普遍现象,它直接影响着冲压件的尺寸精度。板料回弹量是整个成形历史的累积效应,它与成形过程中模具几何形状、材料性能、板料初始形状、工艺条件
本文分析了西藏经济发展的迫切性和西藏生态环境的脆弱性,认为西藏经济的发展与高原生态环境安全的冲突是不可避免的,要解决二者的冲突,必须采取整体规划、稳步推进的策略,大
目的探讨首发强迫症患者的血清肿瘤坏死因子-α(TNF-α)和白细胞介素-2(IL-2)水平及认知功能情况,观察经过药物治疗后的强迫症患者血清TNF-α、IL-2水平和认知功能的变化,为
近年来,我国食品安全问题层出不穷,现已成为民众关注的热点。如何加强我国食品安全的监管,是当前摆在政府面前的亟待解决的问题。运用信息化手段进行食品安全监管,可以弥补传
世界服务贸易的迅猛发展是近30年的事情,因此对服务贸易的研究在整个经济学领域是一个比较新的课题。从中文资料来看,多是研究中国服务贸易发展情况及入世后应对之策的文献和
在本文中,“言语行为”是广义的,在特定的语境中,所有的说话、行文都可视为言语行为。套用“行为”一词、从言语行为人手,是为了更好地与社会学联结,因为从某一角度说,社会学就是研