基于机器词典的汉语名词词汇关系自动抽取研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:hurukun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文利用机器可读词典作为资源,首先研究了词汇间关系信息的抽取,使用的是规则提取加上特征消歧的方法。在机器可读词典中,已经蕴含了许多候选的关系模式,标注词典中一部分名词的释义进行分析,提取对其中上下位等语义关系有较为明显指示作用的模式,来构建被释义的名词和释义中出现的名词之间的语义关系。并根据上下文中的形态、句法等特征,建立相应的统计模型以消除歧义。实现上述模型,在应用到《应用汉语词典》中后,取得了良好的抽取效果。 然后,在前面的研究基础上,通过分析从机器可读词典中手工标注出来的各种上下文信息,研究对概念内涵特征信息进行自动抽取的问题,并做了一些初步的尝试。主要集中在对提取名词“功能”特征的研究,具体方法是先手工标注一部分语料,提取出其“功能”属性的定位特征及其前后的上下文特征,先使用定位特征进行概念内涵特征的候选集的初步抽取,再使用决策树方法对候选集进行分类,取得了一定实验性的成果。
其他文献
溯源是一种描述数据对象的祖先或者历史的元数据,在计算机系统中,溯源信息表示所有影响该数据最终状态的过程。溯源信息在入侵检测,访问控制,程序调试方面有重大的价值。  以往
本文基于ARM7的高性能嵌入式处理器及其嵌入式操作系统,配合TI的运算密集型定点DSP处理芯片,结合EDA设计平台,对传统的计算机电信集成技术(CTI)相融合进行了研究,并从硬件角度进
在医学图像的处理中,目标对象的定位和边缘提取至关重要,它是定量分析和辅助诊断的基础。本文主要研究在图像处理和识别技术的基础上,结合牙体形态学知识,针对X线曲面体层片
数字用户线(DSL)是当前主流的接入方式,容易受到线路上串扰、RF射频干扰、脉冲噪声、信道衰减和信道陷波的影响。尤其是第二代甚高速数字用户线(VDSL2),作为最新的DSL技术,虽
本文的研究内容包括以下几部分内容,并取得了一些初步的成果:1.对于卫星定位取得的定位数据进行地图匹配,地图匹配不仅考虑了当前定位点与其最近的路段的距离,而且考虑了路段
随着分布式编程技术的日趋成熟,使得企业各个部门之间通过计算机信息管理系统协同工作成为可能,并且极大程度的提高了了企业的各个部门之间的信息交互的深度和广度,从而给企
计算机技术、网络技术以及其它高科技技术的发展,使得社会生活中传统的犯罪和不道德行为更加隐蔽和难以控制。随着Internet以及电子商务的发展,电子信息的安全对人们越来越重
随着通信与计算机技术的迅速发展,政府政务工作越来越依赖于计算机系统和网络技术,对业务系统的要求越来越高。要求业务系统不仅要具有更高的可用性,而且还要具有更大的扩充
随着互联网用户数和信息量的迅猛发展,信息检索和查询成为最基本、最重要、最普及的应用,信息检索的效率通常被用户视为衡量检索服务质量的标准,对于促进还是制约互联网的发展至
本文阐述了网络安全和病毒的相关知识,对RPC漏洞和病毒进行了详细分析,并讲解了简单杀毒工具的设计与实现。 计算机网络技术是20世纪对人类社会影响最深远的科技成就之一