伪实例与人工标注实例相结合的词义消歧方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:yangsh1967
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识获取是制约基于语料库的词义消歧方法性能提高的瓶颈,使用等价伪词的自动语料标注方法是近年来解决该问题的有效方法。等价伪词是用来代替歧义词在语料中查找消歧实例的词。但使用等价伪词获得的部分伪实例质量太差,且无法为没有或很少同义词的歧义词确定等价伪词。基于此,该文提出一种将等价伪词获得的伪实例和人工标注实例相结合的词义消歧方法。该方法通过计算伪实例与歧义词上下文的句子相似度,删除质量低下的伪实例。并借助人工标注语料为某些无等价伪词的歧义词提供消歧实例,计算各义项的分布概率。在Senseval-3汉语消歧任务
其他文献
根据“基因对基因”理论和日本小室与都凡按寄主的科属关系及被害症状划分株系的方法,研究了辣椒CMV的“基因型株系”和“致病型株系”。从373个甜、辣椒品种(系)中,筛选出一
采用有机溶剂从鸡蛋中提取卵磷脂,与小菜蛾颗粒体病毒混合添食感染2—3龄小菜蛾幼虫,所得数据经统计学方法处理,得到三组死亡率与时间的回归直线方程为y=18.1x-59.8(GV对照)
应用PALLAS将病毒粒体转化为乳胶颗粒通过扫描电镜直接观察,成功地检测到了大豆花粉表面污染的大豆花叶病毒(SMV)。田间春大豆宁镇1号的重花叶、轻花叶及无症状植株花粉所吸
本文通过对渝东南地区农民持续增收问题进行研究,提出了渝东南地区农民持续增收的对策,以期为西部地区乃至全国欠发达地区的农民增收提供参照模式,同时也为政府制定更有效更合理的农民持续增收政策提供参考和借鉴。  渝东南地区基本情况简介  渝东南地区指的是“一区五县”——黔江、石柱、彭水、酉阳、秀山,地处四川盆地东南部大娄山和武陵山两大山系交汇的盆缘山地,渝鄂湘黔四省市结合部,是重庆市唯一集中连片、也是全国
美国《福布斯》杂志推出了2013年“全球最具权势伴侣榜”,共有15对伴侣,基本都是政治、商业和文化领域的重量级人物,其中包括中国国家主席习近平和夫人彭丽媛、美国总统奥巴马夫妇、微软创始人比尔·盖茨夫妇和“好莱坞”明星伴侣安吉丽娜·朱莉和布拉德·皮特等。《福布斯》评选委员会在解释这些伴侣的入榜理由时说,首先要考虑他们是否对广大人群具有影响力,其次要衡量候选人是否在不同领域都具有影响力,然后还要看这些
经济学家科斯逝世,引发中国企业家和知识分子的怀念。多年来,中国改革者和民营企业家将科斯视作导师,并将他们的成功归于科斯理论的功劳。
基于重复串构造候选词集合是未登录词识别(UWI)的重要方法,目前有两种策略用于重复串提取:基于字符和基于分词。该文针对这两种策略实施了大量对比研究,并提出了基于分词提取重
负债是商业银行资金的重要来源,在商业银行经营管理中占有非常重要的地位。商业银行为追求资产的盈利,往往有扩大负债规模的内在冲动。然而,负债并非总是越多越好,适度负债对商业银行的稳健运行具有非常重要的意义,对商业银行三性原则的协调也有非常积极的影响商业银行负债即银行在过去的交易事项中形成的现时义务,履行该义务会导致本行经济利益的流出。商业银行的负债由存款负债、借入负债和其他负债构成,其中存款负债与借入
传统聚类算法通常建立在显式的模型之上,很少考虑泛化模型以适应不同的数据,由此导致了模型不匹配问题。针对此问题,该文提出了一种基于空间映射(Mapping)及尺度变换(Rescaling)的聚
中小企业是我国国民经济发展和社会发展的重要力量,然而中小企业的融资困难一直制约着这支生力军的发展,本文将中小企业知识资产管理与中小企业融资结合起来,试图解决中小企业融资瓶颈问题,探索我国中小企业融资模式。  知识资产管理概述  保罗·罗默教授在上世纪80 年代提出的经济增长四要素理论中认为,知识是经济增长最重要的要素。日本著名管理学教授野中郁次郎( 1995)也曾说:“在一个不确定性是惟一可确定因