利用上下文信息解决汉语自动分词中的组合型歧义

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:lfh8686806
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
组合型歧义切分字段一直是汉语自动分词研究中的一个难点。该文将之视为与WordSenseDisambiguation(WSD)相等价的问题。文章借鉴了WSD研究中广泛使用的向量空间法,选取了20个典型的组合型歧义进行了详尽讨论。提出了根据它们的分布“分而治之”的策略,继而根据实验确定了与特征矩阵相关联的上下文窗口大小、窗口位置区分、权值估计等要素,并且针对数据稀疏问题,利用词的语义代码信息对特征矩阵进行了降维处理,取得了较好的效果。笔者相信,这个模型对组合型歧义切分字段的排歧具有一般性。
其他文献
中美关系是互补大于对立的天然的大国关系。从战略层面看,中美新型大国关系的建构要避免战略误判,要有准确的战略定位,要形成战略默契和战略分工。从实现路径看,应从双边到区
根据结构函数给出了分形维数、分形粗糙度的严密解析解,修正结合部静摩擦因数相关公式。编写求解域扩展因子的通用Matlab程序,详细推导自相关函数、功率谱密度函数和结构函数的
分析地下商场内部空气品质恶化的主要原因 ,并阐述了解决室内空气品质恶化的技术措施及对策
从光纤在主干光缆交接箱内的组织方式以及光交接箱的扩容改造等方面着手,针对光交接箱容量不足、端子占用不合理,主干光缆、配线及末端接入光缆在光交接箱内的光纤分配模式不
肝胆管结石病是我国近年来普遍发生于广大农村地区的肝胆管系统疾病,在我国普通地区,肝胆管结石的发病率占所有入院就诊患者的5%,其中肝胆管结石约占肝胆管系统疾病的4/5。以往多
试验选用自育的20个糯玉米杂交种为供试材料,采用随机Ⅸ组设计。通过对鲜穗采收期和成熟期产量、穗长、穗粗、穗行数、行粒数、株高、穗位高等性状进行相关和通径分析。结果表
为降低丙烯酰胺生产中反应液浓缩过程的能耗,采用将90℃反应液与40%浓缩液直接混合,在6.0~7.0kPa条件下对42%的混合液进行闪蒸的工艺设计。在该工艺设计条件下,反应液中丙烯酰胺的质
本文通过对青海省花石峡至久治高速公路绿色循环低碳公路主体性项目技术指标、成果影响及绿色公路创建实施中遇到的问题综合分析,根据青藏高原地区绿色循环低碳公路建设的意
区域生态文明建设事关丝绸之路经济带核心区生态文明可持续发展战略,其意义重大.“奎-独-乌”区域地处新疆沿天山北坡城市经济群发达地带,是丝绸之路经济带核心区的中心区,在
利用了加拿大地球系统模式CanE SM2(Canadian Earth System Model of the CCCma)的结果,针对百年尺度大气CO_2浓度升高和气候变化如何影响陆地生态系统碳通量这一问题,分析了18