基于汉语二字应成词的歧义字段切分方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:qlin08
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文章提出了利用汉语中的二字应成词,计算汉语句内相邻字之间的互信息[1]及t-信息差这两个统计信息量的新方法,进而应用这两个统计量,解决汉语自动分词中的歧义字段的自动切分问题.实验结果表明,采用该文所述的方法,对歧义字段的切分正确率将达到90%,与其他分词方法相比较,进一步提高了系统的分词精度,尤其与文献[1]所述方法比较,对于有大量汉语信息的语料,将降低系统的时间复杂度.
其他文献
沥青混凝土路面已成为最为常见的公路路面形式,无论是设计还是施工技术,都已较为成熟,但各种病害现象还是时有发生.文章首先概述了沥青混凝土路面常见的病害类型,分析了产生
对于路面的裂缝,应在设计与施工中加以重视,技术标准,工艺方法等.以减少在施工中产生的裂缝,保证工程质量,延长使用寿命.
本文建立了模拟海底管线附近底床侵蚀平衡剖面的垂向二维数学模型.对其中的三个关键性问题——复杂边界下的湍流场计算、泥沙底床侵蚀动边界平衡剖面的确定——分别采用有限
笔者结合理论所学及工程中的实际体会,简要论述盐渍土地区路基工程施工与控制.
使用NCAR/CCM3全球环流模式进行了5个集合19年(1979~1997)时间长度的观测海温强迫的AMIP2试验,对结果的中国区域部分进行了重点分析.首先给出了模式对中国地区基本气候态的模
This paper defines and proves a new closeness degree firstly, and then presents an improved-CFART neural network model, after introducing the closeness degree i
随着个人计算机使用率的高速增长,整个社会的网络化和信息资源的共享,使我们进入了一个全新的网络时代.传统旅行社在网络时代面临强烈冲击,旅行社只有勇于革新,转变经营方式,
粤北龙归土话中有一种特殊的小称形式,小称语素所在音节的声调和韵母同时发生变化,声调变作一个降升形式的曲折调,调变的同时,韵母的主元音被一个喉塞音塞断为前后两部分,喉
目的 探讨不同来源的细胞内Ca2 + ([Ca2 + ]i)在钙调神经磷酸酶 (CaN) 活化T细胞核因子 3 (NFAT3 )介导的心肌肥大中的作用。方法 分别用血管紧张素Ⅱ (AngⅡ )或雷尼丁刺
以塔里木盆地地质参数(地层、地史、热史)为例计算了不同地质条件下单位面积碳酸盐岩的生气量及源岩和围岩各种形式的残留和耗散气量(吸附气量、油溶气量、水溶气量、扩散气量),进而根据物质平衡原理计算出源岩开始以游离相有效排气时所对应的有机碳含量,并将它作为该地质条件下气源岩的有机质丰度理论下限值TOCmin.模拟计算显示气源岩TOCmin随源岩厚度的增加而减小;随成熟度的增加先减小后增加;随有机质类型(