中文语料库分词不一致的分类处理研究

来源 :山西大学学报:自然科学版 | 被引量 : 0次 | 上传用户:asdfghjki
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模语料库中分词结果不一致现象影响着语料库分词质量.在对150万汉字熟语料进行了统计分析的基础上,我们定义了语料库中分词结果不一致的主要结构类型;采用规则的方法检验校对字串的分词不一致,在对150万汉字语料库的封闭测试中,正确率为86.94%.
其他文献
根据动名搭配的结构特点。对基于互信息的搭配知识获取方法进行了改进,使之成功地应用于动名搭配识别.对200万熟语料的实验结果表明,改进的方法比互信息方法的F值有了较大提高.
用分子电性距离矢量(MEDV)表征有机磷农药的分子结构,运用多元线性回归(MLR)技术和逐步回归(SR)一起统计检测筛选模型变量,建立26种有机磷农药的气相色谱(GC)保留指数(RI)与MEDV的定量
研究两类带强迫项的一阶非线性泛函微分方程的振动准则,所得结果推广了已有文献的结果.
报道了山西省新记录的轮藻属植物3个种,它们是不连续轮藻Chara inconnexa Allen,卡尔文轮藻C.calveraensis(Wood)Ling,Deng et Li和尖刺轮藻C.aculeolata Kütz.,三种均属
合成了巯基乙酸(TGA)-巯基甘油(TGOL)共包覆的胶体CdTe纳米微粒.采用FT-IR、荧光光谱和紫外光谱等现代测试手段对样品进行表征,并与巯基乙酸或巯基甘油单独稳定的CdT e纳米微粒进
设G为有限群,H为G的一个子群,X∈Irr(G)φ∈Irr(H).Isaacs在1995年证明了:当G为奇数阶群时,存在XH的一个不可约分量φ使得φ(1)整除X(1),以及存在矿的一个不可约分量X′使得X′(1)整除φ(1).文章
应用支持向量回归算法(SVR),以按非氢原子分类的分子电性距离矢量(H-MEDV)为参数,通过参数的优化,建立了几种更强的预测模型,预测了卤代苯和苯酚衍生物的毒性,并根据H-MEDV参数原
采用醇-水溶液加热法结合超临界流体干燥技术,在不同反应温度下制备得到尖晶石型NiFe20。铁氧体气凝胶,并进行了傅立叶变换红外、x-射线衍射、振动样品磁强计、低温N。吸脱附和
应用常规石蜡切片法对北柴胡的不定根与根进行了显微观察和比较分析.结果表明:北柴胡的根包括原分生组织、初生分生组织、初生结构和次生生长4个生长发育阶段.不定根只包括前者
将野生型Col遗传背景的突变体与野生型Col杂交,从F2代筛选晚花突变体.根据遗传学规律,F2代晚花表型分离比符合理论值,证明突变体遗传背景的纯化成功,为构建拟南芥晚花突变体的定位