基于边界熵和卡方统计量的多领域适应性中文分词方法

来源 :第十一届全国计算语言学学术会议 | 被引量 : 0次 | 上传用户:buyaodiua1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文信息处理中,中文分词作为一项基础工作,具有重要的意义。过去的十几年间,经过一系列研究探索,中文分词已取得长足的进步,准确性大为提升。中文分词是中文自然语言处理中最基本的步骤,非常多的研究者对它做了很深入的研究,也因此产生了很多不同的分词方法。字标注分词方法是当前中文分词领域中一种较为有效的分词方法.本文采用有指导的学习方法,基于CRF模型,提出使用边界熵和卡方统计量相结合的特征,进一步改善字标注分词方法的性能.同时,也就AV(Accessor Variety)统计量等当前普遍使用的特征进行了对比.从结果来看,边界熵和卡方统计量的引入,在跨领域适应性上,比其他特征有更好的表现.
其他文献
文章根据大体积混凝土施工规范,探讨了大体积混凝土保温覆盖层厚度的计算过程,指出计算过程中存在的问题与解决方法.通过计算对某一底板的保温覆盖方式进行了选择,并通过实测
高层建筑已由早期的单一用途向多用途的综合性大楼发展,建筑空间向多层次多功能发展,为此在竖向结构体系发生变化的楼层就要设置一种能适应这种变化的特殊楼层,称为结构转换层。
针对顶板来压规律和支架适应性研究,不仅对该矿区以后的安全高效开采提供理论支持和经验借鉴,同时也为浅埋煤层工作面矿压管理及工作面设计提供依据。为了使工作面有良好的支架
大类招生作为一种新的培养模式,正被我国越来越多的高校采用。本文以工程管理专业纳入土建类大类进行招生培养为出发点,通过对工程管理专业的现状进行分析,详细论述了工程管
为了便于岩土工程、隧道及桥梁工程以及结构工程(地下建筑方向)专业的研究生学习这种现代化的隧道施工方法,掌握相关的计算理论和施工过程,并对盾构隧道的现代发展有所了解,从而
随着国家城镇供水水质标准的提高,曲江水厂原有的净水处理工艺难以保证出厂水水质符合现行标准,且经十几年的生产运行,部分设备老化、故障频繁,产能下降,迫切需要对曲江水厂
针对多种约束条件下的超大型泵站前池流态,通过建立紊流不可压缩流体的速度场模型及多方案的水力模型,运用有限体积法计算并分析了增设导流锥、导流墩对前池及吸水池流场的改
近些年来,情感分类在自然语言处理研究领域获得了显著的发展.然而,大部分已有的研究都基于大规模标注样本的分类情况.实际情况下,收集标注样本是一件费时费力的事情.本文在基
语义依存分析是一种对句子进行深层语义分析的技术.语义依存树库是依存分析的基础.本文综合了不同学者定义的汉语语义关系体系,面向语义分析的实际应用,设计了一套语义关系体
西藏旁多水利枢纽工程地处高海拔多震地区,工程采用沥青混凝土作为大坝防渗体,为了保证其施工质量,施工前结合工程要求完成了沥青混凝土配合比选择工作,同时进行了沥青混凝土