基于字分类的中文分词的研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:wj781228
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是自然语言处理的前提和基础,利用基于字分类的方法实现中文分词,就是将中文分词想象成字分类的过程。把字放入向前向后相邻两个字这样的一个语境下根据互信息统计将字分成四种类别,即跟它前面结合的字,跟它后面结合的字,跟它前后结合的字,独立的字。在分词的过程中采用了t-测试算法,一定程度上解决了歧义问题。以人民日报为语料库进行训练和测试,实验结果表明,该方法能够很好地处理歧义问题,分词的正确率达到了90.3%,有了明显的提高。
其他文献
<正> 天然的水能资源是我国重要的宝贵财富。嫩江和额尔古纳河水系的水能资源是我区最丰富的地区,同时蕴藏着贮量巨大的煤炭资源。因而开发利用本区丰富的水能资源,不但可以
蒸汽动力装置系统复杂 ,设备多 ,需要控制的参数多 ,大部分被控对象的特性无法用简单的数学模型来表示 ,装置运行时参数间相互关联 ,耦合关系复杂 ,许多被控参数用简单的单回
果树实生个体在开花前需经历较长的童期,这也一直是提高果树杂交育种效率的一个限制因素。果树成花本质上是由花发育调控基因控制的。近年来随着分子生物学的发展和生物技术
通过分析CSMA/CD协议 ,利用MCS5 1单片机控制串口及 82 37实现CSMA/CD协议。
甘肃省自然资源丰富,在石油、化工、电力、有色金属和煤炭等领域,甘肃工业曾长期拥有优势,但是改革开放以来,甘肃省的区域工业优势不断衰退。在《中国省域经济综合竞争力发展
商业银行个人金融业务属于综合零卖业务,即以客户为中心,依靠高科技方法增强金融更新,运用现代管理理念,提供周全概括性金融服务给客户。由于银行经营管理的限制,个人金融的
法律英语是经过长期的司法实践逐步形成的特有的表达模式和规范,它在词汇用语、句法选择和语篇结构上具有鲜明的语言特点,体现了法律语言的专业性、庄重性、严谨性和准确性。
本文利用2014年西部城郊居民的主观幸福感问卷调查数据,建立有序概率模型分析了居民的家庭资本、生活方式与主观幸福感各维度之间的关系。研究表明,家庭资本的三个维度——收
使用计算机进行土石坝安全监测资料分析能够提高工作效率和分析水平。论述了土石坝安全监测资料分析、软件的需求分析及面向对象规模过程 ,对从事水利工程管理工作的工程技术
建立正相高效液相色谱法测定乳制品中维生素A质量浓度的方法。采用Agilent ZORBAX Rx-SIL色谱柱,以95%正己烷-5%异丙醇为流动相,流速为1.0 mL/min,PDA检测波长325 nm。结果表