基于词形的汉语文本切分方法

来源 :情报学报 | 被引量 : 0次 | 上传用户:tzl1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文在分析汉语分词一般模型基础上,引入词形概率,词整合系统如词形网格等概念,提出了一个基于词形的汉语文本切分模型,并实现了一个反向动态规划和正向栈解码相结合的二次扫找斩汉语文本切分算法,由于引入了词形概率,词整合系数,本模型不仅反映了词表统计构词规律,而且在一定程度上体现了长词优先的切分原则,初步测试表明,本方法的切分准确率和消歧率分别为99.6%和93.44%。
其他文献
通过对CAJ及VIP收录中文核心期刊情况的统计,并与<中文核心期刊要目总览>(2000年版)对比,分析了中文核心期刊被CAJ和VIP收录的状况及学科分布情况.特别统计了这两个数据库收
在传统教育不断被新型教育取代的背景下,现代教育处在了一个注重创新思维和创新能力的时代,而学生的创新能力 在很大程度上取决于想象力的丰富程度。语文教学尤其是小学语文
旧怨新恨知多少?饮料行业的两巨头可口可乐和百事可乐近来双双推出其鼎力支持的“雀巢系列”和“立顿系列”茶饮料,欲在新走俏的即饮茶市场再拼力一搏。作为一对纠缠百年的老
多种危险因素共同作用导致了冠心病的发生。除了年龄、性别、家族史等不可控因素外,其余危险因素均已被证实干预治疗可降低冠心病发病率。而引起一系列生理代谢紊乱的核心是胰
学校是教育教学的主要阵地,在学生义务教育中占据主导地位,而家庭教育又是影响学生学习和成长的重要因素,为保障农村小学学生接受更好的教育,学校必须承担起建立家校合作关系的主
点对点信息传递是目前计算机局域网络应用中的重要研究内容。笔者在自行设计的Telinet(Telephonelinenetowrk)局域网上成功地开发出了一个实现点对点信息传递的实际系统。本文论述了该系统的开发环境、系统
目的探讨我院新入职护士培训模式及其实施效果,以期为新入职护士规范化培训方案的修订及全面推广提供临床实践依据。方法通过护理部集中培训与科室轮转相结合的方式,利用信息
在知识经济条件下,科技和教育是经济可持续发展的驱动力,掌握和应用知识、信息的人是经济竞争力的核心。我国目前还不具备全面进入知识经济的条件,但我们要加速工农业现代化建设
浏览器是因特网(Internet)上信息浏览的重要工具,其功能的拓广和中文本地化是计算机网络的重要研究内容之一。笔者在自行设计的中文浏览器基础上成功地开发出一个具有自主版权的全中文浏