基于词典、规则的斯拉夫蒙古文词切分系统的研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:ye77hao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
斯拉夫蒙古文是蒙古国现行的文字,又称为西里尔蒙古文或新蒙古文.蒙古文词干和词缀包含着大量信息,斯拉夫蒙古文词切分是斯拉夫蒙古文信息处理众多后续工作的基础.该文尝试了将词典和规则结合的方法对斯拉夫蒙古文进行词切分.首先预处理部分蒙古文词,然后基于词典切分高频和部分不符合规则的词.最后对剩余的词,用切分规则生成多个候选的词切分方案,然后在这些方案中选出最优方案.通过两种方法的有机结合,发挥各自的优点,得到了性能较好的斯拉夫蒙古文词切分系统.
其他文献
在台风“珍珠”到达上海的那天.我和朋友正为收到的一条餐厅优惠消息而雀跃不已。这家地方特色餐厅的美妙味道和它的价格是成正比的,所以这条“当日1折”的吸引绝对是不容小视
如今越来越多的都市人都开始在外面用餐,也许是因为工作的忙碌无暇享受家中装修精致的厨房设备,也许是人类的惰性使他们越来越远离厨房的油烟味。不过,对美食的一贯热枕是永远不
该文提出了一种从维基百科的可比语料中抽取对齐句子的方法。在获取了维基百科中英文数据库备份并进行一定处理后,重构成本地维基语料数据库。在此基础上,统计了词汇数据、构
卫生部12月底通报2004年植物油国家卫生监督抽检情况,经对生产企业和市售的574份植物油的酸价、过氧化值、浸出油溶剂残留量等卫生安全指标进行抽检和检查食品标志,结果522份
本文主要针对ADSP-BF533的内部存储器的访问方式进行了讨论,介绍了系统的内存管理机制,提出用Mem DMA的方式对指令存储器进行迂回访问,描述了DMA的相关寄存器并给出其设置的
搜索日志中人名识别一直是日志挖掘中的一个重点和难点,其结果好坏直接关系搜索引擎的检索效率和准确率。由于分析了长文本中人名识别方法在搜索日志中使用存在很多困难与不
“十一”长假才过没多久,“九九”重阳又至。古时重阳人们登高饮酒插茱萸;现在重阳,又被赋予了揖蠢辖谟的意义。今年正巧是第20个敬老节,单位特别给我们这些家里有七旬老人的职工
期刊
前几年周星驰主演的《行运一条龙》风靡一时,同时,也让许许多多的内地人知道了“港式茶餐厅”这个名字。电影中的场景总是有着飘香的葡式蛋挞和港式奶茶。朴实的装修透着亲切,斑
在人们的日常生活中和生产活动中,安全管理和品质管理日趋重要, 提高PS意识作为一种新兴的管理理念和手法,被越来越多的企业所采用,无论是作为一种工作态度还是一种生活习惯