基于最大熵模型的词位标注汉语分词

来源 :郑州大学学报(理学版) | 被引量 : 0次 | 上传用户:eastphoto
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来基于字的词位标注汉语分词方法极大地提高了分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,词位标注汉语分词逐渐成为汉语分词的主要技术路线.该方法中特征模板集设定和词位标注集的选择至关重要,采用不同的词位标注集,使用最大熵模型进一步研究了词位标注汉语分词技术.在国际汉语分词评测Bakeoff2005的语料上进行了封闭测试,并对比了不同词位标注集对分词性能的影响.实验表明所采用的六词位标注集配合相应的特征模板集TMPT-6较其他词位标注集分词性能要好.
其他文献
<正>胃癌是我国第4个最常见的肿瘤,也是全球恶性肿瘤死亡的第2大原因,其患者5年存活率<10%[1]。由于大部分胃癌早期症状不典型,大多数患者在就诊时已为晚期,无法对其进行手术
对杨桃贮藏保鲜技术、杨桃糖制品、杨桃汁、杨桃酒等方面的研究进展进行了综述,为进一步研发杨桃贮藏与加工工艺提出未来的发展方向。
1980年,吉特·霍夫斯泰特发表了《动机、领导和组织:美国的理论可以在国外应用吗?》一文,他在这篇文章里 In 1980, Git Hofstedt published the article “Motivation, Lea
论文利用近50a长序列统计资料对赤峰市耕地动态变化进行了研究,结果发现:1950年~2000年赤峰市耕地总量经历了3个增长期和2个减少期;耕地变化除具有以全市总量变化为代表的普遍
进入21世纪以后,各种危害人类生命健康的突发事件接踵而至,给国家和社会的稳定发展带来不利影响,这使国家和社会对应急救援工作提出了更高层次的要求。三级甲等医院(简称“三
目的了解门诊输液现状和门诊抗菌药物输液情况,为规范门诊输液提供依据,保障患者用药安全。方法根据《处方管理办法》规定,参照《抗菌药物临床应用基本原则》、《辅助用药临
本文以山西故土源远流长的西式美术入题,列举西式长翅膀的天使飞翔在山西山庄村落的庙宇或古塔上,甚至出现与西方现代主义美术的造型理念和图式相似的作品。说明传统美术与西
改革开放以来,我党对中国特色社会主义的认识由物质文明和精神文明的"两位一体"到物质文明、精神文明和政治文明的"三位一体"到物质文明、精神文明、政治文明和社会文明的"四
采用流动注射分光光度法测定水中总氮。每小时能测45个样品[2],本方法的适用范围是0.2~10.0mg/L,检出限是0.050mg/L,精密度和准确度较高。对方法的回收率作了试验,所得结果97
本文从民俗学的角度分析和探讨了龙胜旅游业的现状 ,在物质民俗、社会民俗、精神民俗、语言民俗等方面挖掘了龙胜旅游业的巨大潜力 ,对著名的旅游大县龙胜县的旅游业作了可具