【摘 要】
:
提出了一种面向中文短文本流的快速编码识别算--CodeFinder.CodeFinder构造一个编码识别专用词典,并对每个词语关联一个编码可信度。扫描待识别文本并计算文本在各种可能编码
【机 构】
:
中国科学院计算技术研究所,北京,100080
论文部分内容阅读
提出了一种面向中文短文本流的快速编码识别算--CodeFinder.CodeFinder构造一个编码识别专用词典,并对每个词语关联一个编码可信度。扫描待识别文本并计算文本在各种可能编码形式下的编码可信度,即可确定文本的最终编码形式。实验表明,CodeFinder识别准确率非常高,只需要很短的文本即可完成编码识别过程,对文本的边界不敏感,适合于中文短文本流的编码识别。
其他文献
智慧时代必将造就智慧的企业。智慧企业采用先进技术的显著特征包括:感知,清晰地获取整个企业所有数据,及时了解企业运行状态;互联,全面地实现整个企业互联互通,实时传输数据
本文通过对三字隐喻构成特点、数量分布、映射规律等方面的细致分析,发现构词层的隐喻与短语层的隐喻有明显的差异,绝大多数构词隐喻只存在一个词语的构词层面,构词成分组合
新词语是词汇系统的重要组成部分,近年来受到越来越多的关注,但是新词语的研究尚处于开拓阶段,本文试图通过对新词新义产生轨迹的考察,从一种新的、动态发展的角度来审视新词
本文对双语法例资料系统(BLIS Bilingual Laws Information System)中获得的七百万词的中文语料进行用字、用词、术语和标点符号的统计分析,并给出他们之间的联系,为进一步进
被字句跨标点句共享是整个跨标点句句法关系的一个组成部分.传统语言学中对单句内部被字句的结构研究很多,为被字句跨标点句共享的研究打下了基础。本文主要研究当原配句是被
无论在汉语教学还是在机器翻译中,趋向动词都是一个公认的难点。虽然对它的研究越来越深入,但真正面向对外汉语教学及机器翻译的研究并不多见。本文仅在相关研究的基础上,有
本文运用上下文无关语法研究汉字形体结构,并将研究结果通过PROLOG程序设计语言和图形接口软件CTT加以实现。本文既是对汉字研究方法的创新,也从一个侧面证明汉字构形学理论
为纪念我国杰出的无产阶级文化战士、中国话剧运动的奠基人、戏曲改革的先行者、中华人民共和国国歌歌词的作者田汉同志诞生八十五周年和逝世十五周年,中华人民共和国文化部
能够在市中心拥有一套属于自己的房子,是我一直以来的梦想。交通便利、配套完善自不必说,都市之繁华也尽在信步间畅览。感谢老天眷顾,我与老公几年的努力打拼终得回报。2006
祖国的六亿五千万顆心,心心都向着北京,因为北京是祖国的心脏,它给全国人民带来了幸福和希望,它给各族人民带来了团結进步,它給全世界人民带来了和平和友誼。祖国的六亿五千