论文部分内容阅读
中文分词是一个困难的、重要的被广泛研究的序列数据建模问题。以往应用条件随机场进行汉语分词时,将分词转化为对汉字的标注,造成了大量的冗余的候选切分,以至于在分词过程中大大降低了分词的速度。提出了使用词图作为基础的标记序列来完成汉语的词法分析,这样充分利用了现有的词典资源,在属性框架的选择时也可以方便地融合语言知识,并且长度歧视及状态歧视方面的影响也被减到最小。提出了应用条件随机场来构建统一的汉语词法分析。