论文部分内容阅读
针对当前合成词词性难于确定的问题,提出了基于核心属性渗透理论的合成词词性标注算法。算法首先识别出文本中的合成词,并分析合成词的构成方式,获得合成词的构词规则,然后以核心属性渗透理论确定合成词的核心成分,将核心成分的词性标注为整个合成词的词性,并提供显式和隐式两种合成词标注方式,最后修正文本分词结果。实验结果表明,这种词性标注的方法是恰当的,在给定的文本集上合成词词性的标注准确率达到了95%。