论文部分内容阅读
自然语言处理的主要任务是使机器自动的理解人类语言,而名词短语的识别是自然语言处理领域中非常重要的子任务,它直接关系到文本分析和文本处理的正确性。在信息抽取中将名词短语作为它的主要识别对象。本文先分析了名词短语与其他短语类别的联系,然后结合机器学习与句法分析的方法对句子中的名词短语进行了探索研究。具体包括以下几部分内容。首先,本文应用了概率上下文无关文法(PCFG)对名词短语进行了识别,为了弱化传统的PCFG中三个独立性假设条件,本文中使用的PCFG充分结合上下文语境信息,对节点标记采用分裂-合并技术并在解码时采用粗到精搜索技术。其次,提出了一种基于辅助短语标记识别名词短语的方法。本文在分析了短语不同分类体系的基础上,构建了一种映射公式,并根据该公式对不同分类体系的短语类别之间进行映射。然后,根据映射结果及短语的概率分布进行辅助短语标记的组合。实验结果表明,该方法在提高F值的基础上,有效地降低了系统的时间开销。然后,提出了一种基于条件随机场(CRF)与PCFG相融合识别名词短语的方法。实验证明CRF对短距离名词短语的识别效果较PCFG的识别效果好,而PCFG对中长距离名词短语的识别效果较CRF的好。所以本文利用融合技术,将CRF的识别结果与PCFG的识别结果进行融合。以此,达到优势互补,提高名词短语的识别精度。通过以上的研究分析,本文决定从两个角度进行名词短语的识别,实验结果表明这两种方法是有效的。为了得到更好的识别性能,还需要更深入的探讨研究。