论文部分内容阅读
语义分析作为现阶段自然语言处理研究领域一个重要的研究课题,近年来备受关注。然而由于目前准确、深入的自动语义分析技术发展受到限制,在一定程度上遏制了自然语言处理技术进一步投入到实践应用领域中。本文借助汉语框架网语义知识资源,以Fillmore的框架语义学理论为支撑,从框架语义学角度出发,研究了通过抽取句子的核心框架语义表示结果,获取汉语句子核心语义的技术方法。本文针对汉语核心框架语义分析研究任务,将其分为核心目标词识别、框架排歧和框架元素标注三个子任务,并研究了这三项任务具体实现的关键技术方法,对本文提出的语义分析模型性能进行了验证。本文主要研究内容和研究成果如下:(1)针对核心目标词识别问题,分别结合《同义词词林扩展版》的词条类别编码特征和依存句法特征,结合本文提出的基于互信息的自动特征选择算法,提出了一种规则与统计相结合的核心目标词识别方法。(2)针对框架排歧问题,选取汉语框架网中47个常见的歧义目标词元作为研究对象构建实验数据集,并通过选取最优特征模板,建立最大熵分类器框架排歧模型,为歧义目标词分配合适的框架。并通过设立对比实验,验证了本文方法的有效性。(3)针对框架元素标注问题,将框架元素依存填充项看作是词序列的组合,把框架元素标注任务转化为词序列标注的问题,并结合开窗口策略,设置词层面和依存句法层面特征模板36组,构建了最优框架元素标注模型,通过多角度分析影响框架元素标注模型性能的因素,总结了下一步对框架标注模型的改进方向。本文针对汉语核心框架语义分析研究,在汉语真实语料构建的测试集上对本文核心框架语义分析模型整体性能做了测试,实验结果验证了本文方法的有效性。本文的研究成果为实现汉语句子语义分析理解提供了一种新的技术思路,为框架语义分析技术进一步应用于自动问答、文摘等领域奠定了基础。