论文部分内容阅读
句法自动分析是自然语言理解的核心,是当前计算语言学研究的重点所在。现代汉语句法自动分析的主要内容是对各种短语进行自动标注和研究它们的句法功能。介词结构无论从定量角度,还是从定性角度,都是现代汉语中一种重要的语法结构。介词的个体特点也很明显,所以我们有条件也有必要对每个介词的边界识别进行研究,在个体分析基础上组成一个完整的介词短语边界识别系统。
本文我们选择介词“以”作为研究对象。“以”在古汉语中就是仅次于“于”的介词,在现代汉语中也是一个很常用的介词,作为介词的用法有很长的历史,具有介词分析的典型性,而且具体来研究“以+X”的结构,发现它又是一种很富有个性的介词短语,它在句法、语义和组合格式上都很有自己的特点和个性。
本文以自动识别为目的对介词结构“以+X”的边界识别进行个案分析。对介词短语“以+X”的内部结构特征进行了细致的描写,通过分析线性序列“W+以+X(A)+(B)Y”,尝试在语法、语义的基础上归纳总结出人工识别规则若干。一方面给汉语语法的本体研究以补充和完善,另一方面,当然也是更为重要的,它是计算语言学所需要的知识积累。
我们根据对介词结构“以+X”语法、语义的形式化描写,编写相应识别规则来进行自动识别的算法设计,这部分是本文的重点所在。在4000句语料的基础上,进一步将语料扩大到8000句,经过逐字逐句的人工标注,生成了几个数据表,并初步形成了我们识别的总体思路。
本文设计出自介词结构“以+X”的边界自动识别的算法,这个是中文信息处理这个大工程中的一个小细节。一方面可以为这个工程提供我们的研究成果,尤其是可以为其他介词的边界识别以及动词性短语结构的研究提供启示;另一方面我们在研究中所使用的方法和识别的思路,可以为以后的识别研究提供借鉴。
在文章最后,我们利用人工分析的方法来检测本文的研究成果,并对疑难问题类型进行了归纳分析。