论文部分内容阅读
修辞结构理论(简称RST)是国际上最有影响力的语篇结构表征理论之一,但基于RST的汉语语篇结构研究并不多,已有的研究又不全面,RsT在汉语语篇中的适用程度和表现特征有待进一步地深入探索。另一方面,语篇结构的自动识别是大规模应用语篇语用信息的前提,本文设想通过区分段落和句子来降低自动分析的难度,但这必须有一定的实证研究作为基础。
基于这两个目的,我们决定使用修辞结构理论的分析框架来进行相关的实证研究。我们选择10篇共12538字的语料进行了高一致性的手工标注,并依据标注结果对汉语新闻评论的语篇修辞结构的特征、RST在不同层次的适用程度、修辞关系的分布特征和方向性等问题做了量化研究。结果表明,1)RST在语料中的可标注率为92.22%,而且呈现出“随着语篇单元的不断增大,可标注率逐渐降低”的规律;2)句子和自然段落都具有较强的功能独立性,其中句子的功能独立性比段落要强;3)大语篇单元之间的修辞关系比较弱,而大语篇单元与上层单元之间的关系更强;4)汉语评论类语篇中,多核结构的比重较大(达33.33%),但单核关系仍占主导;5)单核关系中,卫星一核心结构(S-N)与核心一卫星结构(N-S)的比例为62%:38%,说明汉语中前偏后正的结构在我们的语料中比较明显;6)汉语中的修辞关系大都具有良好方向性,具有固定方向性的修辞关系14个,具有较强方向性的修辞关系5个;7)表示并列的多核关系的出现频率居首位;8)绝大部分基本语篇单元(简称EDUs)都是通过标点符号分隔的,所有的句号、问号、分号全部都是EDUs的边界符,逗号约有69%为边界符,冒号有72.73%为边界符。
此外,论文中还讨论了在语篇修辞结构加入部分与整体修辞关系的想法;对语篇修辞结构的复杂度指标和修辞结构复杂度与语篇阅读难度的相关性进行了讨论;还考察了逗号作为边界符出现时的规律。