引入标点处理的层次化汉语长句句法分析方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:taiyangkaimen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在分析汉语标点符号用法和句法功能的基础上,本文提出了一种新的面向汉语长句的层次化句法分析方法。这种方法和传统的不考虑标点符号的一遍分析方法的主要区别在于两个方面:第一,利用部分标点符号的特殊功能将复杂长句分割成子句序列,从而把整句的句法分析分成两级来进行。这种“分而治之”的策略大大降低了在传统的一遍分析方法中同时识别子句或短语之间的句法关系以及子句和短语内部成分的句法关系的困难。第二,从大规模树库中提取包含所有标点符号的语法规则和相应概率分布信息,有利于句法分析和歧义消解。实验证明我们的方法与传统的一遍图表(chart)分析方法相比,能够大大减少时间消耗和歧义边的个数,并且提高了复杂长句分析的正确率和召回率约7%。
其他文献
<正>弋舟:看过你的一些短篇小说,先说说我粗略的感觉。我觉得你是那种非常鲜明的"经验型"的作家。当然,我们所有的写作,都有关自己的经验,但的确有一部分作家,写作的基本驱动
藓类植物的无性繁殖方式复杂多样,在多变、极端或不可预测的环境中具有明显优势。按形态特点,藓类植物的无性繁殖方式分为营养繁殖和特化的无性繁殖方式2种,特化的无性繁殖体
运用种间联结测定方法研究了天山北麓中段拟南芥(Arabidopsis thaliana)生存群落24个主要种群的种间联结特征。结果表明:群落内物种总体联结方差比率(VR)为1.55,表现为显著正
词义消歧是自然语言处理领域的一个重要研究课题。词义标注的一致性将直接影响语料库的建设质量,进而直接或间接影响到其相关的应用领域。由于语言本身的复杂性与发展性以及
<正>媒体最近在谈"速成鸡"的问题,刚才还有媒体在追着我采访。我是搞食品安全的。最早在80年代,我研究的领域是食品的加工和食品科学;到了90年代,我们国家的食品安全问题越来
目的:探讨中药五白散对308nm准分子激光诱导的色素沉着豚鼠模型的影响。方法:308nm准分子激光诱导色素沉着豚鼠模型。造模成功后,色素沉着区分为单纯基质乳膏组、2%氢醌组和
<正>今天分享一下我们自己对技术的看法和一些案例。今天的一个议题主要包括从一些比较宏观的层面对传统零售和电商的分析,以及我们自己的一些案例,我们看到的这个图片是美国
戏曲艺术中"男旦"现象的产生,绝非某种单一社会心理原因引起的,而是在特殊的历史时期、特殊的民族文化心理以及由其形成的特殊而复杂的社会精神变革中,出现的一种特殊的艺术