基于树结构模式挖掘的非监督中文短语结构句法分析

来源 :第十一届全国计算语言学学术会议 | 被引量 : 0次 | 上传用户:aeo55121890
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究了非监督的中文短语结构句法分析.首次精确重现了Rens Bod在中阐述的非监督数据驱动模型U-DOP.应用U-DOP方法在CTB上达到了提出该方法的原始文献所报道的结果,同时,按照已有文献的评测策略,在已知的基于词性串分析的非监督短语结构句法分析系统中,本文报道了在可比较实验条件下的最高性能.进一步地,所实现的U-DOP的结果与另一个基于词的非监督句法分析器CCL的结果进行了经验性的比对和分析.本文报道了U-DOP模型的实现的关键细节过程。已有文献中缺少的必要的技术细节,比如标点符号的处理,分析算法以及评测标准,对于这些问题,通过实验以及理论分析——在本文中给予了完整解释。在中文树库上的测试结果表明如果采用中所指的二叉树化测试集方法进行评测,本文所报道的结果比其他基于词性的非监督系统的结果更高。所实现的U-DOP模型己经建立了一个开源软件项目,供同行自由下载使用。另外,通过对U-DOP和CCL对于不同类型短语的分析结果的比较,发现U-DOP对于除VP以外的短语类型都有相对较高的准确率,而在占有相当比例的VP短语上准确率较低正是导致U-DOP整体性能低于CCL的主要原因。这一结果指明了改进不同的非监督句法分析器的努力方向。
其他文献
为了消灭阳山县丝虫病 ,从 1 959年起对该县进行丝虫病流行病学摸底调查 ,发现共有 1 9个乡镇的 2 1 7个管理区有班氏丝虫病流行 ,平均人群微丝蚴率为 4 3 5%。据此提出以防
文章讨论了藏语单音动词的标注问题,认为藏语单音动词分为有词形变化的不规则动词和无词形变化的不规则动词两类,前者可利用词形变化表识别和标注,后者需要建立句法识别规则
语义分析是现代语言学和计算语言学领域最具挑战性的研究之一,也是当前制约语言信息技术大规模应用的主要瓶颈。语义分析的首要任务是确定要获取什么样的语义信息。本文引入特
会议
介绍了多媒体电话话费语音查询、催缴系统。着重围绕如何利用多媒体技术、计算机网络技术与邮电实际业务相结合的问题,阐述了实现实时语音查询、催缴功能与技术要求的方法及体
当代艺术的悲哀是使自己脱离普遍的公众 ,企图运用博物馆、商店里旋转的展示来接近有利可图的消费者 ,艺术要保持强壮的要求十分清楚。但在另一个方面 ,艺术家也要通过各种手
美国开发全数字式高清晰度电视胡德森译编在高清晰度彩色电视技术方面,美国的数字技术正日渐显出优势,大有压倒国外模拟系统,成为未来电视霸主之势。1992年3月,美国联邦通讯委员会负责
为探索流行性脑脊髓膜炎(流脑)的流行规律和流行特征 ,现将本县47年(1952~1998年)疫情资料分析如下。1资料来源资料来自1952~1998年全州县法定报告传染病发病、死亡统计表 ,1952~1998年全州县历年人口资料。2结果
一方水土滋养着一方人,一个民族传承着一种文化。落居在滇西北高原上的大理白族自治州洱源县西部山区的凤羽、炼铁、西山等地的白族聚居区的白族人家每逢破土凿石,竖柱上梁,
当前词类研究不仅要面向语言教学,更要面向机器的语言自动处理,由于机器对于语言知识内在逻辑性的严格要求以及实际应用任务的严格检验,都使得汉语现有词类体系和词类知识暴露出
会议
一次移动电话基站雷击原因的分析及预防措施襄樊市邮电局梁生耀1995年8月10日晚7时30分左右,南漳县邮电局电信楼受到雷电影响,市电供电中断,电信楼供电空气开关跳闸。经恢复供电,移动电话基