融合丰富语言知识的汉语统计句法分析

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:lilac_cs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识获取一直以来是自然语言处理中的瓶颈,基于树库的统计句法分析也不例外.树库中潜在隐含的语言知识是非常丰富的,但它们并不是可以直接得到,往往需要特定的策略才能将它们融合到模型中.我们的汉语统计句法分析模型从3个方面融合潜在的丰富语言知识:1)重新标注树库中的非递归名词短语和非递归动词短语;2)设计新的中心词映射表;3)引进上下文配置框架以更具体地描述二元依存结构.由于融合了以上三种潜在语言知识,模型的F1值提高了2.37%,完全匹配正确率提高了5.36%.
其他文献
本文针对已婚妇女工作时间的预测问题,提出先用Tobit(审查回归)模型对影响因子进行评价和优化筛检,再利用神经网络对已婚妇女工作时间进行预测,结果表明:该方法不但提高了预测的准
从ZN公司的实际出发,考虑到ZN公司的数据现状,从基础数据、业务数据、实时数据、指标分析类数据分别对数据进行标准化建设的思路、方法、实施步骤及后续管控等进行了分析,给
新冠疫情期间,为实现“停课不停学”,线上教学成为绝大多数中小学的主要教学方式,并引起社会广泛关注。本研究通过对223名中学英语教师进行问卷调查,探究特殊时期线上教学对
汉字切分正确与否直接影响了汉字识别系统的识别率 ,粘连汉字则是切分中的难点。本文将基于背景细化的切分方法应用于《四库全书》的两字符粘连汉字数据集 ,并针对其中切分路径选择问题 ,提出了一种新特征 -凸包像素比 ,反映了在不同切分路径下汉字结构变化的特性。实验结果表明该特征对多种分类器均能有效地提高切分路径选择的正确率。其中在使用基于高斯混合模型分类器时取得了 88 6 %正确率。