对汉语切分的基于规则的错误驱动学习

来源 :清华大学学报(哲学社会科学版) | 被引量 : 0次 | 上传用户:chen17983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在自然语言处理领域,基于语料库方法重新复苏并引起了广泛关注。尽管这种方法在自然语言处理的许多领域中得到了成功的应用,如:词性标注和语音识别,但是用语料库方法在汉语切分阶段还没有获得理想的结果。而且用语料库方法获取的知识一般是用统计的数据给出的,使用这些统计数据来分析、理解自然语言很不直观。对于汉语切分,本文提出了基于规则的错误驱动学习,这种方法既可以利用大规模语料库,同时也能利用语言学家总结的语言学规律,并且使用学习后得到的规则重新调整切分语料能提高切分的正确率 In recent years, in the field of natural language processing, the corpus-based approach has been revived and has drawn much attention. Although this method has been successfully applied in many areas of natural language processing, such as POS tagging and speech recognition, the corpus method has not yet achieved the desired results in the Chinese segmentation stage. And the knowledge gained by the corpus method is generally given by statistical data. It is not intuitive to use these statistics to analyze and understand the natural language. For Chinese segmentation, this paper proposes rule-based error-driven learning, which not only can make use of large-scale corpus, but also can make use of the linguistic laws summarized by linguists and readjust the segmentation corpus Can improve the correct rate of segmentation
其他文献
针对大型冷鲜禽冷却设备不适用于小型企业、中小城市、乡村以及休闲农业的问题,研制小型可视化风冷装置,该装置由冷却系统、送风系统、悬挂架、风道、胴体温度检测等几部分组
决策区间值信息系统的处理方法在解决实际问题中具有重要意义。定义了区间的相对包含度概念,进而提出区间的交互相似度、决策区间值信息系统的交互相容关系,从而克服了以往区
利钠肽是一种具有多种生理活性作用的多肽,利钠肽/环磷酸鸟苷(cGMP)系统在心力衰竭、心肌梗死、心肌缺血/再灌注损伤的病理生理中具有重要作用,近年来,临床用于心力衰竭等多种
在叙事交流中,任何一名读者都不可能接受一个对他来说没有语义真值的叙事文本,这是叙事交流得以顺利进行的基本要求。从可能世界的通达性理论来看,叙事虚构世界的语义真值可
针对云计算环境的复杂性和云资源的不确定性,提出多目标集成蚁群优化调度算法。采用熵度量云资源的不确定性,进行信息素全局更新,以提高算法收敛速度;将Min-min算法得出的任
地铁不仅是一座城市中重要的交通工具,也是城市形象塑造与传播的重要载体。长春城市形象传播应该注重独具特色的城市形象,因此在政治形象方面可以凸显'伪满印象',经
总结了对于无法进行多效蒸发的酒精糟液(如小麦酒精糟液),在实际应用过程中以絮凝技术方法提取蛋白,糟液进行分离干燥,综合利用污水生化处理后的沼气余热作为热源应用于干燥系
目的:观察发热门诊在医院感染防控中的效果。方法分析发热门诊成立前180例患者的临床资料,作为对照组;选取发热门诊成立后180例患者,作为观察组。对比两组感染率、医疗纠纷发生率
目的研制“民航飞行学员认知能力倾向测试系统”,对该系统的信度和效度进行检验,为民航飞行员心理选拔及认知能力的评估提供工具。方法通过文献回顾、专家访谈和胜任力建模的
《国际物流》是物流管理专业的核心课程之一,主要研究对象是国际物流兴起与发展的相关历程、国际物流行业所需要的专业知识及法律法规等,其本身就是一个不断适应对外经济开发