基于分布式语义表示的两岸词汇差异研究和古籍文本处理

来源 :厦门大学 | 被引量 : 0次 | 上传用户:hsgnln
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义问题一直是自然语言处理领域的一个难点。近年来,随着深度学习技术的逐渐兴起,越来越多的研究采用深度神经网络对语义相关的问题进行建模。在语义层面上开展研究,能更为有效地解决一些传统统计方法所难以解决的问题,也更为接近人类的语言认知习惯。本文正是在这样的背景下,采用分布式语义表示方法,重点研究中文信息处理中三个与语义相关的具体问题:两岸词汇差异对比、古籍异体字规范化和古籍自动断句。  (1)两岸间存在大量的差异词汇,传统研究多采用手工方法进行整理,本文采用词向量方法在两岸可比语料上自动发现差异词汇。本文首先对语料进行了预处理并抽取多词表示,通过词频分析找出大陆特有词汇和台湾特有词汇,然后采用词向量方法自动抽取两岸同形异义词汇,最后采用词向量方法为两岸特有词汇和同形异义词汇自动发现适当的对应词汇。实验结果表明,本文提出的方法能有效发现传统手工编纂难以发现的两岸差异词汇。  (2)古籍中大量存在的异体字不利于现代人阅读,也不利于古籍信息处理。本文提出了一种基于神经网络语言模型的古籍异体字规范化方法。本文首先进行了古籍语料的预处理,为语料中的PUA编码汉字找到对应的Unicode编码并进行替换,然后实现了一个基于双层GRU的汉字级别的循环神经网络语言模型,最后采用对数线性框架将语言模型和其它统计特征集成到异体字规范化模型中。实验结果表明,该方法能有效利用上下文的语义信息更准确地进行异体字规范化。  (3)古籍大多未进行断句,利用自然语言处理技术进行自动断句,不仅能降低现代人阅读古文的难度,也是进行古籍分词等研究所必要的前序工作。本文提出了一种基于循环神经网络的古籍自动断句方法。该方法采用一种基于GRU的双向循环神经网络进行古籍断句,并在神经网络输出概率的基础上进一步引入解码算法以提高断句准确率。实验结果表明,该方法能有效利用语义信息更准确地进行断句,取得比传统方法更好的断句效果。  综上所述,基于分布式语义表示的方法能更有效利用语义信息,在两岸词汇差异研究和古籍文本处理上取得了比传统方法更好的效果。
其他文献
针对电梯轿厢内暴力行为的日益增多,安全问题需要得到更多的关注。而目前的传统视频监控无法自动地检测异常行为,还需要人参与其中,其效率和准确性都不能令人满意。智能视频
行人检测是计算机视觉领域重要的研究方向,其涉及到数学、模式识别、人工智能和机器学习等多学科的知识。行人检测在智能交通领域(如车辆安全、视频监控和自动驾驶系统等)具有广
随着虚拟现实和三维仿真技术的发展,越来越多的针对特定领域的仿真系统应运而生。而针对目前起重吊装行业中手工制定吊装方案的繁重和低效,且无法直观地对吊装方案的有效性和
随着网络信息技术的发展,人们在日常工作中需要处理越来越多的文本信息,文本分类作为这一领域的关键技术近年来日益受到关注,传统的文本分类方法需要大量的已知类别文本来帮
由于XML是一种简单、开放、描述性的语言,随着信息技术的不断发展,XML不仅成为Internet上数据表达与集成的标准,更是被用于搜索引擎、电子商务、应用集成等多个方面,受到广泛
在“三网合一”的发展趋势下,西南交通大学四川省网络通信技术重点实验室提出了以“面向以太网的物理帧时槽交换技术”(EPFTS-Ethernet-oriented Physical Frame Timeslot)为
设计初期的错误,严重的影响着实现阶段的代码验证、测试、及运行维护期的成本和工作量。在应用建模阶段尽量减少错误,对提高整个软件开发的效率和质量,具有重要的理论研究意
因特网显著改变了人们的工作和生活方式,因此人们对因特网的研究和应用投入了很大的热情。为了解因特网的现状并预测它的发展趋势,研究人员越来越重视对因特网的拓扑结构和拓
智能客户端适用于多种终端设备,是针对移动应用的主流解决方案之一,集成了胖客户端和瘦客户端应用的优点,开辟了新的应用模式,提供内容丰富且响应迅速的用户体验、脱机工作能
模型拟合是计算机视觉中一个重要的研究领域,是鲁棒统计学、机器学习和图像处理等多个学科的交叉研究方向。模型拟合的主要任务是能够有效地拟合观测数据中所蕴含的所有模型实