数学自然语言处理中的关键技术研究及实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:ysd007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理(Natural Language Process,NLP)是计算机科学和语言学的交叉,是人工智能领域的一个重要分支。近几年来随着计算机运算能力的提高,自然语言处理技术发挥了越来越重要的作用,来帮助解决人们实际生产生活领域中遇到的各方面问题。中文自然语言处理是NLP领域的重要组成部分,随着我国综合国力的不断增强、国际地位的不断提升,汉语也越来越作为一门流行而普及的语言受到世界的关注。中文自然语言处理同样具有一般自然语言处理中的一些共性的问题与难点,如词义消歧、一词多词性等,同时也有一些诸如自动分词的独特问题。如何设计方案让计算机解决中文自然语言处理中的这些难点,并做到准确理解中文文本,需要研究人员的不断深入探索。初等数学文本是一般语言文本的一个特殊分支。一方面它既是规范化的语言描述,有着主谓宾、主体客体等句子主干结构;另一方面它是混合语言而非单一语言文本,并且多为中文和英文组合。因此许多传统的NLP任务在数学文本上,既有着一般文本的共性部分,又体现了有别于单语言文本的特性部分。而在初等数学中英文混合文本上进行自然语言理解的探索,是一个困难但有挑战性的任务,它对语言模型的健壮性、以及诸如分词和实体命名等任务的精确性提出了更高的要求。本文将会探讨自然语言处理在初等数学中英文混合文本理解上的一个最佳实践。本文从自然语言理解现存的问题和相关技术出发,将数学自然语言处理流程分解为一个个小环节,并对其中的关键技术进行了详细的研究与实现。在数学领域的分词和词性标注任务上,本文基于哈工大的LTP模型进行了数学领域的封装和增强;在数学命名实体识别问题上,本文提出了一种基于一阶谓词逻辑依赖的“类型递进”策略,并设计了基于深度学习的中文实体类型边界识别模型,提升了在中英文混合文本上的实体命名效果。本文最终实现的融合模型既能满足高召回率要求,同时针对线上负样例实现快速纠错,能够用来解决初等数学中英文混合文本中的自然语言理解问题。
其他文献
机器排序问题是运筹学的一个研究热点,它在应用数学、计算数学、系统工程、自动化管理等领域有着广泛地应用。在传统的机器排序问题模型当中,工件在机器上的加工时间往往被理解为随机变量,目标函数被设计成一些与概率测度相关的指标函数。由于一些现实问题中缺少足够的统计数据对随机加工时间进行研究,许多学者把工件在机器上的加工时间视为模糊变量,并将模糊集理论引入到机器排序问题当中。但是,对于现实生活中的很多主观不确
错觉轮廓(Illusory contour,IC)感知和对称性感知是人类对外部世界感知的两个重要过程,一直是认知心理学的研究热点。前人已经从低水平刺激特征对两个感知过程的影响方面展开了大量研究,但很少考虑中高级刺激在感知过程中的影响。本课题选择IC和对称性分别作为彼此感知过程中额外的中高级刺激特征,研究两个感知过程的认知心理机制,重点探讨两者的相互影响及感知顺序。本研究设计了一种较为新颖的包含IC
随着计算机技术的高速发展,诸如人脸识别、位姿估计等图像分析算法已广泛应用于生活。然而,在各算法研究过程中,往往都需要开发一套专用的配套系统,用于模型推理以及结果可视化等展示,使得其时间、成本均大大增加。本文以通用图像分析工具为研究课题,为快速开发上述配套系统提供有效支持。首先,设计实现了一个通用图像分析工具,以SSM为后端框架实现软件逻辑控制,以Vue.js为前端框架实现可视化操作界面,使用MyS
With the emergence of new communication technologies, advertising creativity is gradually breaking the framework limitations of traditional advertising design. At present, in the new media environment
非正交多址接入(NOMA)技术可以利用相同的传输资源(时间,频谱和空间等)同时为多个用户提供服务,因此它可以实现比传统正交多址(OMA)技术更高的频谱效率和更大的系统容量,目前已被广泛认为是未来无线电接入网络的关键解决方案。传统的NOMA系统通常将OFDM作为多载波方案,但这种方案存在高峰值平均功率比以及采用循环前缀降低了频谱效率这两大缺陷。为解决这些问题,小波调制被引入NOMA系统中,但基于小波
在信息时代,随着网络用户及网络需求的飞速增长,数据中心业务海量增长,网络一旦发生故障将会导致不可估量的业务损失,中断时间越长,损失越严重,因此,数据中心网络连接故障的快速恢复技术成为研究热点。现有基于SDN架构下链路故障恢复技术都需要控制信号来驱动SDN交换机恢复故障,需要至少两次南向接口通信,使得系统发现和恢复链路故障时间过长。而基于数据信号驱动系统恢复链路故障的方法,节省了南向接口通信时间。现
科技的进步离不开高精度工具、仪器的配合,部分器件在制造时可能存在制作不达标的问题,或有的设备在使用一段时间后出现磨损、变形,为能够更好更安全的使用这些设备需要对其进行测量。线结构光三维测量技术有着非接触、精度高等优点,在各领域有着广泛应用,因此对线结构光测量技术的研究也尤为重要。目前线结构光三维测量的扫描方式在测量不便移动的物体内壁时有一定局限性,本文提出自旋转式线结构光三维测量系统,可以通过对线
由于有机发光二极管的科研价值和经济效益逐步上升,电流-电压关系作为描述有机发光二极管电学性质的一个非常重要的物理因素,对其进行深入研究也显然是必要的。所以本文对有机发光二极管的电流-电压关系进行了研究。本文的主要内容为:介绍了与有机发光二极管电流-电压相关的理论基础,如漂移扩散方程、漂移电流、扩散电流、玻耳兹曼统计、费米统计、爱因斯坦关系等。在漂移扩散方程的基础上,对有机发光二极管电流-电压公式进
学位
自然界和工程领域的流动大多处于湍流状态,而湍流带来的高摩擦阻力一直是困扰人们的难题,研究湍流减阻对于减少能源消耗、环境保护等意义重大。利用柔性覆层进行湍流减阻的研究起源于人们对于海豚表皮的仿生研究。相比于主动控制,虽然减阻的效果差一点,但柔性覆层减阻不需要能量的额外输入,亦不用考虑安装传感器等目前技术条件下很难实现的问题,因而受到了人们的重视。目前柔性覆层延缓流动转捩的作用已接近应用阶段,但其对充