基于FoolNLTK的中文分词改进研究与应用

来源 :陕西科技大学 | 被引量 : 0次 | 上传用户:haijiehahaha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文自然语言处理(中文Natural Language Processing,中文NLP)是人工智能下中文研究的一个重点,它的研究内容主要包括:中文分词、文本向量化、序列标注任务、文本分类、机器翻译、信息提取任务、场景任务等。中文分词为中文NLP与传统NLP中最大的不同,因为中文与英文等语言不同,词与词之间无天然间隔。情感分析属于文本分类中的重要问题。其中中文分词是情感分析的基础,是实现信息提取和分析的支撑。中文分词主要分为:基于字典、统计和神经网络的几种分词方法。本文将综述多种中文分词方法,希望能将传统方法与深度学习结合考虑,以便找到一种更加准确快速的中文分词方法。目前的研究热点是神经网络分词,其发展为中文分词带来了更多的可能性。而优化算法在很多神经网络框架中都起着较为重要的作用,合理的优化算法往往能使问题得到更好的解决效果。本文的主要工作内容如下:(1)考虑到本文将要实现一种新的神经网络分词方法,这里通过对多种优化算法进行综述后,对加入了的牛顿动量(Nesterov)的Adam算法——Nadam算法的收敛性进行了讨论,并提出可以参考改进Adam(RAdam)算法,从而得到一个改善了收敛性的Nadam(RNadam)算法。通过实验使该算法在三层神经网络与LSTM的情况下对数据进行分类,并将输出结果与实际结果之间的损失和准确度进行绘图,它们所得到的曲线都相对平缓,是一个较好的结果,这可以加入到后续的中文分词与情感分析中并使其结果得到改善。(2)提出将互信息、朴素贝叶斯与改进了优化算法的FoolNLTK相结合,利用中文特有词性特点,得到一个合并分词算法。它可以将原本细碎的中文分词结果进行合并,以得到合理的合成词。通过对爬取的微博和知网摘要文本进行实验,在对关键词和新词的分词中,该算法有着良好的表现。(3)通过对情感分析问题的研究,得出除了现有的基于情感分析模型本身的研究,还可以通过对情感分析模型输入向量进行改进。本文提出可以通过将训练文本进行分词后,以Word2Vec方法进行初始词向量提取,然后将提取的词向量保留,以用于后续的情感分析问题中。将文本以分词后处理得到的词向量和直接使用ALBERT得到的字向量两种向量相结合,嵌入多种情感分析模型中进行实验,证明其具有可行性,同时对分析的准确度起到提高作用。
其他文献
近年来,有机电致发光器件因其主动发光、便携性、低功耗和机械柔顺性等特点,引起了研究人员的广泛关注,在智能包装及显示领域有着广阔的应用前景。但是目前商用化的发光器件严重依赖真空蒸镀的制备工艺,这种工艺设备价格高昂,操作复杂并且需要极高的温度,不利于低成本、大批量发光器件的生产。而采用全溶液加工法制备发光器件是有效降低成本、简化制造过程、实现大批量生产的关键之一。全溶液制备器件的难点在于对功能层及电极
学位
随着社会的变革与经济的快速发展,让越来越多人因生活和工作节奏倍增而更容易产生情绪低落、对生活失去信心和悲观等负面情绪,而这些负面情绪也会导致人体代谢和精神紊乱等多种疾病的发生,大大降低人们的生活质量。所以对于情绪的研究得到了越来越多研究人员的关注,在人机交互、医疗看护和媒体娱乐等众多领域已得到了广泛的应用。相比于面部表情、语音语调等非生理信号,生理信号中的脑电信号(Electroencephalo
学位
非线性系统控制是控制领域的一个重要分支,长期以来,学者们致力于设计响应更快,性能更优,更加切合实际生产的非线性系统控制器。在设计控制器时,必须考虑如何降低控制器复杂度,提高控制精度以及综合考虑实际生产中可能存在的多种干扰因素。另外,传统的Lyapunov渐进稳定结果对系统收敛时间未给出限制,不适用于现实工业生产中,相比之下,有限时间稳定更加具有实用价值。研究表明,满足有限时间稳定性的控制系统同时有
学位
冬枣甘甜酥脆,富含维生素,是秋冬季果品市场中热销水果之一。随着消费者对水果品质的重视,果农为了继续提升冬枣在果品市场中的竞争力,将冬枣分级关键指标增多至四项,分别是果面缺陷、果径、果形指数和果面着色比例。愈加严格的冬枣分级工作暴露了果农分级冬枣低效、易受客观因素影响和人力成本过大的问题。同时也暴露了冬枣分级机易损伤冬枣果皮和分级指标不足的问题。针对目前冬枣分级存在的问题,本文设计一套基于机器视觉的
学位
种群动力学是研究种群生态现象的一门学科,通过数学方法对种群模型进行分析,可以解释并预测种群的发展趋势.捕食-食饵模型作为种群动力学研究的重要模型之一,引起了众多生物学家和数学家的关注.特别地,有研究者提出时滞会对种群模型正解的稳定性、渐近性和周期性等产生影响,使得模型出现各种分支现象,该课题成为了许多研究者们的一个研究方向.随着非线性泛函分析和非线性偏微分方程的发展,使得人们对捕食-食饵模型的动力
学位
本论文主要基于经典的SIS模型和SEIR仓室传染病模型,研究了媒体报道导致人们行为改变对疾病传播的影响。首先,建立了发生率为βe-αI(t-τ)SI的SIS模型,主要刻画媒体报道的染病者数量导致疾病发生率改变对于模型动力学性态的影响。我们研究了模型的适定性,讨论了平衡点的存在性和全局稳定性,给出了全局Hopf分支存在的条件。并利用数值模拟展示了滞后效应τ对Hopf分支存在的影响。其次,建立了发生率
学位
压敏电阻器是一种具有非欧姆特性的半导体陶瓷器件,其电学特性是当电阻器所加电压大于压敏电压时,微小的电压变化将导致电流急剧增加,进而吸收过多的浪涌能量。压敏电阻器良好的压敏性能使其在电器、高压线路中广泛应用,起到浪涌吸收、过电压保护和静电保护的作用。WO3、CaCu3Ti4O12(CCTO)、TiO2、SrTiO3、SnO2和 ZnO 等都可制成压敏电阻器。其中ZnO压敏陶瓷成本低、漏电流小、响应时
学位
近年来,超短脉冲光纤激光器已经成为基础研究和工业应用领域的重要研究工具。无源锁模是光纤激光器实现超短脉冲输出最先进的技术之一,其原理是使用可饱和吸收体(Saturable absorbers,SAs)器件。当前,将各种纳米材料作为SAs产生超短脉冲已成为了一个高度活跃的研究领域。金属有机框架(Metal-organic frameworks,MOFs)及其衍生物自20世纪90年代被首次合成以来,就
学位
紫外光用途广泛,对不同波长的紫外光进行探测具有重要意义。传统紫外探测器主要分为光电导型、PN结和肖特基结型等,它们普遍存在成本高、制备工艺复杂、易受环境影响等缺点。近年来,基于半导体固液结的光电化学(PEC)紫外探测器受到了广泛关注。PEC紫外探测器具有制备工艺简单、价格低廉、响应速度快的突出优点,在民用领域具有广阔的应用前景。目前,研究者已从光阳极、电解液和对电极三方面出发对PEC紫外探测器进行
学位
研究COVID-19传播模型时常常会忽略拥有基础病易感者的影响,拥有基础病易感者往往接触病人后的染病概率要高,从而影响着种群COVID-19的传播.因此,考虑拥有基础病易感者的模型更具有实际意义.为了研究在拥有基础病易感者的基础上加入无症状感染者和密切跟踪隔离策略对COVID-19传播带来的影响,本文构建了四类拥有基础疾病史易感人群的模型.主要从下面四类模型进行研究:首先,基于基础的SEIR传染病
学位