中文词法分析算法优化及其在聊天机器人中的应用

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:youxiang123hao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一直以来,中文分词都被当做是中文信息处理的第一站。而命名实体往往是句子最令人关注的成分,而中文分词任务的输出是作为命名实体任务的输入,因此如果通过相关算法的优化,可以提高中文分词的命名实体预测的速度和准确率,即提高了词法分析这个的运行速度以及它的准确率,那么就可以提高整个自然语言处理任务的性能,从而可以让计算机更好地理解中文,具有十分重要的研究意义。现在流行的开源分词工具有结巴、盘古、Ansj分词器等,这些分词器输出最终分词结果的准确率仅仅达到了80%左右,还有很大的提升空间。在感知机算法模型的基础上,使用用梯度下降法进行优化后得到平均感知机模型,并且在训练过程中,对优化后感知机算法再进行改进以便于可以采用多线程训练,提高了中文分词预测的准确率和速度。由于训练的语料库是通过网络爬虫获取的,所以首先通过Scrapy框架实现一个通用的网络爬虫应用,获取了250多万条问答对数据,又由于数据质量的好坏对后面机器学习的效果有十分重要的影响,而网络爬虫获取的数据往往包含大量的网页标签,所以需要对采集的数据进行数据清洗,其中停用词过滤是这个过程最重要的环节,于是设计了用于中文词语匹配的字典树数据结构,优化KMP匹配算法,可以快速获得高质量的数据。人们最为关注的对象实体,都可以算作命名实体。大多数情况下,信息抽取任务的核心也可以识别为命名实体。所以命名实体识别也是中文自然语言处理的一个十分重要的部分。在这篇论文中运用拟牛顿法对条件随机场模型来进行凸优化,可以提升命名实体识别的速度,并且改善识别命名实体的准确率。实验证明,优化后的分词算法最后将中文分词预测的准确率提高到了将近96.7%,与此同时训练的总耗时也由原来的128秒减少到了59秒。采用升级版匹配算法,可以把停用词过滤的时间复杂度从O(n)提升到O(logn)。在命名实体识别中,通过数值优化,避免存储和计算n×n的海森矩阵,把算法的时间复杂度从O(n~2)提升到O(n*m),其中m(?)n。通过拟牛顿法对条件随机场模型凸优化,识别命名实体的准确率相对于优化之前已经提高了2.7个百分点。最后将训练的模型封装成接口,通过微信小程序调用它,实现了一个简单的问答系统。
其他文献
随着互联网的飞速发展,“智慧城市”的概念异军突起,社区作为城市构成的基本单元,建设智慧社区是实现智慧城市中不可或缺的一环。传统社区中存在安全性低、监控系统功能单一和人员管理效率低等问题。针对这些问题,本文设计的智慧社区人脸识别系统,可以快速地进行身份认证,在视频监控的同时进行动态的人脸识别,生成可视化的访问记录,并对社区居民进行分类化的高效管理,提供安全、便捷、舒适的社区居住环境。因此,本文研究和
随着互联网软件的迅速发展,软件的规模也快速扩张,越来越多的应用被部署在分布式的环境中。在软件架构上,为了保证软件的灵活性和扩展性,软件中越来越多的功能被抽象成为配置,通过添加配置就可以完成一个需求,极大提高了开发效率。但就目前情况来说,配置变更需要由操作人员手工修改和部署,任务繁重,容易出错而且效率非常低。因此,一个功能强大、安全稳定的配置管理系统对于软件的开发和运维人员十分重要。配置管理系统基于
阿土水螨科Aturidae Thor,1900隶属于节肢动物门Phylum Arthorpoda,螯肢亚门Chelicerata,蛛形纲Class Arachnida,蜱螨亚纲Subclass Acari,真螨总目Superorder Acariformes,绒螨目Order Thrombidiformes,前气门亚目Suborder Prostigmata,大赤螨总股Supercohort An
矿业开发产生低pH值、高SO42-、高金属含量的酸性矿山废水(Acid mine drainage,AMD)未经处理直接排放,易酸化下游水体并严重影响水体中离子迁移转化。尤其是在贵州地区,锑、砷矿产资源丰富并且大小矿区较多,分布零散,采矿过程中排放的含锑、砷废水不易集中处理,对周边生态环境产生潜在危害。目前,国内外对于含锑、砷矿山废水的治理主要集中在运用零价铁、改性生物质炭等吸附剂吸附,而碳酸盐岩
一、项目教学设计理念项目教学是以学员为中心,以培养学员的综合能力为目标,把整个的学习过程分解为一个个具体的项目或事件,设计出一个个的项目教学方案,在教师的引导下,通过对项目进行分解和示范,让学员分组围绕各自的项目进行讨论、协作学习与实际操作训练,最后根据学员完成项目的情况来评价学生是否达到教学目的的一种教学模式。它改变了以知识为本、以教师为中心的教学模式,形成了以能力为本、以学员为中心的教学
期刊
各行各业的生产系统日益成为推动差异化和竞争优势的战略经营管理功能。因此,生产设备维护是整个生产系统管理功能的一个组成部分,应包括备件库存控制系统、全面质量保证和改进措施以及成本控制措施。本课题在了解加纳食品和饮料行业公司的生产流程的基础上,评估备件库存管理实践、生产质量控制实践和实施的维护管理策略,从而推荐一个维护优化模型系统,以确保最佳的运行成本和生产质量。本研究的实施主要采用归纳演绎法,具有探
目的:发热伴血小板减少综合征(SFTS)是一种由发热伴血小板减少综合征病毒(SFTSV)引起的流行性虫媒传播疾病,估计病死率高达6%至30%。该病在中国大陆,日本,韩国和美国均有报道。目前,还没有研究出针对SFTSV感染的特效药物和疫苗。考虑到SFTS的高死亡率和病情的快速进展,及时为SFTS患者提供治疗至关重要。因此,对于临床医生而言,如何精确预测那些更可能出现不良预后甚至死亡的SFTS病例非常
目的:肺癌是全球发病率和死亡率最高的恶性肿瘤,肺腺癌(Lung adenocarcinoma,LUAD)是肺癌的主要亚型。研究表明,葡萄糖转运蛋白1(Glucose transporter type 1,GLUT1)和血管内皮生长因子受体2(Vascular endothelial growth factor receptor 2,VEGFR2)在LUAD进展中起重要作用,但两个分子之间是否存在相
辐照加工技术被广泛应用于国民经济的各个领域,具有广阔的发展前景。在辐照加工技术中,绝缘芯变压器型电子辐照加速器因具有能量转化效率高、稳定可靠等特点,是中低能区辐照加工应用的优势机型。绝缘芯变压器型高压电源是该加速器的核心部分,其结构具有磁芯分段绝缘的特点,从而导致漏磁严重,使得各层次级线圈输出电压不均匀。为了解决该问题而引出的电压补偿方法是绝缘芯变压器型高压电源设计的关键技术之一。华中科技大学提出
配位聚合物(Coordination Polymers,CPs)作为一种新型的晶态材料,由金属中心与有机配体通过配位键自组装而成。CPs同时具备有机材料和无机材料的优点,具有结构和组分可调节性、多孔性,以及固有的杂化性质,在光、电、磁、催化等多个方面得到了广泛的研究。与其他电催化材料相比,CPs材料中有望得到高活性的氧还原(ORR)电催化剂从而替代贵金属Pt基材料。本论文选用富氮配体和羧酸配体作为