中文自然语言处理模型的可视化分析系统

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:Hatchet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于互联网的全面普及,互联网上的文本数据呈现指数级别的增长。这些文本数据来源于新闻、博客、微博、论坛等平台。如何让计算机更好的理解自然语言文本是目前的研究热点。由于自然语言文本是一个高度复杂的符号系统,所以挖掘文本中蕴含的知识是一个非常具有挑战性的任务。LDA主题模型和词向量模型是两种有效的自然语言建模技术,在一定程度上可以提高计算机的自然语言处理能力。本论文主要针对中文自然语言处理模型中LDA模型和词向量模型的可视化展开研究,分析了目前自然语言处理领域内针对中文文本中LDA模型和词向量模型可视化研究工具缺乏的问题,设计并完成了基于LDA模型和词向量模型的中文自然语言处理模型的可视化分析系统。系统提供的功能主要包括以下两个方面:LDA主题模型的可视化:主要分为三个部分,分别是日期查询可视化、新闻主题分类可视化和新闻主题分布可视化。日期查询可视化是将用户在页面中选取的起止时间内的新闻从数据库中提取出来并按照时间顺序展示在页面中,供用户进行查阅。新闻主题可视化是将用户选择日期内的新闻通过LDA模型组件进行训练后将结果可视化展示在页面中,方便用户了解该时间内新闻的主题和热点信息。新闻主题分布可视化是将每一篇新闻中不同主题的词语用相对应的主题颜色进行标注,并将标注后的新闻展示在页面中,方便用户了解每一篇新闻中的主题分布情况。词向量模型的可视化:可以分为三个部分,分别是相似词可视化、相似度可视化和词类比可视化。相似词可视化是将在向量空间里距离输入的词语最近的多个单词进行可视化输出,方便用户了解与输入单词语义相近的单词分布情况。相似度可视化是通过计算夹角余弦值来比较两个词语之间的相似性,并将相似值显示在页面中,方便用户对不同单词之间的词义联系进行分析。词类比可视化是在不同的词语之间进行类比,最后根据相似值的结果由高到低排列在页面中,供用户进行分析。
其他文献
约束多目标优化问题广泛存在于科学研究和工程实践领域,这类问题往往需要同时优化的目标不只一个,且由于受到各种环境因素的影响需要满足一定的约束条件,当目标数大于等于4时
人脑作为具有复杂结构与功能的信息转换与信号处理系统,其内部的组成成分及相互间的协调工作一旦失衡,引起的脑部疾病会对人类的健康造成严重影响。纳米技术作为一种前沿的多
轮胎表面标识字符是指轮胎生产厂家在轮胎侧表面,使用模具压印而成用于记录轮胎参数信息的字符。对于生产厂家来说,这些参数在轮胎分类管理及销售中起着至关重要的作用。倘若
写作能力是现代人应具有的基本素养,而初中阶段是系统学习写作知识,形成写作个性的关键时期,对个人的终身发展和社会发展都至关重要。但在体校,许多初中生的写作状况着实堪忧
互联网产业的飞速发展推动了移动多媒体技术的日渐成熟,随之而来的是移动终端的数据传输业务越来越多,如何保护数据传输过程的安全成为无线通信技术研究的热点。为了解决信息
图像时代的到来,不仅意味着人们的日常生活被形形色色的图像所包围,还表现在人们思维方式与认知方式由传统的语言文本向图像文本转变。图像作为一种以信息传递为表征的价值符
本论文主要由三部分组成:第一部分简单介绍了进行电子结构计算以及光解离反应机理研究所使用的理论方法;第二部分详细介绍了苯硫酚光解离反应机理的研究;第三部分简单介绍了
二语研究者们对如何修改二语习得者在习得目标语言时所犯的错误一直很感兴趣,Truscott(1996)最初认为书面纠正反馈是无效的,并且可能对第二语言学习者有潜在的危害。与Trusco
在全球化的发展趋势下,国与国之间的交流日益密切,培养具备跨文化交际能力的优秀人才日渐重要。2017版《普通高中英语课程标准》中明确提出的英语学科核心素养已经被科学地细
目的:随着人才培养模式的转变,以及协作式医护模式的发展,近年来医学教育积极提倡跨专业合作学习,且逐渐成为医疗体系中不可或缺的一部分。本研究通过了解医学院校学生跨专业