论文部分内容阅读
由于互联网的全面普及,互联网上的文本数据呈现指数级别的增长。这些文本数据来源于新闻、博客、微博、论坛等平台。如何让计算机更好的理解自然语言文本是目前的研究热点。由于自然语言文本是一个高度复杂的符号系统,所以挖掘文本中蕴含的知识是一个非常具有挑战性的任务。LDA主题模型和词向量模型是两种有效的自然语言建模技术,在一定程度上可以提高计算机的自然语言处理能力。本论文主要针对中文自然语言处理模型中LDA模型和词向量模型的可视化展开研究,分析了目前自然语言处理领域内针对中文文本中LDA模型和词向量模型可视化研究工具缺乏的问题,设计并完成了基于LDA模型和词向量模型的中文自然语言处理模型的可视化分析系统。系统提供的功能主要包括以下两个方面:LDA主题模型的可视化:主要分为三个部分,分别是日期查询可视化、新闻主题分类可视化和新闻主题分布可视化。日期查询可视化是将用户在页面中选取的起止时间内的新闻从数据库中提取出来并按照时间顺序展示在页面中,供用户进行查阅。新闻主题可视化是将用户选择日期内的新闻通过LDA模型组件进行训练后将结果可视化展示在页面中,方便用户了解该时间内新闻的主题和热点信息。新闻主题分布可视化是将每一篇新闻中不同主题的词语用相对应的主题颜色进行标注,并将标注后的新闻展示在页面中,方便用户了解每一篇新闻中的主题分布情况。词向量模型的可视化:可以分为三个部分,分别是相似词可视化、相似度可视化和词类比可视化。相似词可视化是将在向量空间里距离输入的词语最近的多个单词进行可视化输出,方便用户了解与输入单词语义相近的单词分布情况。相似度可视化是通过计算夹角余弦值来比较两个词语之间的相似性,并将相似值显示在页面中,方便用户对不同单词之间的词义联系进行分析。词类比可视化是在不同的词语之间进行类比,最后根据相似值的结果由高到低排列在页面中,供用户进行分析。