论文部分内容阅读
本文的研究目标是“使用可视化方法表示、挖掘、早现和解释文本集包含的潜在主题,展示不同层次和观测水平上的潜在主题、发现主题之间的关联,将潜在主题可视化方法应用于特定领域的文本知识发现”。论证了使用词条集合表示潜在主题的原理、在转置向量空间中词的邻近关系表示集聚关系的原理、用多维尺度分析(MDS)将邻近关系投影到低维空间的原理,构建了使用MDS可视化方法挖掘并展示潜在主题的基本流程。本文认为可以找到一组在文本集中具有集聚关系的词条集合来表示潜在主题,将这种集聚关系抽象出来,就能得到从属于同一个主题的词条集合。为了将集聚关系抽象出来,使用词条在转置向量空间中的邻近关系表示词条在原始文本集中的集聚特性,有集聚关系的词条会在高维转置向量空间中相互邻近。由于高维空间不具有可以观测的儿何结构,选择了MDS可视化的方法将词条在高维空间中的邻近关系投影到人们可视的低维MDS空间图中,使用低维的空间对象结构来映射高维空间中的对象之间的关系和结构。由于保持了高维空间中的拓扑结构,从属于同一个主题的词条在低维可视空间中仍然相互邻近,在MD5空间图中形成一个个类团,每一个类团就是一个潜在主题。这个方法流程克服了共词分析和数据库内容结构分析使用MDS进行空间聚类时对统计共现次数和必须事先选定种子词等步骤的依赖。针对可视化展示空间容量的局限,引入了开放式编码的方法,先形成父类潜在主题,再分别进行可视化展示。设计了“先分词、后编码”和“先编码、后分词”两种策略,前者将文本分词得到的词条分成若干个类属,每个类属就是一个父类潜在主题,适用于短篇幅、完全非结构化文本构成的文本集,比如在线问答等网络文本;后者先根据章节标题等文本主题特征将文本划分到不同的子文本集中,再分别进行分词,适用于大篇幅、弱结构化文本构成的文本集,比如招股说明书等商业文本和项目申报书等科技文本。针对MDS在结果可解释性、可理解性方面的欠缺,本文将扎根分析的思想融入到潜在主题可视化的流程中,并进行了流程再造,将潜在主题展示出来以后,返回原始资料解释潜在主题及其关联,定位主题内容、为词条集合提供更丰富的上下文情景,寻找特殊案例、重点案例进行深入分析。为了寻找改进潜在主题可视化方法的突破口,论证了潜在主题及词条的情景依赖特性,结合实证分析中的文本集,提出了潜在主题可视化中三个层次的情景:领域情景、主题情景和上下文情景,为可视化的方法设计提供了理论支撑。为了能在更高的观测水平上研究潜在主题、发现同一层次潜在主题之间的关联,设计了质心邻近矩阵,用词条在高维向量空间中的质心代表一个父类主题,将所有父类潜在主题展示在同一个MDS空间图中,使用户可以忽略具体词条等细节的干扰,聚焦于所有主题及其相互关系的整体视图。同时,质心邻近矩阵的设计也大大增加了可视空间的信息容量。为了解释主题之间的关联、发现新的潜在主题、为潜在主题及词条提供更多的上下文情景,构造了属性叠加邻近矩阵,强关联的父类主题包含的语义信息和细分潜在主题得到整合和属性叠加。最后,使用潜在主题可视化的方法,以计算机应用服务业的97家上市公司招股说明书中关于“风险因素”的文字描述为目标文本集,进行了上市公司风险识别的知识发现。研究结果表明:潜在主题可视化的方法体系成功挖掘、展示并解释了上市公司风险文本中不同层次的潜在主题及其内部结构,发现了潜在主题之间的关联,实现了多层次的知识发现。