论文部分内容阅读
随着在创新2.0下“互联网+”这种新业态的出现,社会生活的各个领域都与互联网变得密不可分。这也导致了互联网上的各类非结构化数据,结构化数据,半结构化数据的大数据爆炸式增长。虽然互联网公司可以对繁杂的各类数据进行挖掘,分析出用户行为背后习惯爱好,针对各种用户需求设计出更符合他们“口味”的产品与服务;但是对于大多数普通用户而言,如何通过计算机从如此庞大的海量数据中自动检索到有用的信息变得越来越具有挑战。以LDA模型为代表的主题模型是信息检索系统中常用的语义挖掘工具,这类基于概率统计方法的语义挖掘模型可以用来识别语料库中潜藏的主题信息,通过多个概率分布矩阵,最终可以获得每篇文档的一个词频向量。自然语言的不确定性主要表现为随机性和模糊性,基于概率统计的语义挖掘模型只能解决自然语言的随机性问题,而忽略了自然语言的模糊性以及文档中词语之间的语义关联,因此随着网络数据信息的增长,基于概率统计的语义挖掘模型在用于信息检索时虽然可以返回用户需要的有关信息,但没有完全把握用户的中心主题思想,返回的信息涉及的范围较广不够精确,不能让用户满意。为此,论文展开的研究工作包括以下几个方面:第一,引入云模型作为桥梁,在传统的标签主题模型上融入语义知识信息,扩展得到一个新的主题模型,即基于云模型的语义标签主题模型。该模型利用一系列的云空间转换,将标签基于语义知识的矩阵与标签的概率矩阵融合成一个新的语义标签矩阵,并利用这个新的语义标签矩阵来进行主题建模。云模型利用定量表示与定性表达之间的不确定转换来反映随机性与模糊性之间的关联,弥补传统主题模型未考虑自然语言模糊性的不足。新模型利用语义知识信息将语义关系紧密的词语分配到同一主题下,使得挖掘出的潜在主题更具有一致性。第二,为了进一步增强标签模型的建模效果,提出一种基于语义关联的特征获取方法,来获取更好的文档标签。该方法在传统的特征选择的基础上,利用直觉模糊集决策理论中优属度和比较概率的概念,加入了对词语模糊性和词语之间语义关联以及词语与文档主题之间的语义关联的考虑。在该方法中比较概率作为评价文档中词语模糊性和词语之间的语义关联性的指标;在此基础上,优属度作为衡量文档中词语与文档主题贴近程度的指标。通过这两个指标反映文档中词语之间、词语与文档之间的语义关联程度,来获取文档特征或标签,提升文档特征或标签的质量。