论文部分内容阅读
随着IT产业尤其是互联网的蓬勃发展,人类社会逐渐进入了大数据时代,我们每天都可以通过多种渠道接触到海量的信息。如何从信息的海洋中获取知识逐渐变得非常困难,为了应对这种信息过载的问题,数据挖掘技术应运而生。然而,传统数据挖掘方法的解空间通常较大,其挖掘结果仍然难以满足用户需求。幸运的是,移动互联网的崛起和智能移动设备的应用普及,使得与用户的行为和周边环境相关的情境数据被大规模的记录、收集并逐年积累。通过对实体(用户以及与其有交互关系的实物如商品、文本等)进行情境感知的建模,挖掘出实体在不同情境下的特性以及模式的情境数据挖掘,成为解决传统数据挖掘方法解空间过大问题的有效途径,具有重要的研究价值和应用意义。在此背景下,本文系统地研究了情境数据挖掘方法及其应用问题。特别的,本文在传统互联网环境以及移动互联网环境这两个角度分别研究了三类问题:移动用户的情境识别、移动情境中的用户联系人意图建模以及面向互联网信息的命名实体情境建模。具体而言,本文的主要研究内容如下:首先,提出了一种面向移动用户的半监督情境识别模型。为了挖掘带有语义信息的移动用户情境,以便为用户提供更好的信息服务,学者们提出了有监督模型或者无监督模型的移动情境建模方法。然而,有监督模型过分依赖于标注数据,使得这类方法在现实应用中难以应用,而无监督模型挖掘出来的情境缺乏潜在的语义信息,这使得挖掘出来的结果没有很强的实用性。针对以上问题,结合在现实环境中容易获得用户部分有标注情境数据的现状,本文提出了可以融合有标注和无标注数据的半监督模型对移动用户的情境进行建模,同时本文还设计了对应的半监督学习算法。在模型中,我们称移动用户情境潜在的语义信息为情境主题,因为不同用户其情境主题是个性化的,意味着每个用户有着不同的情境主题,且数目也不相同,因此,模型需要事先知道用户的情境主题数目方能为其进行情境建模,因为传统求解方法需要通过不断尝试不同值然后判断出合适的主题数目而导致效率低下,因此本文提出了无参估计模型来对解情境主题的数目进行建模,该模型能够较为理想的对情境主题数目进行估计,同时在模型训练阶段,其算法迭代结束后的一些变量可以直接用于情境建模模型的初始化过程中,实验表明这使得情境建模的模型训练时间缩短,并且,与随机始化的方式相比能够取得更优的建模效果。另外本文还提出了一个完整的半监督情境识别的系统框架图,不仅包括标注数据的收集与处理,也包括建模和估参等过程。最后在真实数据上的大量有针对性的实验表明本文提出的半监督情境识别模型具有优于已有研究工作的良好效果。其次,通过研究用户的移动情境以及联系日志,提出一种基于概率主题模型的联系人意图建模方法,解决了移动用户意图理解的困难。随着智能移动设备的普及,以及各种智能互联网应用的广泛使用,“联系”操作在诸多场景中被频繁使用。另一方面,由于智能移动设备存在一些弊端(如屏幕小等),这使得对用户的联系人意图进行建模从而为智能服务提供理论基础显得十分必要。针对该联系人意图理解的问题,本文在数据预处理阶段提出了简单有效的情境会话划分算法以及情境区域划分算法,并在此基础之上提出了一种假设:用户在执行一个联系操作的过程中通常会基于某种“意图”,如“闲聊”、“公务”等,另外大都会以数次时间间隔很短的联系行为作为一个会话的形式出现,同时用户的联系意图在很大程度上也与用户所处的地理位置情境有关联。基于以上假设,本文提出用概率主题模型对移动用户的潜在联系意图进行建模的模型,实验表明该模型能够较为合理的为用户的联系人进行建模,并通过案例分析的方式验证了假设的合理性。最后,通过从词和命名实体两种角度分析互联网信息中的文本,提出一种基于概率主题模型的命名实体情境建模方法,解决了实体歧义问题。与面向用户的情境建模相比,命名实体的情境建模同样具有重要意义,因为这有助于我们更好的理解实体,进而更准确合理的利用命名实体为用户提供更优质的服务。然而,由于实体歧义性问题的存在,给实体建模和理解带来了极大的挑战。为此,本文将包含实体信息的文本解析成词和命名实体两种层面的信息,考虑到二者同属于一篇文档,应当具有相同的主题分布,因此可以将其映射到同一个主题空间中。基于此,提出了一种基于概率主题模型的实体建模方法,并使用变分推导方法求解参数,这使得模型更加易于并行化,为后续处理海量数据提供了理论基础。随后本文从命名实体链接这一具有实际意义的问题出发,提出了构造知识库的方法,并设计了命名实体链接算法,实验结果表明本文提出的模型不仅比已有算法有更良好的效果,而且也验证了相关假设的合理和有效性。