基于概率主题模型的情境建模方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:mlj1234567890
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着IT产业尤其是互联网的蓬勃发展,人类社会逐渐进入了大数据时代,我们每天都可以通过多种渠道接触到海量的信息。如何从信息的海洋中获取知识逐渐变得非常困难,为了应对这种信息过载的问题,数据挖掘技术应运而生。然而,传统数据挖掘方法的解空间通常较大,其挖掘结果仍然难以满足用户需求。幸运的是,移动互联网的崛起和智能移动设备的应用普及,使得与用户的行为和周边环境相关的情境数据被大规模的记录、收集并逐年积累。通过对实体(用户以及与其有交互关系的实物如商品、文本等)进行情境感知的建模,挖掘出实体在不同情境下的特性以及模式的情境数据挖掘,成为解决传统数据挖掘方法解空间过大问题的有效途径,具有重要的研究价值和应用意义。在此背景下,本文系统地研究了情境数据挖掘方法及其应用问题。特别的,本文在传统互联网环境以及移动互联网环境这两个角度分别研究了三类问题:移动用户的情境识别、移动情境中的用户联系人意图建模以及面向互联网信息的命名实体情境建模。具体而言,本文的主要研究内容如下:首先,提出了一种面向移动用户的半监督情境识别模型。为了挖掘带有语义信息的移动用户情境,以便为用户提供更好的信息服务,学者们提出了有监督模型或者无监督模型的移动情境建模方法。然而,有监督模型过分依赖于标注数据,使得这类方法在现实应用中难以应用,而无监督模型挖掘出来的情境缺乏潜在的语义信息,这使得挖掘出来的结果没有很强的实用性。针对以上问题,结合在现实环境中容易获得用户部分有标注情境数据的现状,本文提出了可以融合有标注和无标注数据的半监督模型对移动用户的情境进行建模,同时本文还设计了对应的半监督学习算法。在模型中,我们称移动用户情境潜在的语义信息为情境主题,因为不同用户其情境主题是个性化的,意味着每个用户有着不同的情境主题,且数目也不相同,因此,模型需要事先知道用户的情境主题数目方能为其进行情境建模,因为传统求解方法需要通过不断尝试不同值然后判断出合适的主题数目而导致效率低下,因此本文提出了无参估计模型来对解情境主题的数目进行建模,该模型能够较为理想的对情境主题数目进行估计,同时在模型训练阶段,其算法迭代结束后的一些变量可以直接用于情境建模模型的初始化过程中,实验表明这使得情境建模的模型训练时间缩短,并且,与随机始化的方式相比能够取得更优的建模效果。另外本文还提出了一个完整的半监督情境识别的系统框架图,不仅包括标注数据的收集与处理,也包括建模和估参等过程。最后在真实数据上的大量有针对性的实验表明本文提出的半监督情境识别模型具有优于已有研究工作的良好效果。其次,通过研究用户的移动情境以及联系日志,提出一种基于概率主题模型的联系人意图建模方法,解决了移动用户意图理解的困难。随着智能移动设备的普及,以及各种智能互联网应用的广泛使用,“联系”操作在诸多场景中被频繁使用。另一方面,由于智能移动设备存在一些弊端(如屏幕小等),这使得对用户的联系人意图进行建模从而为智能服务提供理论基础显得十分必要。针对该联系人意图理解的问题,本文在数据预处理阶段提出了简单有效的情境会话划分算法以及情境区域划分算法,并在此基础之上提出了一种假设:用户在执行一个联系操作的过程中通常会基于某种“意图”,如“闲聊”、“公务”等,另外大都会以数次时间间隔很短的联系行为作为一个会话的形式出现,同时用户的联系意图在很大程度上也与用户所处的地理位置情境有关联。基于以上假设,本文提出用概率主题模型对移动用户的潜在联系意图进行建模的模型,实验表明该模型能够较为合理的为用户的联系人进行建模,并通过案例分析的方式验证了假设的合理性。最后,通过从词和命名实体两种角度分析互联网信息中的文本,提出一种基于概率主题模型的命名实体情境建模方法,解决了实体歧义问题。与面向用户的情境建模相比,命名实体的情境建模同样具有重要意义,因为这有助于我们更好的理解实体,进而更准确合理的利用命名实体为用户提供更优质的服务。然而,由于实体歧义性问题的存在,给实体建模和理解带来了极大的挑战。为此,本文将包含实体信息的文本解析成词和命名实体两种层面的信息,考虑到二者同属于一篇文档,应当具有相同的主题分布,因此可以将其映射到同一个主题空间中。基于此,提出了一种基于概率主题模型的实体建模方法,并使用变分推导方法求解参数,这使得模型更加易于并行化,为后续处理海量数据提供了理论基础。随后本文从命名实体链接这一具有实际意义的问题出发,提出了构造知识库的方法,并设计了命名实体链接算法,实验结果表明本文提出的模型不仅比已有算法有更良好的效果,而且也验证了相关假设的合理和有效性。
其他文献
农业是我国的基础产业,也是支柱产业,发展现代农业需要大量中长期资金的支持,因此农村金融问题是直接关系到农业发展的核心问题。但是,农业资金匮乏导致的金融服务供给数量和质量
世界上没有两个相同的学生,挖掘每个学生的最大潜力、促进每个学生的全面发展是教育的根本目的。新课程改革提出了“满足不同学生的地理学习需要,转变地理学习方式”的理念,这就
资本市场与实体经济相辅相成,共同发展。随着我国经济的快速发展,我国资本市场建设也取得了很大成就。相比于场内市场,我国场外市场建立的时间较晚,各项制度亟需完善。2013年
风力发电机安装位置高,一般工作条件恶劣。出现故障不好维修,针对风力发电机组的运行状态进行有效、及时、准确的预测故障的发生和发展,避免和减少故障的发生,降低维修成本。对于
随着软件规模的不断扩大和硬件设施的日益复杂化,软件测试遇到前所未有的挑战,云计算中软硬件都可以作为服务提供给用户,这为复杂的软件测试提供了解决方案。基于云平台的TaaS是
为了满足我们对深空知识的渴求,现代天文望远镜的口径越来越大,硬件结构日趋复杂,安置地点也从地面向极地甚至太空延生。而这种发展趋势也使望远镜的维护困难,运行成本提高。
随着城镇化水平以及人民群众的生活水平的不断提高,近些年人们对于生活环境的要求也有所提升。随着现代城市快速发展,相配套的城市园林工程建设需求不断提升,目前的生态环境
知识管理决定了现代企业的核心竞争力,是现代企业信息化的必然趋势,是电信运营行业前沿信息技术研究和使用的最重要领域之一,知识管理的重要性不言而喻,目前国内各大电信运营
儿童天性爱玩耍,游戏便成为了是他们最喜爱的娱乐活动活动。孩子是在游戏中不断成长和学习的,良好的游戏环境对于儿童们的自我发展具有重要的意义。本文运用了现场实地观察和资
本文是针对某银行项目系统而设计的性能测试框架,在软件项目测试中,性能测试占有举足轻重的地位,该测试指模拟一定规模或深度的工作负荷以查看应用程序在并发压力下,研究被测