面向地标的多模态主题意见摘要挖掘研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:aa3002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着移动终端设备价格的下降及Wi-Fi的广泛铺设,移动互联网应用呈现井喷式发展。旅游用户基于移动终端设备,产生了大量旅游评论文本和旅游地标图片信息。这些信息能充分反映各个地标的特色,同时也为面向地标的旅游领域数据挖掘,提供了优良的环境和迫切的科研任务需求。本课题在实验室物联网项目之挖掘系统工作的基础上进行延续,从海量信息中,提取出地标的文本主题意见,并结合图片信息,产生多模态主题意见摘要。此项工作的意义在于方便用户快速准确查询到所需信息,帮助用户进行特色景点选择和旅游计划决策,推动旅游业的蓬勃发展,促进信息消费,保持经济增长。本文以北京市的热门旅游地标数据为对象,展开多模态主题意见摘要挖掘研究。首先,本文设计“爬虫”软件,从旅游网站获取评论和游记,通过信息熵指标等进行信息筛选,保留有价值的文本和图片信息,完成了地标的数据收集和预处理工作;其次,本文在预处理工作基础上,开展文本挖掘研究工作,生成了地标的文本主题意见。针对地标的评论信息,本文创新地提出一种增量式学习算法框架,依据区分性和内聚性两个指标,同步挖掘各地标的主题和用户对各主题的重要评价意见,实验表明该算法框架能有效的提取地标的主题意见特征词,反映地标特色,其准确率相比其他方法提高19%左右,达到国内先进水平;再者,针对图片,本文选择提取5种图像特征,采用谱聚类算法和AP算法,获得图片聚类主题和各主题的代表性图片,实验表明聚类效果良好,所选图片的主题代表性强;最后,本文综合文本和图片两种模态信息,将图片按主题映射到文本主题意见上,形成多模态摘要,实验表明该摘要可读性强,形式新颖,信息丰富。经实际验证,本文最终生成的包含文本主题意见和代表性图片的多模态摘要,形象生动,特色鲜明,直观有效地为用户提供了地标的关键信息,大量节省用户查询时间,得到了用户的充分好评。
其他文献
该论文结合工程实际需要,讨论了舰载制导雷达的恒虚警检测问题.在假设海杂波可用Weibull模型描述的基础上,给出了一种低计算复杂度的适用于Weibull分布海杂波的双参数CFAR检
该项目的研究目标是建立基于CCD工业摄象机的双目立体视觉测量体系,用以抽取被 测目标图象的三维数值信息,提供三维目标形态测量所需的基础数据.论文首先介绍了计算机视觉技
蜱是一种常见的吸血体外寄生虫,给畜牧业和人类的健康带来了严重的影响。蜱的寄生会引起宿主失血、不安和皮肤损伤,同时在叮咬过程中蜱可以传播多种疾病。蜱叮咬可以诱发宿主产
在当前恶劣的战场环境下,导弹武器CI系统对于充分发挥整个系统的战斗起着重要作用,分布的单元(传感器,指挥控制中心和武器平台)间能进行安全、抗毁和快速的数据通信是CI系统
消费者于在线社会网络当中具有维系、获取与投资虚拟社会资本的需要,由此引发消费者消费、贡献与创作与品牌相关的内容信息的行为。本研究首先通过文献综述解释虚拟社会资本
该文简要介绍了集散控制系统(DCS)组态软件的现状与存在问题、DCS组态软件的开发方法、开发过程,提出了采用面向对象技术开发DCS组态软件的可能性与必要性,对面向对象编程的
该文讨论了顺序统计恒虚警算法,并从理论上分析了检测门限的确定准则,对于独立均匀的K-分布和威布尔分布杂波,计算得出了理论门限系数值.该文还讨论了与恒虚警门限系数确定密
自从80年代并行机制就被引入了计算机结构、程序和高效算法的设计中.多任务管理则应用于微软的视窗操作系统中.这些机制的使用很大程度上提高了计算机的运算速度和用户友好程
在瞬息万变的信息时代,为了解决移动用户需求的高数据传输速率和频谱资源枯竭之间的矛盾,国际标准化组织第三代合作伙伴计划(The3rd Generation Partnership Project,3GPP)展
该文详细地介绍了小波的基础理论,主要研究小波变换域的滤波器设计问题.研究内容包括小波滤波器系数的求解、小波函数值的计算与小波图形的显示方法以及小波变换域的自适应滤