论文部分内容阅读
联机分析处理(Online Analytical Processing,OLAP)作为商务智能领域(Busniess Intelligence,BI)的核心技术之一,在海量数据分析和辅助决策支持方面有着重要的作用。而对OLAP查询进行推荐,能够帮助分析人员快速得到期望的分析结果,挖掘潜在的数据价值,提高决策效率。针对现有方法主题性不明确、推荐效果一般的问题,本文首先将OLAP会话作为推荐的对象来增加推荐的主题性,然后从相似度计算、推荐方法以及标签技术这三个目标对OLAP会话推荐的关键技术进行了研究,并对这三个目标进行了优化,最后通过实验验证了多目标优化推荐方法的有效性和合理性。具体来说,本文的创新点和主要工作体现在如下方面:1.针对相似度检测的现有方法,研究OLAP查询和OLAP会话的特点,将OLAP会话代替查询作为推荐的基本单位,提高分析的目的性和主题性,并且使用改进的Smith-Waterman算法来优化相似度检测方法,提高检测的准确率和召回率。2.针对协同过滤推荐时可能产生的冷启动问题,提出了基于内容和协同过滤相结合的推荐方法,针对头会话使用基于内容的推荐,尾会话使用基于协同过滤的推荐,并且加入了新颖度排名,使得推荐的结果更具时效性,最终进行Top-K推荐,增加推荐的多样性以供用户挖掘更具价值的信息。3.针对OLAP领域知识的专业性问题,提出了基于编辑距离的标签生成推荐方法,将推荐的会话加入标签,同时为了解决标签稀疏性问题,使用编辑距离将推荐会话和拥有标签的相似会话进行匹配,通过将差异之处标记后进行推荐,便于用户对会话的理解。4.通过开源软件以及数据集进行多组实验分析,验证本文提出的相似度检测方法、推荐方法具有更高的准确率和召回率,标签生成方法的执行速度更快。其中相似度计算方法较传统的余弦向量综合准确率和召回率高了15%左右,本文的推荐方法比协同过滤方法在准确率、召回率、覆盖率等5项指标上均有5%到20%不等的效果提升,标签生成技术在执行速度上比标签云方法快了近一倍,并且是电影立方体的几百倍。