论文部分内容阅读
伴随着互联网的兴起,大量社交平台高速发展的同时也占据了用户大量的Web访问时长。所以,基于Web形式的用户交互信息量越来越庞大,如何在大数据量的Web信息中发现高价值信息,为用户和网络监管人员提供参照已经成为迫切需要解决的问题。Web日志挖掘的目的是通过对Web日志文件进行深层数据分析,来发现用户的行为方式和需求。而网关服务器中的日志不仅存储有用户的访问轨迹和详细访问参数,还记录有用户在社交平台的舆论短文本信息,其中拥有超出传统日志挖掘的巨大价值,可以为舆情分析做出重要参照。论文在综合分析传统日志挖掘技术和短文本挖掘技术的基础上,对网关服务器日志进行分析和挖掘。重点对用户会话识别、会话特征降维、会话聚类和短文本主题聚类四个主要问题进行了深入研究,具体工作如下:1.用户会话识别。传统日志分析是将以IP地址为代表的用户作为研究对象进行访问行为研究,而现阶段网络社区内IP地址往往会进行动态分配,IP地址和用户脱离了绑定关系,且同一用户在不同的访问时段内往往拥有着不同的目的。所以本文以用户会话代替用户进行行为研究,虽然带来了维度上的增加,但是具有更高的区分性和精度。2.会话特征降维。当前社交平台用户可以随时增加动态链接,导致了会话中页面特征维度较高,且难以统计。所以本文基于网页路径的相似性对页面进行合并,在会话内部有效的降低了页面特征维度。3.用户会话聚类。本文基于用户点击和访问时长建立用户兴趣离散矩阵,并基于mini batch思想改进了k-means++算法,基于少量数据对整体数据集进行特征拟合。本文聚类算法可以很好的适用于高维度稀疏的用户兴趣离散矩阵,并在只损失少量精度的前提下大幅提高聚类速度。4.短文本主题挖掘。本文基于BTM对短文本进行建模,并融合了VSM中词频特性对模型进行特征扩展,提高了模型精度。同时基于类内类间距离自动调整k-means算法聚类个数k,较为理想的补偿了BTM需要提前人为输入主题个数所带来的精度损失。