基于短文本的Web日志挖掘系统的设计与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:dartal_1999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的兴起,大量社交平台高速发展的同时也占据了用户大量的Web访问时长。所以,基于Web形式的用户交互信息量越来越庞大,如何在大数据量的Web信息中发现高价值信息,为用户和网络监管人员提供参照已经成为迫切需要解决的问题。Web日志挖掘的目的是通过对Web日志文件进行深层数据分析,来发现用户的行为方式和需求。而网关服务器中的日志不仅存储有用户的访问轨迹和详细访问参数,还记录有用户在社交平台的舆论短文本信息,其中拥有超出传统日志挖掘的巨大价值,可以为舆情分析做出重要参照。论文在综合分析传统日志挖掘技术和短文本挖掘技术的基础上,对网关服务器日志进行分析和挖掘。重点对用户会话识别、会话特征降维、会话聚类和短文本主题聚类四个主要问题进行了深入研究,具体工作如下:1.用户会话识别。传统日志分析是将以IP地址为代表的用户作为研究对象进行访问行为研究,而现阶段网络社区内IP地址往往会进行动态分配,IP地址和用户脱离了绑定关系,且同一用户在不同的访问时段内往往拥有着不同的目的。所以本文以用户会话代替用户进行行为研究,虽然带来了维度上的增加,但是具有更高的区分性和精度。2.会话特征降维。当前社交平台用户可以随时增加动态链接,导致了会话中页面特征维度较高,且难以统计。所以本文基于网页路径的相似性对页面进行合并,在会话内部有效的降低了页面特征维度。3.用户会话聚类。本文基于用户点击和访问时长建立用户兴趣离散矩阵,并基于mini batch思想改进了k-means++算法,基于少量数据对整体数据集进行特征拟合。本文聚类算法可以很好的适用于高维度稀疏的用户兴趣离散矩阵,并在只损失少量精度的前提下大幅提高聚类速度。4.短文本主题挖掘。本文基于BTM对短文本进行建模,并融合了VSM中词频特性对模型进行特征扩展,提高了模型精度。同时基于类内类间距离自动调整k-means算法聚类个数k,较为理想的补偿了BTM需要提前人为输入主题个数所带来的精度损失。
其他文献
节奏同音高、音值、音量一样是音乐的最基本要素。切分节奏同附点、连音节奏一样是乐理、视唱教学中的基础训练节奏型,它风格突出、形象鲜明,变化多样、应用广泛,被不同时期
在蒙元帝国时期的蒙古文文献中,其最高统治者的称号有时作qa’an,有时作qan。在汉文史料中,大多与前者对应为"可汗"(合汗),后者为"汗"(罕)。自伯希和以来,学界一般认为,qa’a
相关统计数据表明,我国餐饮业的年营业额已达7600亿元。餐饮作为速冻的下游行业。巨大的需求量能否为速冻行业提供新的商业机会?据业内人士介绍。目前我国的速冻食品大部分通过
创业一定是艰辛的,但是我这个人比较执着,我一旦设立了一个目标,就会向着这个方向去做,不管发生多少困难,一定要坚持到底。”——孙少锋
随着“互联网+农业”战略的提出,各类农产品电子商务平台得到快速发展。人们在电子商务平台购物过程中,通常会留下大量反映购物行为模式的购物行为信息。应用大数据和人工智
民族声乐是高校重要的学科体系,占据着十分重要的位置。面对西方多元文化的不断渗透,民族声乐教学受到高度重视,各民族声乐在凸显民族特征的基础上,实现艺术的交融。鉴于此,
新天自出道,业内一直众说纷纭。在本刊多年关于新天的报道中,我们看到的是善于品牌造势的新天。在中国品牌战略学会公布的统计数据中,新天品牌价值为8.3401亿元,仅次于张裕。但同
大周酒业在今年成都春季糖酒会上正式亮相,之后通过一系列的品鉴活动,大手笔的中意文化交流活动,大规模的新闻发布会,让业界看到了大周酒业的决心和信心。
期刊
近年来,我国高等院校的体制不断变革,随着社会关注度的提高,高校财务信息日趋透明,各利益相关者对于高校的资金使用质量有了更高要求。文章结合实际情况建立了一套高校财务绩