基于短文本的Web日志挖掘系统的设计与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：dartal_1999

【摘要】

：

伴随着互联网的兴起,大量社交平台高速发展的同时也占据了用户大量的Web访问时长。所以,基于Web形式的用户交互信息量越来越庞大,如何在大数据量的Web信息中发现高价值信息,

【作者】

：

李泽华

【出处】

：

电子科技大学

【发表日期】

：

2018年01期

【关键词】

：

Web日志 MB-kmeans++聚类算法融合BTM模型 BTM精度补偿

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

伴随着互联网的兴起,大量社交平台高速发展的同时也占据了用户大量的Web访问时长。所以,基于Web形式的用户交互信息量越来越庞大,如何在大数据量的Web信息中发现高价值信息,为用户和网络监管人员提供参照已经成为迫切需要解决的问题。Web日志挖掘的目的是通过对Web日志文件进行深层数据分析,来发现用户的行为方式和需求。而网关服务器中的日志不仅存储有用户的访问轨迹和详细访问参数,还记录有用户在社交平台的舆论短文本信息,其中拥有超出传统日志挖掘的巨大价值,可以为舆情分析做出重要参照。论文在综合分析传统日志挖掘技术和短文本挖掘技术的基础上,对网关服务器日志进行分析和挖掘。重点对用户会话识别、会话特征降维、会话聚类和短文本主题聚类四个主要问题进行了深入研究,具体工作如下:1.用户会话识别。传统日志分析是将以IP地址为代表的用户作为研究对象进行访问行为研究,而现阶段网络社区内IP地址往往会进行动态分配,IP地址和用户脱离了绑定关系,且同一用户在不同的访问时段内往往拥有着不同的目的。所以本文以用户会话代替用户进行行为研究,虽然带来了维度上的增加,但是具有更高的区分性和精度。2.会话特征降维。当前社交平台用户可以随时增加动态链接,导致了会话中页面特征维度较高,且难以统计。所以本文基于网页路径的相似性对页面进行合并,在会话内部有效的降低了页面特征维度。3.用户会话聚类。本文基于用户点击和访问时长建立用户兴趣离散矩阵,并基于mini batch思想改进了k-means++算法,基于少量数据对整体数据集进行特征拟合。本文聚类算法可以很好的适用于高维度稀疏的用户兴趣离散矩阵,并在只损失少量精度的前提下大幅提高聚类速度。4.短文本主题挖掘。本文基于BTM对短文本进行建模,并融合了VSM中词频特性对模型进行特征扩展,提高了模型精度。同时基于类内类间距离自动调整k-means算法聚类个数k,较为理想的补偿了BTM需要提前人为输入主题个数所带来的精度损失。

其他文献

视唱教学中切分节奏的训练

节奏同音高、音值、音量一样是音乐的最基本要素。切分节奏同附点、连音节奏一样是乐理、视唱教学中的基础训练节奏型,它风格突出、形象鲜明,变化多样、应用广泛,被不同时期

期刊

节奏切分教学训练

蒙元时期的“可汗”与“汗”

在蒙元帝国时期的蒙古文文献中,其最高统治者的称号有时作qa’an,有时作qan。在汉文史料中,大多与前者对应为"可汗"(合汗),后者为"汗"(罕)。自伯希和以来,学界一般认为,qa’a

期刊

蒙元帝国成吉思汗可汗古蒙古语the Mongol EmpireChinggis QanQa’anAncient Mongolian

餐饮供应，速冻食品摸索前行

相关统计数据表明，我国餐饮业的年营业额已达7600亿元。餐饮作为速冻的下游行业。巨大的需求量能否为速冻行业提供新的商业机会？据业内人士介绍。目前我国的速冻食品大部分通过

期刊

速冻食品餐饮业供应商业机会国际市场速冻冷藏数据表营业额

“绿巨人”孙少锋

创业一定是艰辛的，但是我这个人比较执着，我一旦设立了一个目标，就会向着这个方向去做，不管发生多少困难，一定要坚持到底。”——孙少锋

期刊

创业孙少锋中国绿色食品(控股)有限公司方便面饮料绿色蔬菜产业

基于Android日志的APP用户行为分析研究与实现

随着“互联网+农业”战略的提出,各类农产品电子商务平台得到快速发展。人们在电子商务平台购物过程中,通常会留下大量反映购物行为模式的购物行为信息。应用大数据和人工智

学位

日志采集代码埋点用户行为分析GBDT算法逻辑回归

高校民族声乐教学的多元化发展

民族声乐是高校重要的学科体系,占据着十分重要的位置。面对西方多元文化的不断渗透,民族声乐教学受到高度重视,各民族声乐在凸显民族特征的基础上,实现艺术的交融。鉴于此,

期刊

高校民族声乐教学多元化发展

新天轻装出击

新天自出道，业内一直众说纷纭。在本刊多年关于新天的报道中，我们看到的是善于品牌造势的新天。在中国品牌战略学会公布的统计数据中，新天品牌价值为8．3401亿元，仅次于张裕。但同

期刊

品牌战略统计数据品牌价值经销商市场

大周酒业坚定不移推广意大利好酒——专访大周酒业总策划人、深圳鹰派策划公司总经理金正凯

大周酒业在今年成都春季糖酒会上正式亮相，之后通过一系列的品鉴活动，大手笔的中意文化交流活动，大规模的新闻发布会，让业界看到了大周酒业的决心和信心。

期刊

酒业意大利总经理策划深圳新闻发布会交流活动

“苏州号”2006年上半年船期表

期刊

高校财务绩效评价指标体系研究

近年来,我国高等院校的体制不断变革,随着社会关注度的提高,高校财务信息日趋透明,各利益相关者对于高校的资金使用质量有了更高要求。文章结合实际情况建立了一套高校财务绩

期刊

高等教育财务绩效因子分析指标体系

基于短文本的Web日志挖掘系统的设计与实现

与本文相关的学术论文