论文部分内容阅读
近年来,随着互联网上信息和应用的极大丰富,人们日常工作、学习、娱乐、购物等活动与互联网的的关系日益密切,互联网正越来越相对于现实空间形成一个所谓的“数字空间”,两者以“人”为交集,相互影响、相互作用。因此,针对用户在网络空间的行为分析不仅可以为网络空间的规划、网络内容的管理指出方向,也可以为研究现实空间中不同人群的情感、偏好、网络依赖程度等提供依据。本文从校园网日志入手,通过抓取日志对应的网页文本,采用主题爬虫、主题建模、文本分类等技术挖掘不同年级、不同专业以及不同性别学生群体的上网偏好、关注热点等倾向性特征;根据日志内容的时间特征,采用聚类分析以及分布式计算技术对用户上网时长进行估算,获取用户对网络的依赖程度。本文主要创新点如下:1.根据用户日志抓取网页文本的分类效果与训练数据集有很大依赖关系,数据集越大、覆盖度越全面效果越好。而校园网环境中学生访问内容只能覆盖各专业领域少部分内容。本文提出了一种基于本体的Shark Search主题爬虫算法,针对原向量空间模型忽略特征项相关性的缺陷,引入基于语义的领域本体模型(Ontology-VSM模型)来改进Shark Search算法的“相似性引擎”。此外,在判断网页内链相关性时引入DOM树结构对网页链接进行聚类,并以此判断链接相关性。经真实网页爬取实验验证,改进后爬虫在爬取网页数量较少的情况下准确率得到了明显提升。2.校园网用户的年级、专业、性别等分类信息与用户的所在校内楼宇位置具有十分显著的关联性,而位置特征又体现在网络日志的IP地址字段上。利用日志IP地址所代表的位置信息进行网页文本的主题建模,可以充分体现不同分类用户的行为特征。本文提出了一种“区域—主题分布”关联的主题模型,即Area-LDA模型,将位置信息引入LDA主题模型,使原模型由三层扩展为四层,挖掘出不同年级、专业、性别的学生与上网偏好、关注热点等行为特征的关联。根据日志抓取真实网页进行了主题建模实验,结果揭示了不同年级、性别用户所关注内容的明显差异。3.特征提取对文本分类效果的影响很大,目前广泛采用的特征提取和表示方法TF-IDF算法和词袋(BOW)模型在特征的关联性上均考虑不足。本文提出了TF-D(t)-CHI算法,用卡方(χ2)替代IDF来体现特征项与类别的关联、同时引入方差D(t)来体现特征在类别内部分布特征的,改进了TF-IDF算法忽略特征关联性的缺陷。还提出了采用LDA替代词袋(BOW)模型,即LDA-Ada Boost混合分类模型,引入特征词的语义相关性对文本特征降维。经规范数据集和真实数据集的对比实验验证,以上改进相对原模型在各项指标上均有明显提升。4.及时发现网瘾学生并进行干预是高校管理的重要内容之一,目前还缺乏有效的技术运用校园网日志准确估算用户上网时长。本文提出了一种基于密度聚类分析的上网时长估算方法,通过提取日志中用户触发访问记录的离散时间特征,采用Spark框架下的分布式DBSCAN算法对大量日志数据进行聚类,将离散的访问记录聚类为不等的时间分段进行累计得到用户上网时长。通过单日日志数据的计算结果分析,该算法能明显体现出不同上网频次用户上网时长的差异以及所有用户上网时长的分布特征。