基于网络爬虫结合关联大数据的用户信息提取

来源 :计算机仿真 | 被引量 : 0次 | 上传用户:zjzhanjx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统方法筛选用户访问记录过程中,抓取页面行为特征不够全面,影响了用户信息采集成功率等问题,提出基于网络爬虫结合关联大数据的用户信息提取方法。利用网页爬虫技术,协助浏览器抓取网络页面,统计访问模式和网页浏览内容,获取历史行为数据,挖掘用户感兴趣的关联大数据,对行为特征进行预测评分,排序其重要程度,得到用户信息提取列表,进一步筛选列表页面信息,得到能够反映用户兴趣的资源信息。选取时间为30天的手机网络流量数据集进行对比实验,结果表明,上述方法相比传统方法提高了信息采集成功率,提取用户信息更加完整,同
其他文献
针对现有数据提取方法未考虑空间高复杂度,导致偏差数据检测的缺失、提取覆盖率较低、时间消耗较多的问题,提出基于智能计算的网络偏差数据提取数学仿真方法。引用信息熵检测网络偏差数据,并采用遗传算法对上述检测结果更新与平滑处理,获取网络偏差数据特征响应函数,结合距离与密度参数,确定网络偏差数据的位置与密度,最终实现网络偏差数据的快速提取。数学仿真结果显示,在网络吞吐量10000-50000Mbps背景下,
为了提高自然场景标志信息识别精度,提出基于图像增强的自然场景建筑工程标志信息逐级细化识别算法。采用基于极大灰度频数抑制结合动态直方图均衡算法,增强处理自然场景建筑工程标志图像,优化标志图像质量;以粗分类形式识别自然场景建筑工程标志图像类型后,由细分类形式识别自然场景建筑工程标志具体信息,实现逐级细化识别工程标志。经实验结果验证:所提方法增强后图像均方根误差与清晰度可满足图像增强应用需求,均方根误差
为了克服传统方法的建筑物重构方法点云数据匹配不理想问题,提出基于LiDAR点云的建筑物激光扫描重构方法。将LiDAR获取的点云数据做预处理,其中包括数据配准与坐标转换,提取出点云的特征点,根据该特征点获取建筑物的基本轮廓,重构建筑物模型;通过搜索最近点实施点云数据匹配,利用激光扫描完成对建筑物的重构。为验证研究方法的有效性,设计一次仿真。实验结果证明了研究方法下建筑物点云数据匹配精度高,重构效果理
针对工业机器人在给定路径点和运动学约束条件下寻求时间最优解,提出了一种改进的自适应遗传算法(Improved Adaptive Genetic Algorithm简称IAGA)。在改进的算法中设计了一组随种群适应度变化的非线性交叉和变异算子,使算法易跳出局部解,寻求全局最优解能力更强。在关节空间中通过五次非均匀B样条进行插值,以运行时间为优化目标和运动学为约束条件,采用改进的算法进行寻优。寻优结果
环境的复杂色彩严重影响了火灾现场救援过程中目标识别的准确性与及时性。为此提出一种面向三种色彩模式的基于欧式距离的火灾图像偏色度量化方法。首先通过三种情景模拟火灾现场,利用相机拍摄不同时空下的火灾现场场景,同时拍摄不同时空常规现场场景,形成火灾现场偏色检测图像库;其次面向RGB、HSV、YCbCr三种色彩模式提出欧式距离法火灾图像偏色度量化方法,同时针对火灾图像基于图像库进行偏色度检测;最后,利用M
在信用卡违约预测中,信用卡数据存在有标签获取难度大和分布不均衡的问题,使得经典的数据挖掘算法分类效果不佳。针对以上问题,将深度学习中的Transformer作为编码器对原始数据进行自编码,挖掘和建模用户数据的深层信息,将编码后的向量送入传统分类模型进行分类预测,从而判断该用户是否存在违约行为。在有标签数据规模较小时,提出算法的召回率相比于传统分类算法有了显著的提升,实验结果验证了算法的有效性。
针对当前异常数据实时检测算法未考虑空间复杂度,导致异常数据检测率低,通信开销大,造成检测误报率高,运行时间长的问题,提出基于HDFS开源架构的异常数据实时检测算法。基于HDFS开源架构搭建数据分布式云存储体系,采用多级哈希表搜索算法,查询异常数据。基于支持向量机设计支持向量数据描述异常检测算法,计算最小超球体边界描述数据分布范围,依据此边界分类未知异常样本数据,利用最小闭包球算法,优化求解支持向量
DNA折纸术是一种全新的DNA自组装方法,具有可编程性、纳米可寻址性等优点,被广泛地应用于DNA计算中。利用DNA折纸术可折叠出特殊结构的特点,在DNA折纸基底上设计了一种求解可满足性问题的计算模型,该模型采用分子信标原理,通过观察荧光的明灭排除非解,从而找出可满足性问题的解。最后通过实例和模拟仿真表明了模型的可行性。
为了提高多目标任务优先级排序效率,降低软件测试的成本,满足软件测试需求,提出基于多线程的多目标任务优先级排序方法,通过多线程并发技术提高多目标演化算法的执行效率,采用融合选择函数的非支配遗传算法,设计编码、算子、个体评价,将平均故障检测率、有效执行时间设为优化目标,实现多目标任务优先级排序。实验结果表明,上述方法的多目标任务优先级排序效果最佳,收敛性好,求解目标函数的速度快,目标函数求解效率高达9
针对LSTM-CNN网络模型接收句子输入训练时间长、处理较长文本时效率低下问题,提出了一种基于跳转的LSTM-CNN模型。新的模型首先在读取文本序列时进行跳转判断,即在每一步中,利用两层感知机从前向序列、后向序列和当前单词中提取信息,确定是否跳过当前单词。然后利用LSTM分析跳转后的序列语义以及提取其特征,在CNN模型进一步提取局部特征。最后合并到较小的维度,并以正或负标签输出。相比基于LSTM-