论文部分内容阅读
【摘 要】本文阐述高校用户画像技术的现状、用户画像技术实现过程、智慧校园中用户画像技术应用场景及实践,提出用户画像技术局限及展望,认为随着人工智能技术和大数据技术的日趋成熟,用户画像技术必将大放异彩。
【关键词】智慧校园 信息化 用户画像技术
伴随着信息的爆炸高校也迎来了智慧时代,智慧校园成为高校服务的主要载体,并发挥着中流砥柱的作用。利用用户画像技术对学生个体进行描绘,从而智能分析学生的学习、就业、社交、消费等行为,为教学管理决策提供参考数据已渐成趋势。
一、智慧校园
智慧校园是单一网络接入服务向多元化功能服务方向演变的产物,其和信息化社会的发展水平息息相关,其核心功能是为师生提供高效便捷的在线服务。伴随物联网技术应用,智慧校园逐渐演化成以核心机房服务集群为核心、为自治系统内用户提供高效服务、辐射整个校园的智能化系统。在校园安保感知服务、教学云课堂服务、科研检索服务、人事管理服务等方面发挥重要作用。
智慧校园是现代化教育的重要部分,“人人皆学、处处能学、时时可学”的教育体系是未来发展的趋势,智慧校园推动人才培养模式和教学方法改革,丰富高质量教育服务供给,促进育人过程智慧化、教学管理智能化、教育服务精准化,为实现更加高效而有质量的教育提供强有力的支撑。
二、用户画像技术
用户画像技术是一种基于数据挖掘技术用于勾画目标用户的有效工具,是利用计算机技术形成的用户的虚拟代表,其在许多领域得到广泛应用。用户画像可以简单理解成是海量数据标签形成了一个任务原型。用户画像技术最先在电商领域兴起,在信息爆炸时代,用户数据充斥在网络中,电子商务网站对用户的购买行为进行分析,将用户的数据进行分类整理将其抽象成标签,许许多多的标签组成了用户的“画像”。一句话总结,用户画像技术就是用户信息标签化。
(一)标签技术
用户画像的底层是数据分析,进行用户画像绘制前,需要将学生数据进行规范化为相同维度的特征向量,这样计算机算法才可以有用武之地。对结构化数据而言,特征提取工作从给数据打标签开始。所谓标签就是学生的特点或分类,这些特点可能需要在特定的场景中呈现,每一名学生也会有诸多属性,而属性彼此之间的联系,构成标签体系。标签体系的设计有两个常见要求,一是便于检索,二是效果显著。在不同的场景下,对这两点的要求重点不同。比如,爱好、阅读、运动、心情等可能在不同场景下有不同的属性值。合适的特征标签可以让学生画像变得更丰富,能够提升学生的画像效果(颗粒度)。学生画像往往难以精准描绘一个人,因此,在为学生进行画像时除了性别、年龄、籍贯等这些有明确答案的标签,其他大多数描述标签,探讨其“准确程度”是没有意义的。标签体系的建立并不存在一劳永逸的结果,新课程、新学生、新环境的出现,需要不断地研究和调整,这是一项持续进行的实战性极强的数据分析工作。标签无法准确反馈学生画像的质量,需要研究一种方法用于判断用户画像质量。在某个标签上可以设置一个阈值结合学生在此标签上的得分来判断该学生是否属于该标签类型,随着阈值设置的不同,学生画像质量就会变化,需要研究一个曲线模型显示阈值与用户画像之间的变化关系。
从技术层面说,学生画像绘制或生成的过程比较乏味,是计算机大数据处理算法的一个体现,一个看似简单却难以把握精髓的是建立用户画像的标签体系。设计用户标签时,可以根据实际需要选择相应的算法进行标签值预测或分析。比如,可采用K近邻算法(见图1)或协调过滤算法(见图2)对数据标本进行预测以辅助标签提取,这是用户画像技术的核心。
(二)高校用户画像技术研究现状
国内高校对用户画像进行研究,常见于学业预警、行为分析、课程设置等教学管理或改革。用戶画像的目的是让管理人员比学生本身更了解学生,从而为学生提供更好的服务。用户画像技术目前尚不完善,仍处于早期阶段,整体渗透率非常低,产业生态萧条,但用户需求旺盛。
(三)用户画像技术实现过程
用户画像技术实现过程并不容易,其分析结果并不具备普适性,因此,在高校内目前仅处于探索阶段,其总体过程是对数据处理的过程(如图3所示),最终的画像是体现用户实际数据的虚拟模型。用户画像技术的生成过程大致可分为数据采集、数据入库(数据仓库)、数据预处理、标签提取、生成画像等步骤。其中数据预处理包括数据清理、数据转换、数据规范化等步骤用于确保数据的完整性和正确性,并且对不同等级和类别的数据进行规范化,使其能够在同一标准下做评比,数据的预处理过程中可根据实际情况进行算法选择。
在数据规范化后就可以对数据进行标签提取,标签分类需要人为干预或生成,并且计算其权重和维度,以便形成用户画像。标签的提取并不是一件轻松的事情,其数量繁多并且需要用户干预生成,标签的准确性影响画像的质量。在标签提取完成后,结合K近邻算法或协调过滤算法预测某些未知项的数据,并生成用户画像。
三、智慧校园中用户画像技术应用场景及实践
高校采用用户画像技术可以在选修课、学生就业、学业预警、阅览推荐等方面有针对性地施行个性化施教或管理。在选修课方面,用户画像技术可以为教学决策提供非常有价值的数据支撑,用户画像能够绘制学生的需求,结合教学资源进行适当或完全满足学生课堂之外的选修课程需求,能够极大地提高课程提供和选修需求之间的契合度;在学生就业方面,利用用户画像技术绘制市场需求和就业走向,为专业建设和人才培养提供数据支撑。甚至在生活、消费、阅读、社交、心理等各方面都可以帮助学校更好地了解学生,从而进行个性化培养,提高教育教学水平。
(一)精准资助
以智慧校园为基础的用户画像技术,在用户整体画像生成后,可以有效地实现国家四部声明的“四个精准”:对象精准、力度精准、分配精准、发放精准。有效、公平、精准地实现帮扶对象的认定,并且较好地保护学生隐私。2019年9月,西安电子科技大学利用用户画像技术对每天吃饭花费低于8元的学生进行隐形资助,既保护了学生隐私也让学生享受到补贴。在精准资助方面,用户画像技术需要对学生的一卡通消费情况进行统计,可供参考的度量指标如表1所示,利用用户画像技术,将阈值(由相关部门进行人工核定)以下的目标进行筛选,由于用户画像不一定“细腻”,可由相关部门组织人工,定期对筛选出的画像进行审核,这样实现画像和人工的双重认定,从而实现精准资助。 用户画像技术可以采用聚类和预测两种方式进行,其中聚类是需要将阈值以下的目标进行重点描绘,这是K近邻算法的应用之处;而预测则需要有固定的样本作为参考或学习,对目标对象进行技术预测,这是协调过滤(基于内容)算法的应用。
(二)学业预警
利用智慧校园的成绩管理系统和云课堂,对学生整个阶段的学习情况进行统计和分析,其中包括课堂参与度、评教、作业、考勤、在线笔记等各方面的数据进行分析,设定一定的阈值利用相应的算法进行画像描绘,对处于阈值边缘或超过阈值的学生进行针对性地关注可以有效地实现学业预警,并且能针对性地进行个性化人才培养。2018年,南宁师范大学利用智慧校园大数据描绘“学生画像”指导专业教与学,技术团队通过汇总得到学院2016级和2017级专业学生的画像统计数据并制作成云图,在优秀学科、学习方法、英语四级、就业等方面提供了非常有价值的参考数据。
在学业预警方面,用户画像技术结合云课堂技术对学生的学业情况进行统计,可供参考的度量指标有出勤、请假、迟到、旷课、作业、回答问题、实验等10余项指标,对警戒线(一般由教科处或各系部根据实际情况进行划定)周围的学生列入预警群,对列出的对象进行提前通知,以起到警示作用。
用户画像技术在学业预警方面主要以预测为主,这需要对大量的样本进行学习,并对潜在对象进行预测并进行归类。学习的标本来自教务系统历年来不合格的学生数据,对潜在对象的分类以机器学习为主,分类以“预警”和“正常”两类,对预测的对象依然需要人工审核,因为任何预测都存在不确定性。
(三)智能推荐
各高校为了提高图书借阅效率,多数都启用了智能推荐技术,结合用户画像技术可大大提高智能推荐的匹配效果,更好地提高用户体验,节约用户时间。用户借阅图书的类型、频率、及对图书的评价等因素可以形成一个标签体系,而用户并不是独立的,其与舍友、同学和同样爱好的其他用户均有着可供研究的数据,在智能推荐方面可以使用基于内容的协同过滤算法,为用户智能推荐喜欢的图书,这样可以大大提升用户借书效率。
四、用户画像技术局限及展望
众多的标签组成了用户画像,而标签来自用户的行为数据,因此,行为数据的丰富程度是关系用户画像精确与否的重要指标,通俗地说,就是更多的数据带来更多的画像精确度。但目前用户画像技术的使用尚有以下局限。
(一)无法多维度深度挖掘用户
用户画像的维度应该包括人口属性、学业需求、兴趣爱好、社交属性等其他根据环境不同所需的信息,但在实际应用中很难在短期内搜集如此全面的数据或待数据搜集完后,学生已经离开学校走向社会,因此,在多维度挖掘用户方面存在时间局限。
(二)用户信息搜集与隐私政策冲突
为了提高用户画像的精确度需要较多、准确的用户数据。常见的搜集用户信息的手段有问卷调查、座谈会、深访、观察等,但在大数据面前这些手段都收效不大,并且很多情况下用户因为个人隐私的原因不愿透露过多的信息,这是用户画像技术与隐私政策的冲突所致。
(三)用户画像粒度很难精确
用户画像的粒度也与数据息息相关,笔者通过分析用户画像来寻找差异点和优化点,但对于“20~30岁”和“21岁”两个标签来说,这是明显的不同粒度的标签,而在实际中诸如此类无法精确得到用户数据的场景比比皆是,这导致用户画像的粒度受到局限。
虽然存在众多局限性,不可否认用户画像已经在实际应用中发挥重要作用,以其为基础的“千人千面”的个性化推荐系统在互联网领域应用广泛,用户画像技术在多方数据融合的情况下将成为用户的另一张身份名片,除了在教学管理、社交分析、阅读推荐等情境下发挥作用,还可以与其他实施场景进行结合,进行针对性地引导学习,随着人工智能技术和大数据技术的日趋成熟,用户画像技术必将大放异彩。
【参考文献】
[1]王庆,赵发珍.基于“用户画像”的图书馆资源推荐模式设计与分析[J].现代情报,2018(3).
[2]张大伟.异种属性相似度在高校资助对象认定中的应用[J].信息与电脑,2020(22).
[3]JIAMTHAPTHAKSIN R,AUNG T H.User preferences profilingbased on user behaviors on Facebook page categories[C]//International Conference on Knowledge and Smart Technology.Chonburi,Thailand:IEEE,2017.
[4]周文静.面向校园论坛用户兴趣的用户画像构建方法研究[D].北京:北京邮电大学,2018.
[5]BRUSILOVSKY P,MILLAN E.User Models for adaptivehypermedia and adaptive educational systems[M]. Berlin:Springer Germany,2007.
(責编 苏 林)
【关键词】智慧校园 信息化 用户画像技术
伴随着信息的爆炸高校也迎来了智慧时代,智慧校园成为高校服务的主要载体,并发挥着中流砥柱的作用。利用用户画像技术对学生个体进行描绘,从而智能分析学生的学习、就业、社交、消费等行为,为教学管理决策提供参考数据已渐成趋势。
一、智慧校园
智慧校园是单一网络接入服务向多元化功能服务方向演变的产物,其和信息化社会的发展水平息息相关,其核心功能是为师生提供高效便捷的在线服务。伴随物联网技术应用,智慧校园逐渐演化成以核心机房服务集群为核心、为自治系统内用户提供高效服务、辐射整个校园的智能化系统。在校园安保感知服务、教学云课堂服务、科研检索服务、人事管理服务等方面发挥重要作用。
智慧校园是现代化教育的重要部分,“人人皆学、处处能学、时时可学”的教育体系是未来发展的趋势,智慧校园推动人才培养模式和教学方法改革,丰富高质量教育服务供给,促进育人过程智慧化、教学管理智能化、教育服务精准化,为实现更加高效而有质量的教育提供强有力的支撑。
二、用户画像技术
用户画像技术是一种基于数据挖掘技术用于勾画目标用户的有效工具,是利用计算机技术形成的用户的虚拟代表,其在许多领域得到广泛应用。用户画像可以简单理解成是海量数据标签形成了一个任务原型。用户画像技术最先在电商领域兴起,在信息爆炸时代,用户数据充斥在网络中,电子商务网站对用户的购买行为进行分析,将用户的数据进行分类整理将其抽象成标签,许许多多的标签组成了用户的“画像”。一句话总结,用户画像技术就是用户信息标签化。
(一)标签技术
用户画像的底层是数据分析,进行用户画像绘制前,需要将学生数据进行规范化为相同维度的特征向量,这样计算机算法才可以有用武之地。对结构化数据而言,特征提取工作从给数据打标签开始。所谓标签就是学生的特点或分类,这些特点可能需要在特定的场景中呈现,每一名学生也会有诸多属性,而属性彼此之间的联系,构成标签体系。标签体系的设计有两个常见要求,一是便于检索,二是效果显著。在不同的场景下,对这两点的要求重点不同。比如,爱好、阅读、运动、心情等可能在不同场景下有不同的属性值。合适的特征标签可以让学生画像变得更丰富,能够提升学生的画像效果(颗粒度)。学生画像往往难以精准描绘一个人,因此,在为学生进行画像时除了性别、年龄、籍贯等这些有明确答案的标签,其他大多数描述标签,探讨其“准确程度”是没有意义的。标签体系的建立并不存在一劳永逸的结果,新课程、新学生、新环境的出现,需要不断地研究和调整,这是一项持续进行的实战性极强的数据分析工作。标签无法准确反馈学生画像的质量,需要研究一种方法用于判断用户画像质量。在某个标签上可以设置一个阈值结合学生在此标签上的得分来判断该学生是否属于该标签类型,随着阈值设置的不同,学生画像质量就会变化,需要研究一个曲线模型显示阈值与用户画像之间的变化关系。
从技术层面说,学生画像绘制或生成的过程比较乏味,是计算机大数据处理算法的一个体现,一个看似简单却难以把握精髓的是建立用户画像的标签体系。设计用户标签时,可以根据实际需要选择相应的算法进行标签值预测或分析。比如,可采用K近邻算法(见图1)或协调过滤算法(见图2)对数据标本进行预测以辅助标签提取,这是用户画像技术的核心。
(二)高校用户画像技术研究现状
国内高校对用户画像进行研究,常见于学业预警、行为分析、课程设置等教学管理或改革。用戶画像的目的是让管理人员比学生本身更了解学生,从而为学生提供更好的服务。用户画像技术目前尚不完善,仍处于早期阶段,整体渗透率非常低,产业生态萧条,但用户需求旺盛。
(三)用户画像技术实现过程
用户画像技术实现过程并不容易,其分析结果并不具备普适性,因此,在高校内目前仅处于探索阶段,其总体过程是对数据处理的过程(如图3所示),最终的画像是体现用户实际数据的虚拟模型。用户画像技术的生成过程大致可分为数据采集、数据入库(数据仓库)、数据预处理、标签提取、生成画像等步骤。其中数据预处理包括数据清理、数据转换、数据规范化等步骤用于确保数据的完整性和正确性,并且对不同等级和类别的数据进行规范化,使其能够在同一标准下做评比,数据的预处理过程中可根据实际情况进行算法选择。
在数据规范化后就可以对数据进行标签提取,标签分类需要人为干预或生成,并且计算其权重和维度,以便形成用户画像。标签的提取并不是一件轻松的事情,其数量繁多并且需要用户干预生成,标签的准确性影响画像的质量。在标签提取完成后,结合K近邻算法或协调过滤算法预测某些未知项的数据,并生成用户画像。
三、智慧校园中用户画像技术应用场景及实践
高校采用用户画像技术可以在选修课、学生就业、学业预警、阅览推荐等方面有针对性地施行个性化施教或管理。在选修课方面,用户画像技术可以为教学决策提供非常有价值的数据支撑,用户画像能够绘制学生的需求,结合教学资源进行适当或完全满足学生课堂之外的选修课程需求,能够极大地提高课程提供和选修需求之间的契合度;在学生就业方面,利用用户画像技术绘制市场需求和就业走向,为专业建设和人才培养提供数据支撑。甚至在生活、消费、阅读、社交、心理等各方面都可以帮助学校更好地了解学生,从而进行个性化培养,提高教育教学水平。
(一)精准资助
以智慧校园为基础的用户画像技术,在用户整体画像生成后,可以有效地实现国家四部声明的“四个精准”:对象精准、力度精准、分配精准、发放精准。有效、公平、精准地实现帮扶对象的认定,并且较好地保护学生隐私。2019年9月,西安电子科技大学利用用户画像技术对每天吃饭花费低于8元的学生进行隐形资助,既保护了学生隐私也让学生享受到补贴。在精准资助方面,用户画像技术需要对学生的一卡通消费情况进行统计,可供参考的度量指标如表1所示,利用用户画像技术,将阈值(由相关部门进行人工核定)以下的目标进行筛选,由于用户画像不一定“细腻”,可由相关部门组织人工,定期对筛选出的画像进行审核,这样实现画像和人工的双重认定,从而实现精准资助。 用户画像技术可以采用聚类和预测两种方式进行,其中聚类是需要将阈值以下的目标进行重点描绘,这是K近邻算法的应用之处;而预测则需要有固定的样本作为参考或学习,对目标对象进行技术预测,这是协调过滤(基于内容)算法的应用。
(二)学业预警
利用智慧校园的成绩管理系统和云课堂,对学生整个阶段的学习情况进行统计和分析,其中包括课堂参与度、评教、作业、考勤、在线笔记等各方面的数据进行分析,设定一定的阈值利用相应的算法进行画像描绘,对处于阈值边缘或超过阈值的学生进行针对性地关注可以有效地实现学业预警,并且能针对性地进行个性化人才培养。2018年,南宁师范大学利用智慧校园大数据描绘“学生画像”指导专业教与学,技术团队通过汇总得到学院2016级和2017级专业学生的画像统计数据并制作成云图,在优秀学科、学习方法、英语四级、就业等方面提供了非常有价值的参考数据。
在学业预警方面,用户画像技术结合云课堂技术对学生的学业情况进行统计,可供参考的度量指标有出勤、请假、迟到、旷课、作业、回答问题、实验等10余项指标,对警戒线(一般由教科处或各系部根据实际情况进行划定)周围的学生列入预警群,对列出的对象进行提前通知,以起到警示作用。
用户画像技术在学业预警方面主要以预测为主,这需要对大量的样本进行学习,并对潜在对象进行预测并进行归类。学习的标本来自教务系统历年来不合格的学生数据,对潜在对象的分类以机器学习为主,分类以“预警”和“正常”两类,对预测的对象依然需要人工审核,因为任何预测都存在不确定性。
(三)智能推荐
各高校为了提高图书借阅效率,多数都启用了智能推荐技术,结合用户画像技术可大大提高智能推荐的匹配效果,更好地提高用户体验,节约用户时间。用户借阅图书的类型、频率、及对图书的评价等因素可以形成一个标签体系,而用户并不是独立的,其与舍友、同学和同样爱好的其他用户均有着可供研究的数据,在智能推荐方面可以使用基于内容的协同过滤算法,为用户智能推荐喜欢的图书,这样可以大大提升用户借书效率。
四、用户画像技术局限及展望
众多的标签组成了用户画像,而标签来自用户的行为数据,因此,行为数据的丰富程度是关系用户画像精确与否的重要指标,通俗地说,就是更多的数据带来更多的画像精确度。但目前用户画像技术的使用尚有以下局限。
(一)无法多维度深度挖掘用户
用户画像的维度应该包括人口属性、学业需求、兴趣爱好、社交属性等其他根据环境不同所需的信息,但在实际应用中很难在短期内搜集如此全面的数据或待数据搜集完后,学生已经离开学校走向社会,因此,在多维度挖掘用户方面存在时间局限。
(二)用户信息搜集与隐私政策冲突
为了提高用户画像的精确度需要较多、准确的用户数据。常见的搜集用户信息的手段有问卷调查、座谈会、深访、观察等,但在大数据面前这些手段都收效不大,并且很多情况下用户因为个人隐私的原因不愿透露过多的信息,这是用户画像技术与隐私政策的冲突所致。
(三)用户画像粒度很难精确
用户画像的粒度也与数据息息相关,笔者通过分析用户画像来寻找差异点和优化点,但对于“20~30岁”和“21岁”两个标签来说,这是明显的不同粒度的标签,而在实际中诸如此类无法精确得到用户数据的场景比比皆是,这导致用户画像的粒度受到局限。
虽然存在众多局限性,不可否认用户画像已经在实际应用中发挥重要作用,以其为基础的“千人千面”的个性化推荐系统在互联网领域应用广泛,用户画像技术在多方数据融合的情况下将成为用户的另一张身份名片,除了在教学管理、社交分析、阅读推荐等情境下发挥作用,还可以与其他实施场景进行结合,进行针对性地引导学习,随着人工智能技术和大数据技术的日趋成熟,用户画像技术必将大放异彩。
【参考文献】
[1]王庆,赵发珍.基于“用户画像”的图书馆资源推荐模式设计与分析[J].现代情报,2018(3).
[2]张大伟.异种属性相似度在高校资助对象认定中的应用[J].信息与电脑,2020(22).
[3]JIAMTHAPTHAKSIN R,AUNG T H.User preferences profilingbased on user behaviors on Facebook page categories[C]//International Conference on Knowledge and Smart Technology.Chonburi,Thailand:IEEE,2017.
[4]周文静.面向校园论坛用户兴趣的用户画像构建方法研究[D].北京:北京邮电大学,2018.
[5]BRUSILOVSKY P,MILLAN E.User Models for adaptivehypermedia and adaptive educational systems[M]. Berlin:Springer Germany,2007.
(責编 苏 林)