基于机器学习的移动社交电商分类模型研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:baiyunmtq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的迅猛发展,移动设备以及各种社交软件的广泛使用,移动社交电商成为一种新兴的电商模式。这种新兴的电商模式融合了移动设备移动性、便捷性、以及通过移动设备产生的社交性和商业性。这种新兴的社交电商模式下,电子商务不仅受到用户个人兴趣爱好的影响,还会受到社交媒体的影响,因此通过社交媒体和电子商务,研究用户的兴趣爱好,对社交媒体用户行为进行数据分析具有重要的意义。目前人们对于社交电商有一些初步的研究成果,但是仍然存在着一些需要研究解决的问题,首先就是移动社交电商数据的采集问题,需要重点研究移动社交应用数据在应用内的数据流向以及如何在移动端对第三方应用进行数采的问题。其次针对采集到的数据进行分析,由于进行数据分析的样本数量要求巨大,而且在数据样本中社交普通用户与电商用户并无分明的界限,更增加了社交电商用户分类问题的难度。另外,社交电商用户并未经过统一的注册,而且售卖的商品种类不一,如何根据用户在社交App中表现出的可利用的属性特征对社交电商用户进行分类面临前所未有的挑战。本文在对社交电商用户行为分析的基础上,对移动社交电商的分类模型进行了深入研究,取得的主要创新成果如下:(1)提出了一种基于容器的社交应用数据采集方案。该方案由静态分析和动态采集两部分组成,通过静态分析得到社交应用中潜在的用户社交应用的用户行为数据采集点,动态采集部分则基于数据采集策略文件对应用程序中产生和使用的数据在符合数据采集策略时进行数据采集。提出了一种基于静态分析和动态采集相结合的轻量级虚拟容器的动态数据采集追踪算法,实现了对Android应用的社交数据进行隐私泄露检测和数据采集。设计和开发了一个针对社交应用的数据采集容器并进行了实际应用,应用结果表明所提出的社交应用数据采集方案较好地解决了移动社交电商数据采集难以及数据样本中社交普通用户与电商用户的区分问题。(2)提出了一种基于K-means++算法的社交电商用户的聚类方法。该方法在传统电商用户分类方法研究的基础上,根据社交电商用户的特点,通过改进数据预处理和参数调优方法,针对社交电商的经营数据和软件使用数据实现社交电商的分类,筛选出软件的普通用户和活跃用户。在某社交电商用户的实际数据进行了实验验证,实验结果表明各阶层用户的留存率存在明显差异,所提方法能够准确实现社交电商用户的分类。(3)提出了一种单维度用户属性的划分方法。借助于多项式曲线拟合方法,将用户属性划分建模为多项式函数求取转折点的过程,提出了基于局部离散程度求取曲线转折点的方法,通过求取多项式曲线的转折点来划分不同层级用户。为了得到最优的用户划分,提出了一种基于区间留存率的区间合并算法来确定用户划分的层数。采用 Davies-Bouldin Index、Silhouette Coefficient 和 Calinski-Harabaz Index等指标进行对比分析,实验结果表明所提出的方法优于K-means++算法。(4)提出了一种基于NLP分类模型的方法。该方法通过对社交电商的社交内容数据进行分析,基于BERT建立深度学习模型,实现对社交电商的商业属性精准分类,实验结果表明模型的实测准确度超过了 90%。基于TensorFlow框架和边缘计算对NLP分类模型进行了实际部署,实验数据表明解析运行模型的准确性与模型在服务器端部署解析运行的准确性基本相同。设计和开发了一个微商数字化综合服务平台,集成了数据采集、传输和大数据分析等功能,基于虚拟化和RPA流程自动化技术对我们所提出的分类模型进行了实际应用,提高了移动社交电商的营销效率和精准性。
其他文献
研究背景及目的:原发性肝癌是世界第六大常见肿瘤,是导致癌症死亡的第三大原因,其中70-90%的原发性肝癌为肝细胞癌,肝切除术目前仍被视为肝细胞癌根治性治疗的一线方案。经肝动脉介入化疗栓塞治疗(TACE)可否降低术后复发,提高肝细胞癌患者总生存时间,目前仍存在较多争议。虽然TACE可使部分患者获益,但目前仍缺乏有效的生物标记物来个体化预测TACE的治疗反应率。TACE治疗后会出现急性肝功能损害、骨髓
目的基于以往研制的慢性阻塞性肺疾病患者报告结局(COPD-PRO)量表,修订形成COPD-PRO量表修订版(mCOPD-PRO)及mCOPD-PRO计算机自适应测试版并进行评价。初步提出“患者报告结局测评工具修订的一般流程”。以期为其他疾病的相关研究提供可借鉴的思路与方法。方法研究一:mCOPD-PRO的研制在前期形成的mCOPD-PRO初表基础上,采用现场调查技术进一步开展研究,基于现场调查数据
学位
在老年心脑血管病防治领域,一些生物标志物的变异性(亦称波动性)越来越受到关注,其与心脑血管病发生危险增高密切相关[1-4]。例如,血压变异性升高可显著提高脑卒中发生风险,甚至可使风险提高12倍[1]。血小板体积变异性增高可使心肌梗死和死亡的风险提高1倍[2]。心率、血糖、高敏C反应蛋白等的变异性均与严重心脑血管病的发生发展密切相关[2]。血脂是老年人心脑血管病最重要的生物标志物之一,
随着信息技术的不断发展,互联网与人类生产生活的联系愈发深入,一些与垂直行业紧密结合的新兴网络业务也随之不断涌现,这要求互联网技术能够依据各类网络业务服务质量需求,灵活地提供定制化的高质量网络服务。在这样的需求背景下,能为用户提供端到端定制化网络服务的网络切片技术应运而生,且资源分配技术是网络切片技术的关键技术之一,主要研究切片资源的优化与调度相关的问题。本论文将重点关注网络切片的资源分配技术。网络
盘古山钨矿床与西华山钨矿、岿美山钨矿和大吉山钨矿是赣南重要的四大钨矿。本文在系统搜集并总结前人研究成果基础上,针对钨矿床研究中存在的争议和不足之处,对盘古山钨矿床及外围地区开展了详细的野外地质调查、钻孔编录和室内光薄片鉴定、成岩成矿年龄测试、流体包裹体测温、稳定同位素测试、惰性气体同位素分析、岩石地球化学、矿物地球化学等研究工作,取得了如下认识:(1)盘古山钨矿床发育石英脉型钨矿、云英岩型钼矿、破
何首乌为蓼科植物何首乌(Polygonum multiflorum Thunb.)的干燥块根,具有补肝肾、益精血、乌须发之功效,是历代医家广为推崇的补益药和抗衰老药,临床应用非常广泛。其化学成分主要为二苯乙烯苷类、蒽醌类、蒽酮类等。近年来何首乌导致肝毒性问题逐渐凸显,虽然针对此问题研究广泛,但何首乌致肝毒性作用机制及毒性物质尚存争议。本研究从何首乌致肝毒性的临床特点出发,即长期口服含何首乌制剂后出
目的京尼平苷是中药栀子的主要活性成分,为小分子化合物。近年来研究表明京尼平苷具有多种生物活性,但是揭示其作用精确分子机制的研究较少。课题组前期通过虚拟筛选预测、利用亲和层析靶钓和体外细胞药物摄取实验,表明糖皮质激素受体与京尼平苷存在作用关系。但是体内二者是否存在相互作用,这一点尚不清楚。本研究旨在通过指数富集配体进化系统(Systematic Evolution of Ligands by Exp
以树突状细胞(Dentritic cell,DC)为核心的肿瘤免疫治疗是近年来研究热点之一。致敏DC疫苗的方法中,较为常用的是聚乙二醇法(Polyethylene glycol,PEG),将DC与肿瘤细胞直接融合,能表达所有已知的和未知的肿瘤抗原,从而更有效的刺激T细胞增殖活化。很多研究已证明了DC/肿瘤杂交细胞疫苗能够较好的活化CD4+T细胞和CD8+T细胞发挥抗肿瘤作用,但是临床试验并不那么理
随着移动智能设备的不断革新、短视频和直播等业务的不断普及,用户对移动数据流量的需求日益增加,而传统的无线射频通信技术面临着频谱资源紧缺及授权昂贵的问题。基于发光二极管(LED)的可见光通信(VLC)技术具有丰富且无需授权的频谱资源、通信带宽大、无常规电磁辐射和节能环保等优势,成为了一种新兴的无线光通信技术(OWC),可以兼顾照明、通信和室内定位,具有重要的研究意义和应用前景。目前VLC技术处于发展