面向社会化媒体用户评论行为的属性推断

来源 :山东大学 | 被引量 : 0次 | 上传用户:bbcat1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会化媒体平台是指为用户提供评论、投票、反馈、分享等功能的在线媒体,像凤凰网等新闻网站、亚马逊和淘宝等电商网站、豆瓣等电影评论网站。用户网络评论是社会舆论的一种表现形式,具有公开性和可用性特点,群体意见为其他用户在决定购买产品或使用服务的时候提供了参考。理解用户评论行为进行属性推断,可以帮助企业、机构、政府等提高服务质量,用于个性化推荐、市场营销等,具有重要应用价值。然而社会化媒体用户多为匿名身份,其评论行为数据具有碎片化、信息价值含量低和不平衡的特点,且用户群体的属性分布严重不均衡,这些问题给用户属性推断带来挑战。针对用户评论行为数据分布不平衡、噪音和碎片化的问题,本文引入客体信息、环境信息,作为对用户评论行为数量少的补充信息,辅助用户特征建模;结合基于语义知识库的层次化语义建模方法和基于词向量模型学习词向量的文本挖掘方法深度挖掘用户评论,分别从全局的角度和局部的角度消除词语歧义带来的不良影响,并保留评论中潜在的语义关系,从而达到深度挖掘用户评论潜在的语义特征的目的。针对建模后的用户特征维度大,碎片化数据价值含量低等问题,基于信息增益度量特征重要性,提出两种代表性概率特征筛选算法的改进策略:概率包裹式特征选择算法和启发式概率特征搜索算法,分别在分类学习前和迭代式学习过程中进行概率特征选择,既保留了重要特征信息,也给低价值特征提供小概率选择机会,筛选密切相关特征,以降低搜索空间,提高收敛速度和学习效果。针对用户属性不均衡问题,提出了面向小比例类型数据的差异性特征选择和迭代式增强学习算法,集成多个特征相关的分类器,考虑不同特征组合和分类器适用性的同时,使得集成之后的分类器注重更容易分错的小比例类型数据的学习,能够有效提高用户属性分类学习的准确率。分别使用真实的中文和英文数据集验证本文方法,包括不同的行为建模方式和特征筛选方法对属性推断的影响,以及不同参数和用户属性分布不平衡问题对属性推断的影响,并和其他方法进行了对比,实验结果表明本文方法的有效性。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议
一、挂失止讨的程产我国票据法规定的失票救济方法之一的挂失止付,是指票据丧失后,失票人将票据丧失的情况告知付款人,并请求付款人在止付有效期间内对挂失的票据不手付款,从而暂
医疗卫生体制改革的深入、医疗资源的重组整合以及社区医疗卫生服务模式的创新,一方面使医疗机构的运行管理模式发生了变化,也对医疗机构现有的信息系统提出了更高的要求。例
今年,中国保监会决定全面试行《保险公司最低偿付能力及监管指标管理规定》,分别确定了各类公司的最低偿付标准,并对保险公司财务、资金运用、投资收益等方面设立了监管指标值,最
将市售活性炭经过硝酸、过氧化氢及不同温度进行处理后用于苯的羟基化反应,并研究了活性炭催化苯羟基化反应机理.用Boehm滴定,N2吸附-脱附及X射线光电子能谱对活性炭进行了表
<正>"新文创"作为新商业的一个组成部分或者说是市场要素,为新商业提供了改变消费关系的要素资源,即IP。与此同时,新商业又为"新文创"提供了IP商业价值放大和循环的环境。从
期刊
1851年在伦敦海德公园内建成了一座伟大的建筑——水晶宫,这座玻璃与钢铁建造的建筑物成功地预示了20世纪建筑的发展。创新无疑是这座建筑最大的特征,这个建筑作品表现出鲜明
“近年来,婚姻家庭纠纷案件始终保持高位运行,据不完全统计,2013年至2015年10月底,全国法院审结婚姻家庭纠纷案件近400万件,且逐渐呈现出案件增幅快、适用法律难、审理难度大的特
报纸
当前,我国已进入人口老龄化快速发展阶段,长期护理风险已从家庭风险转变为社会风险,长期护理服务需求迅速增加,但护理服务供给严重不足。不断满足老年人持续增长的养老服务需
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield