基于文本聚类的客户细分方法研究

被引量 : 1次 | 上传用户:susame1976
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业市场的稳健发展,客户资源正成为企业最具有价值的资产。将客户细分技术用于客户偏好分析,能够为企业调整和制定合适的营销策略提供有益的帮助。近年来由于电子商务的快速发展,网络购物越加普遍。在线购物场景下,客户往往依据商家对货物的描述以及相关客户评论来判断货物的质量和特征。客户评论是广大客户对购买商品信息的反馈,更为真实的反映了客户对商品及服务的偏好。由于客户评论大多为在线式短文本数据,且易于获取,因此本文以短文本数据为研究对象,着重研究文本数据的维数约减方法和基于文本聚类的客户细分问题。本文的研究工作主要包括以下两点:(1)研究了一种改进的基于信息增益的文本降维方法,以用于客户评论数据集的筛选。针对传统信息增益方法仅考虑信息增益中评判特征词的全局重要性,本文将TFIDF(Term Frequency–Inverse Document Frequency)的思想引入信息增益,改进了传统信息增益方法没有考虑特征词的局部重要性方面的不足;进而基于这种改进的信息增益方法,通过文本聚类,以用于评估原始客户评论数据集中文本数据的可用性,实现原始客户评论数据集的有效筛选。(2)研究了基于语义的PCA(Principal Component Analysis)文本降维方法,以通过文本聚类实现客户细分。由于传统的PCA降维方法没有明确使用文本数据集中特征词语之间存在的潜在语义关联,本文借助于《同义词词林》,在合并同义词语及满足包容关系的特定词语的基础上运行PCA方法,从而使得降维后得到的新特征空间在较好表示原始空间的同时,更好的描述原始空间中特征词语之间的语义关联。进而,通过聚类分析技术实现了对客户关注属性的分析,以发现关注人群的分布情况以及不同的客户的行为偏好。
其他文献
汉代市籍作为一种国家控制手段,是一种身份凭证,具备户籍类型及性质,适用于特定人群,他们居住于“市里”,一方面有着各种限定,另一方面也可由此获得一些自己特有的权益,并很可能以其
本文采用了统计方法中的主成分分析法,通过对我国上市公司财务危机状况的实证研究,建立了上市公司财务预警模型——Y分数模型,并通过本次研究中选择的样本指标,初步确定了企
随着科技的迅猛发展,网络日益渗透到人们的工作生活中来,网络新词更是层出不穷。语言本身是流动的,是在不断发展和丰富的。网络语言的繁盛正是网络平台发展伴生的一种文化现
本文扼要综述了广泛分布在我国沿海的石莼的形态、生态、培养技术、已知成分和国内外开发利用现状。
偏离现实说话习惯,或颠倒常规语言顺序,是促使语言陌生化,增强诗歌、歌曲、散文等文体的可感性的重要手段。大量偏离语言常规的陌生化手段不仅使各类文体语言充满主观旨趣和
目的探讨美国国立卫生院卒中量表(NIHSS)评分与脑动脉狭窄部位及程度的相关性。方法选取2003年12月至2005年8月南京军区南京总医院收治的发病48h内急性脑梗死患者66例。根据
我国地域辽阔,各地发展不均衡,职业教育作为与经济发展联系最紧密的教育类型,同样处于不均衡状态。这种不均衡既存在于区域之间,也存在于区域内部。只有推进区域职业教育的均
著名的教育家叶圣陶先生曾说过:“教育是什么?往简单方面说,只需一句话,就是要培养良好的习惯。”在语文教学中,我们应培养学生哪些习惯呢?本文将做出探究。