基于微博的用户饮食特色及表达习惯分析

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zilianyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,社会媒体越来越被广泛使用,成为人们生活方式的一部分。通过社会媒体积累的数据也因而正经历着爆发性的增长。通过挖掘社会媒体文本获得信息,相比于社会学研究中传统的问卷调查方式,有着更真实、数据量大、费用低等优点,因而越来越被广泛使用。但在社会媒体文本挖掘中,传统的基于词表的方法存在准确率低的问题。针对此问题,本文提出了基于依存句法分析的方法和基于机器学习的方法,除了分词信息,还应用词性标注、句法分析等自然语言处理信息,并在饮食行为识别上进行了实验。实验证明了基于依存句法分析的方法在准确率上相比基于词表的方法有大幅提升;基于机器学习的方法则相比另两种方法准确率都高,虽然召回率要低于基于词表方法,但仍然是综合表现最佳的模型。用基于机器学习的模型,可以从大规模微博语料中识别出饮食行为,并与原微博属性对应起来。然后从性别、地区、时间三个维度对微博用户的饮食习惯特色进行分析和交叉分析,用词云的形式可视化地展现了结果。此外,还进行了针对某一食品在地区、时间的热度分布的统计,也能从一定程度描述饮食习惯特色。此外,还探索了如何分析不同用户群体的饮食表达特色。最终得到了描述不同群体饮食表达特色的几个维度,并用词云展示了关于饮食表达特色的分析结果。
其他文献
语言模型是描述自然语言内在规律的数学模型,它广泛地应用于机器翻译、语音识别和文本校对等领域。近几年,基于语料库的统计语言模型的构造技术成为新的研究热点,统计语言模
数字家庭与数字电视产业发展蓬勃,未来将形成大规模应用,成为国家经济增长支柱产业之一。中山大学承担了国家科技支撑计划项目课题及相关产品开发,共有三个子课题与视频通讯平台
模糊性是事物客观存在的一种属性。随着模糊集理论的发展,要求排序的领域也越来越广泛,专门讨论排序的文章也越来越多[43]。近些年来人们已提出了近40种有关模糊数的排序方法
文本提出了一种基于感知器的中文分词增量训练方法,可在训练好的模型基础上添加目标领域标注数据继续训练,解决了大规模切分数据难于共享,源领域与目标领域数据混合需要重新
机车周转图系统是列车运行图系统的重要组成部分,是全路列车运行提供动力组织工作的基础。随着我国经济快速发展,对铁路运输需求越来越大,传统手工编制机车周转图的方法由于质量
开发和应用复杂应用软件系统(Complex Application System,CAS)对提升政府、企业、事业单位等机构的管理水平、综合竞争力具有举足轻重的意义。这类系统通常带有服务性质,以实
数字内容的版权保护,是伴随着计算机网络和宽带内容服务的迅速发展而产生的新问题。数字版权管理的主要对象是各种数字作品和信息服务商品,以版权管理技术为基础的宽带内容服
目前,带式输送机越来越朝着长距离、高速化、大功率和能适应复杂地形的方向发展,传统的注重静态设计的带式输送机设计分析软件越来越不能满足当前市场的需求,因此研究开发一
上个世纪八十年代以来,无人机(Unmanned Aerial Vehicle)路径规划受到了各国的广泛关注。由于无人机具有结构简单,造价低廉,动力可持续、和有人驾驶飞机相比安全等特点,并能
图像是人们生活中交流最为重要的载体,也是蕴含信息量最大的媒体。数字图像的数据量非常庞大,必须经过有效的压缩才能满足数字图像的高速传输和存储。因此,图像压缩技术对信