基于微信公众号的文本分类研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:hantao2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息化的不断持续推进,科学技术开始在各个领域影响着人们的生活。在这个时代,人们每天的交流与通信产生着巨大的数据量,紧接着的互联网普及,无时无刻都存在数据洪流的涌动。数据如此之多,如何有效的将这些数据宝藏管理和利用起来,是当今信息学科研究的热点。作为自然语言处理的一个重要分支,文本分类在管理、使用、和定位海量文本信息方面所起到的作用已经显现并且应用到了人们生活中的方方面面。微信作为现代人的一个重要的生活交流软件,用户基数巨大,其中的微信公众号数量的几何式增长,引起广泛的关注。现阶段对微信公众号的研究,多针对开发或者公众号在新闻传播等方面影响力的研究。对公众号的特征和商业模式方面的研究,也有少量探索研究。微信公众号对企业而言,可以极大的丰富企业各项业务中用户画像的构建,当中的商业价值不言而喻。同时,微信公众平台中的语料信息,也其一定的特点,对于文本分类问题的研究也有一定的学术价值。本文针对微信公众号的分类做了两方面的探究:第一,每一个微信公众号往往都对应着一个具体的诸如汽车、服装等类目,而在汽车、服装这样大的类目下也普遍存在诸如SUV、豪华车、旅行车、童装、女装以及男装等小类目,构建微信公众号用户兴趣画像难点在于如何有效将测试样本分类到合适的大小类目下。利用微信公众号的账号与描述文本作为语料,结合人工预订的类目体系,运用开源工具基于逻辑斯特回归算法构建了一个可调参数的二层自适应分类模型,进行微信公众号分类预测,解决大小类目精确分类问题,实验结果表明,在适当的参数下,有较高的准确率、召回率以及F1值。第二,为了寻找进一步提高分类效果的途径,设计一种基于隐含狄利克雷分配模型(LDA)的特征权重语义加强方法。根据概率公式计算出文档-词语概率,接下来分三组分别以TF-IDF、文档-词语概率以及结合语义信息的LDA-TF-IDF作为权重,在不同的主题数下进行实验。从实验得到的效果来看,结合了语义的权重对于分类效果是有正面影响的,其中各个阀值下的效果都比单一的TF-IDF或者文档-词语概率取得更好效果。
其他文献
近年来,随着互联网技术的不断发展,互联网上所承载的数据流量出现了爆炸式的增长。为了应对新业务、新应用对网络的要求,传统网络变得越来越复杂,越来越难以适应未来的发展。
随着人工智能技术的不断发展与完善,人脸表情识别逐渐成为人工智能和人机交互领域的一个重要研究方向,具有深远的理论意义和应用前景。实现计算机的人脸表情识别将更好地推动
无线Mesh网络(Wireless Mesh Networks, WMN)是一种多跳、具有自组织和自管理能力的宽带无线网络结构,已经广泛应用到企业、校园、医院及旅游等应用领域。随着网络信息论的引
水泥水化过程是一个极为复杂的过程,水泥水化计算机模拟作为水泥材料研究的一个方面,对于研究并预测水泥性能有重大意义和实用价值,是目前科学研究的重点。美国NIST的CEMHYD3
组合分类方法己被证明是非常普遍和有效地、能够改进学习精确度的监督方法。依据同样的原理,聚类融合的目的是融合来自多个划分的结果以得到更高质量和鲁棒性的聚类结果。目
随着移动机器人领域的研究不断深入,其应用领域也不断得到推广。大规模环境下的移动机器人自主完成作业成为当前研究的热门课题,并在行星探索、军事反恐、灾难搜救等领域拥有巨
现今,计算机系统日趋复杂,对其进行有效的管理变得越来越困难。随着人们需要的日益增加,系统中会同时存在更多的应用软件,服务器,存储器等。要想有效的管理这些要素,确保可靠
随着因特网的高速发展,互联网用户不断增加,电子邮件也成为了日常生活中最普遍、最经济的通讯方式之一。由于其快捷、经济的特点,很多大型企业也将其作为内部的主要交流形式
随着科技的发展,互联网已成为人们生活、工作、学习的重要途径,很多网站、应用、服务都是以Web形式提供给用户,但是互联网的安全形势日益严峻,Web安全漏洞中CSRF漏洞较为容易
随着互联网的飞速发展,互联网已成为全世界最大的信息载体。人们对网络信息的需求量越来越大,越来越个性化,如何从海量的网络数据源中找到用户关心的数据,已成为当前Web信息检索