论文部分内容阅读
伴随着信息化的不断持续推进,科学技术开始在各个领域影响着人们的生活。在这个时代,人们每天的交流与通信产生着巨大的数据量,紧接着的互联网普及,无时无刻都存在数据洪流的涌动。数据如此之多,如何有效的将这些数据宝藏管理和利用起来,是当今信息学科研究的热点。作为自然语言处理的一个重要分支,文本分类在管理、使用、和定位海量文本信息方面所起到的作用已经显现并且应用到了人们生活中的方方面面。微信作为现代人的一个重要的生活交流软件,用户基数巨大,其中的微信公众号数量的几何式增长,引起广泛的关注。现阶段对微信公众号的研究,多针对开发或者公众号在新闻传播等方面影响力的研究。对公众号的特征和商业模式方面的研究,也有少量探索研究。微信公众号对企业而言,可以极大的丰富企业各项业务中用户画像的构建,当中的商业价值不言而喻。同时,微信公众平台中的语料信息,也其一定的特点,对于文本分类问题的研究也有一定的学术价值。本文针对微信公众号的分类做了两方面的探究:第一,每一个微信公众号往往都对应着一个具体的诸如汽车、服装等类目,而在汽车、服装这样大的类目下也普遍存在诸如SUV、豪华车、旅行车、童装、女装以及男装等小类目,构建微信公众号用户兴趣画像难点在于如何有效将测试样本分类到合适的大小类目下。利用微信公众号的账号与描述文本作为语料,结合人工预订的类目体系,运用开源工具基于逻辑斯特回归算法构建了一个可调参数的二层自适应分类模型,进行微信公众号分类预测,解决大小类目精确分类问题,实验结果表明,在适当的参数下,有较高的准确率、召回率以及F1值。第二,为了寻找进一步提高分类效果的途径,设计一种基于隐含狄利克雷分配模型(LDA)的特征权重语义加强方法。根据概率公式计算出文档-词语概率,接下来分三组分别以TF-IDF、文档-词语概率以及结合语义信息的LDA-TF-IDF作为权重,在不同的主题数下进行实验。从实验得到的效果来看,结合了语义的权重对于分类效果是有正面影响的,其中各个阀值下的效果都比单一的TF-IDF或者文档-词语概率取得更好效果。