论文部分内容阅读
博客,是一种通常由个人管理、不定期张贴新的文章的网站。随着博客的快速发展,博客作为一个重要的信息源的价值也在增加。在自然语言处理方面和其他方面存在着大量的对博客的研究工作。有许多的商业公司利用博客中的信息来提供增值服务,比如博客搜索、博客主题追踪以及人们对产品和服务意见的情感分析。博客作者的性别分类是一个有许多商业应用价值的研究领域。例如,能够帮助用户找到什么主题和产品被男性和女性谈论的最多,以及什么产品和服务被男性和女性喜欢或是不喜欢,利用这些信息能够用于制作有针对性的广告与开发针对性的产品。所以,对博客作者性别分类的研究具有重要的意义。论文主要实现了博客作者的性别分类,并重点研究了如何提高博客作者性别分类的准确度,对于给定一篇博文,提取用于博客作者性别分类的特征类,利用带有课题研究得到的归并高分类能力特征的候选特征集的朴素贝叶斯分类器,能够对博文的作者进行判别归类,并且分类准确度在实验中可以达到74.49%,具体实现主要包括四部分:第一步是提取用于博客作者性别分类的特征类,课题采用的特征类为基本特征类与词性序列特征类;第二步是实现用于博客作者性别分类的特征选择方法,并利用特征选择方法选择出候选特征集,课题采用的特征选择方法是基于单个特征选择标准的特征选择方法与集成特征选择方法;第三步是结合带有候选特征集的朴素贝叶斯分类器与十折交叉验证法,从多组候选特征集中选择最优博客作者性别分类特征集;第四步是为了提高博客作者性别分类的准备度,设计并实现了归并高分类能力的候选特征集。论文采用带有候选特征集的朴素贝叶斯分类器与十折交叉验证法对博文作者性别进行分类并验证分类结果,最终得到的实验结果如下:采用加入词性序列特征的特征集,相比采用没有加入词性序列特征的特征集,分类准确度较高,为62.99%>60.59%,分类准确度提高了2.4%;采用集成特征选择方法提取的候选特征集,相比采用单个特征选择标准提取的候选特征集,分类准确度较高,分别为72.89%>67.57%,72.89%>68.19%,72.89%>70.49%,72.89%>67.26%与72.89%>66.97%,另外,采用集成特征选择方法,相比不采用任何特征选择方法直接进行性别分类,分类准确度较高,为72.89%>60.59%,分类准确度提高了12.3%;采用改进的归并高分类能力特征的候选特征集,相比采用没有改进的候选特征集,分类准确度较高,为74.49%>72.89%,分类准确度提高了1.6%。所以采用归并高分类能力特征的候选特征集,得到的分类准确度最高,为74.49%。