博客作者性别分类的研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:sun11023024
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
博客,是一种通常由个人管理、不定期张贴新的文章的网站。随着博客的快速发展,博客作为一个重要的信息源的价值也在增加。在自然语言处理方面和其他方面存在着大量的对博客的研究工作。有许多的商业公司利用博客中的信息来提供增值服务,比如博客搜索、博客主题追踪以及人们对产品和服务意见的情感分析。博客作者的性别分类是一个有许多商业应用价值的研究领域。例如,能够帮助用户找到什么主题和产品被男性和女性谈论的最多,以及什么产品和服务被男性和女性喜欢或是不喜欢,利用这些信息能够用于制作有针对性的广告与开发针对性的产品。所以,对博客作者性别分类的研究具有重要的意义。论文主要实现了博客作者的性别分类,并重点研究了如何提高博客作者性别分类的准确度,对于给定一篇博文,提取用于博客作者性别分类的特征类,利用带有课题研究得到的归并高分类能力特征的候选特征集的朴素贝叶斯分类器,能够对博文的作者进行判别归类,并且分类准确度在实验中可以达到74.49%,具体实现主要包括四部分:第一步是提取用于博客作者性别分类的特征类,课题采用的特征类为基本特征类与词性序列特征类;第二步是实现用于博客作者性别分类的特征选择方法,并利用特征选择方法选择出候选特征集,课题采用的特征选择方法是基于单个特征选择标准的特征选择方法与集成特征选择方法;第三步是结合带有候选特征集的朴素贝叶斯分类器与十折交叉验证法,从多组候选特征集中选择最优博客作者性别分类特征集;第四步是为了提高博客作者性别分类的准备度,设计并实现了归并高分类能力的候选特征集。论文采用带有候选特征集的朴素贝叶斯分类器与十折交叉验证法对博文作者性别进行分类并验证分类结果,最终得到的实验结果如下:采用加入词性序列特征的特征集,相比采用没有加入词性序列特征的特征集,分类准确度较高,为62.99%>60.59%,分类准确度提高了2.4%;采用集成特征选择方法提取的候选特征集,相比采用单个特征选择标准提取的候选特征集,分类准确度较高,分别为72.89%>67.57%,72.89%>68.19%,72.89%>70.49%,72.89%>67.26%与72.89%>66.97%,另外,采用集成特征选择方法,相比不采用任何特征选择方法直接进行性别分类,分类准确度较高,为72.89%>60.59%,分类准确度提高了12.3%;采用改进的归并高分类能力特征的候选特征集,相比采用没有改进的候选特征集,分类准确度较高,为74.49%>72.89%,分类准确度提高了1.6%。所以采用归并高分类能力特征的候选特征集,得到的分类准确度最高,为74.49%。
其他文献
21世纪信息技术的飞速发展,带动了全球信息网络化革命的迅猛发展。全球信息网络的普及与共享给人们的日常生活带来了不小的便捷。除此以外,以因特网为主体的信息高速公路已经渗
随着信息时代的深入人心与互联网技术的飞跃式发展,人们已经把从网络信息的海洋中搜寻出对自己有用的信息作为最主要的信息获取途径,互联网中的搜索服务在人们日常工作和生活
数据中心技术是云计算领域重要的组成部分。作为数据中心领域最新出现的融合型网络技术,光纤通道以太网(FCoE)技术可以提供较高的传输性能,减少网络设备的数量,并且可以保留现有的
移动终端的飞速发展掀起了一场新的社会革命,特别是智能手机应用的高速增长更是改变着现代社会人们的生活方式。从短信息、电子辞典,到移动QQ、飞信、微博、网聊,到网上购物、手
基于P2P(Peer-to-Peer)技术的网络应用是Internet最重要的应用之一。P2P网络以其文件共享和“去中心化”等特点不断引起人们的广泛关注。然而,由于P2P网络规模大、结点动态性
无线传感器网络是由大量资源受限的传感器节点组成,主要用于检测信息的目的,一般传感器节点的运算性能和存储空间大小都受限。随着科技水平的不断提升,无线传感器网络的相关
无线传感器网络(Wireless Sensor Networks, WSN)是一种在监测区域大规模的部署传感器节点,由传感器节点自组织形成的动态网络。这种全新的技术综合了无线通信,嵌入式计算及
近年来,无线传感器网络已经被应用在许多领域并成为一种重要的计算平台。无线传感器网络是由成百上千的传感器节点和-些基站组成。传感器节点可以被分成几个不相交的簇集合。
近年来,随着计算机技术与控制理论的飞速发展,移动机器人的发展受到了国内外广泛的关注。作为一种集环境识别、路径规划与运动控制为一体的高智能系统,它具有重要的科研价值
随着计算机和互联网技术的快速发展,各种计算机软、硬件系统已广泛渗透到人类生产和生活中,然而如何保证计算机系统严格按照人类设计的方式工作已成为当前计算机相关研究课题之