基于SVM的中文电子邮件作者性别识别技术研究

来源 :河北农业大学 | 被引量 : 4次 | 上传用户:lxkef
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的飞速发展,网络成为人们交换、获取信息的新平台,其中电子邮件以其快捷、经济的特点,改变了传统的通信方式,成为人们重要的通信手段。电子邮件给人们带来便利的同时,也给人们提出了许多新问题,如垃圾邮件、病毒邮件、诈骗邮件、反动邮件等非法邮件泛滥的问题。这些非法邮件给社会造成的危害越来越大,如何有效遏制非法邮件的传播,惩治非法邮件的制作者已成为社会关注的热点。但要找到邮件的原始制作者,并向法庭提供有效证据,使之得到应有惩罚并不容易。因为邮件制作者可利用网络和电子邮件的特点,隐匿真实身份,通过匿名服务器发送邮件或伪造地址、更改姓名。因此,由邮件头部信息确定邮件作者的真实身份的工作很难实现。所以需要研究一种邮件作者身份的识别方法,确定邮件作者的真实身份,并为计算机取证提供依据,从而达到控制非法邮件传播的目的。如何确定邮件作者的真实身份呢?人的身份是由其个性身份特征组成的,如年龄、性别、职业、教育程度等等,所以确定邮件作者的真实身份,就要确定其个性身份特征,这样才能有效锁定邮件作者,并达到取证的目的。目前,对邮件作者身份的识别研究已有开展,并取得初步研究成果,但对作者的个性身份特征的识别还鲜有涉及。因性别是确定人身份的重要特征,且识别判定作者的性别后,可有效缩小识别范围,进一步提高邮件作者身份识别效率,为计算机取证提供技术支持,所以,本文选择识别中文电子邮件作者的性别这一研究热点,在国内外的相关研究基础上进行了研究和探索。本文首先对与本研究相关的电子邮件身份识别、作者性别识别等研究领域的国内外现状进行了论述,探讨了现有研究技术和方法。并从理论和技术的角度探讨了中文电子邮件作者性别识别的基本问题和任务模型。在详细分析中文邮件正文中性别语言差异的基础上,提出了可用于识别中文电子邮件作者性别的特征模式;在借鉴已有研究成果的基础上,对特征提取方法以及权值确定方法的进行了探讨;分析研究了利用支持向量机算法识别邮件作者性别的方法。为了验证所提出的模式和方法的正确性与可行性,本研究对有限数据集进行了实验研究。分别采用不同的特征、不同的特征组合以及综合特征等方法进行了实验。实验结果表明本研究提出的方法是可行的,但识别效果还远达不到计算机取证的要求,需进一步提高。
其他文献
Ad Hoc网络是由一组带有无线收发装置的移动终端组成的一个多跳的临时性自治系统。它具有无中心、自组织、拓扑结构动态变化和移动终端资源有限等特点。在分级结构的Ad Hoc网
集群的动态负载均衡是集群计算中的关键技术,如何提高动态负载均衡的性能,一直是集群计算研究的热点。本文研究的集群负载均衡问题,其目的就是在互联网用户数和网络流量呈几何级
多Agent系统在探索大规模分布式开放系统和理解、刻画现实世界中的许多复杂问题都有非常广泛的应用。但在基于多Agent的应用中,有一个亟待解决的困难问题,即在用户需求、Agent
今天P2P应用的带宽已经超过WWW,成为占有互联网带宽最多的部分。对等计算在产业界迅速普及的同时,研究界也及时跟进,在P2P系统的设计方法和发展方面进行了广泛而深入的研究。由
近年来,随着互联网应用的深入,网络蠕虫对计算机系统安全和网络安全的威胁日益严重。传统的基于特征匹配的蠕虫检测方法受限于蠕虫特征的获取,无法检测未知的蠕虫;现有基于行
随着越来越多的数据以XML文档进行存储,在这些数据中隐含着大量的知识信息与各类模式,因此,人们基于XML的数据挖掘应运而生。面向XML的数据挖掘包括对XML结构上的挖掘和对XML内
数据仓库的设计涉及到多个层面,如ETL过程、可操作数据源、数据仓库存储等。每个层面都会有不同的建模方法,这些方法往往只是针对单个方面提出的,这样建模制品就会缺乏一致性
随着地理信息互操作和Web服务技术的发展,WebGIS的应用也越来越普及,但同时也暴露出空间数据异构、无法跨平台等问题。目前,对于GIS开发人员来说,要创建、测试和设置结构清晰、运
随着网络时代的到来,计算机支持的网络协同工作(Computer Supported Cooperative Work,CSCW)系统己引起企业界和研究界的高度重视,而网络协同设计是CSCW的一个重要应用。工作
实时碰撞检测是机器人、动画仿真、虚拟现实等领域中一个非常关键的问题,其基本任务是确定两个或多个物体彼此之间是否发生接触或穿透。尽管针对碰撞检测已有了大量有价值的