论文部分内容阅读
随着科技的飞速发展,网络成为人们交换、获取信息的新平台,其中电子邮件以其快捷、经济的特点,改变了传统的通信方式,成为人们重要的通信手段。电子邮件给人们带来便利的同时,也给人们提出了许多新问题,如垃圾邮件、病毒邮件、诈骗邮件、反动邮件等非法邮件泛滥的问题。这些非法邮件给社会造成的危害越来越大,如何有效遏制非法邮件的传播,惩治非法邮件的制作者已成为社会关注的热点。但要找到邮件的原始制作者,并向法庭提供有效证据,使之得到应有惩罚并不容易。因为邮件制作者可利用网络和电子邮件的特点,隐匿真实身份,通过匿名服务器发送邮件或伪造地址、更改姓名。因此,由邮件头部信息确定邮件作者的真实身份的工作很难实现。所以需要研究一种邮件作者身份的识别方法,确定邮件作者的真实身份,并为计算机取证提供依据,从而达到控制非法邮件传播的目的。如何确定邮件作者的真实身份呢?人的身份是由其个性身份特征组成的,如年龄、性别、职业、教育程度等等,所以确定邮件作者的真实身份,就要确定其个性身份特征,这样才能有效锁定邮件作者,并达到取证的目的。目前,对邮件作者身份的识别研究已有开展,并取得初步研究成果,但对作者的个性身份特征的识别还鲜有涉及。因性别是确定人身份的重要特征,且识别判定作者的性别后,可有效缩小识别范围,进一步提高邮件作者身份识别效率,为计算机取证提供技术支持,所以,本文选择识别中文电子邮件作者的性别这一研究热点,在国内外的相关研究基础上进行了研究和探索。本文首先对与本研究相关的电子邮件身份识别、作者性别识别等研究领域的国内外现状进行了论述,探讨了现有研究技术和方法。并从理论和技术的角度探讨了中文电子邮件作者性别识别的基本问题和任务模型。在详细分析中文邮件正文中性别语言差异的基础上,提出了可用于识别中文电子邮件作者性别的特征模式;在借鉴已有研究成果的基础上,对特征提取方法以及权值确定方法的进行了探讨;分析研究了利用支持向量机算法识别邮件作者性别的方法。为了验证所提出的模式和方法的正确性与可行性,本研究对有限数据集进行了实验研究。分别采用不同的特征、不同的特征组合以及综合特征等方法进行了实验。实验结果表明本研究提出的方法是可行的,但识别效果还远达不到计算机取证的要求,需进一步提高。