论文部分内容阅读
摘要:电子邮件欺骗是最常见的电子邮件攻击类型,其攻击及检测是电子邮件取证研究中一个具有挑战性的问题。提出利用内存取证技术来获取浏览器的实时进程提取电子邮件头进行分析,采用Message-ID检测,结合nslookup查询提取MX记录来检测和识别用户收到的伪造电子邮件。实验测试和分析结果表明,可以有效检测电子邮件欺骗,精度高、误报少,并且不会中断机器的常规操作。
关键词:电子邮件欺骗;内存取证;Message-ID;MX记录
中图分类号:TP393文献标志码:A文章编号:1008-1739(2021)17-57-4
0引言
在如今的数字时代,无论是在官方还是个人互动中,电子邮件都是日常交流的重要组成部分。电子邮件的保护和安全是一个具有挑战性的命题[1],因为简单邮件传输协议(SMTP)用于在邮件服务器之间进行邮件传输,传统上是不安全的,所以电子邮件容易受到主动形式和被动形式的攻击。电子邮件欺骗是最常见的电子邮件攻击类型,通过操纵发件人的电子邮件地址来创建伪造邮件的过程,使得收件人误认为原始电子邮件来自真正的发件人。
目前,研究人员已经提出了各种方法来应对电子邮件欺骗带来的挑战,其中包括对电子邮件头字段的时间和日期分析[2-3]、邮件内容分析[4]、欺骗对策技术、基于SSL协议的反欺骗应用[5]及电子邮件跟踪器等。
本文提出的系统利用内存取证技术,通过获取测试机上正在运行的浏览器进程,并提取电子邮件头进行分析,采用Message-ID检测,结合nslookup查询提取MX记录匹配来检测和识别电子邮件欺骗攻击。
1内存取证技术
内存取证作为计算机取证科学的重要分支,是指从计算机物理内存和页面交换文件中查找、提取、分析易失性内存数据,是对传统基于文件系统取证的重要补充,是对抗网络攻击或网络犯罪的有力武器[6]。在内存取证之前,需先对操作系统内存进行转储,获取到的重要数据可作为证据,帮助取证分析人员侦破网络犯罪或其他形式的网络攻击[7]。
将内存取证技术应用于电子邮件欺骗的检测[8],获取客户端的内存转储来分析和识别伪造的电子邮件[9],这种方法确实保证了不可否认性,但是依赖于内存大小。如果测试系统的内存很大,整个过程需要大量的时间、存储空间和其他资源来完成任务。故提出的方法只能获取浏览器的进程,而不是完整的内存转储,减少了获取时间、存储需求和系统资源的利用率,由于该方法不涉及完整的内存转储,因此独立于硬件。
2设计与实现
本文提出的方法是定期在用户计算机上监测,当用户打开收件箱查看电子邮件,会导致电子邮件被加载到计算机内存中。从实时内存中获取所有当前运行的浏览器进程,并提取电子邮件头,将提取的头字段进行匹配,以识别真正的和伪造的电子邮件。创建一个日志文件,其中包含所有已识别的伪造电子邮件列表。
2.1工作流程
系统工作操作步骤如下:
①用户打开电子邮件阅读,电子邮件被加载到内存中。
②在实时内存中获取所有与浏览器相关联的进程,并保存在辅助存储器中。
③STRINGS64的运行是为了扫描和提取ASCII和UNICODE字符串。
④文件经过过滤,提取出邮件头,存储在一个单独的文件中。
⑤文件头用作算法中的输入数据集,以检测伪造电子邮件。
⑥所有检测到的伪造电子邮件都将作为记录存储在单独的日志文件中。
2.2提取电子邮件头
2.2.1获取实时进程
使用Magnets Process Capturing工具捕获与电子邮件相关的实时进程。该工具易于安装、运行速度快、获取的进程规模小、易于存储在辅助设备上,可以选择在设定的时间间隔获取指定的进程。由于很难从所有浏览器运行的进程中识别出确切的进程,所以选择获取所有当前运行的浏览器进程。
2.2.2提取邮件头
利用Microsoft Strings64工具扫描获取进程转储文件,并将默认长度为3个或更多字符的ASCII和UNICODE字符串作为输出,存储在一个文件中。然后,通过Findstr Search命令从上述步骤的输出文件中提取邮件头,并将该数据作为检测电子邮件欺骗算法的输入。
2.3检测算法
通过电子邮件的通信遵循RFC 822的标准格式,电子邮件中的任何欺骗攻击检测都是基于对电子邮件头的分析,常见且重要的邮件头字段如表1所示。
为了正确检测伪造电子邮件,采用了以下检测方法:
①Message-ID检测:从邮件头中选择From和Message-ID这2个基本的头字段。然后将Message-ID字段的域名与From字段的域名进行比较。该匹配对于建立电子邮件的完整性和真实性至关重要,两字段域名互相匹配如图1所示,两字段域名不匹配如图2所示。
②MX记录匹配:当一封真正的电子邮件Form字段域和Message-ID域匹配失败时,基于Message-ID的方法就会失败。通过实验测试发现,向电子邮件服务提供商雇佣或外包电子邮件服务的组织在Message-ID匹配方面失败。比如G-suite,如果一個组织通过Google切换到G-suite,其邮件仍然会保留其父组织的域,但是由发送邮件的服务器生成的Message-ID会有Google域。当此域名与发件人域名相比较时,将显示为一封伪造的真实电子邮件。通过使用基于MX记录的匹配,克服了这种基于Message-ID检测的局限性。 MX记录将电子邮件定向到邮件服务器。DNS中存在的资源记录用于指定邮件服务器,该服务器将负责接收特定域的电子邮件。这些信息可以通过向DNS进行正向nslookup查询并存储MX记录以进行域名匹配来提取。从域名系统获取的典型MX记录如图3所示。
由于从MX记录中获得的域名不能被操纵,而是从DNS服务器上获取的,所以可以视为一个可靠的信息来源。
本文提出的算法首先读取进程转储的头文件,提取并比较From和Message-ID字段,以验证二者是否具有相同的域名。如果域名匹配,则认为是真实邮件。如果不是,则进行nslookup查询从DNS服务器获取MX记录,MX记录中的域名与Message-ID字段的域相匹配。如果匹配成功,认为这是一封真正的电子邮件;如果匹配失败,就确认是该伪造的电子邮件并将From和Message-ID值写入一个单独的日志文件。
为了进一步加快检测过程并减少获取记录的时间延迟,维护了MX记录的本地数据库。该算法首先向本地数据库查询MX记录,如果没有找到,则查询域名系统,并将该值存储在本地数据库中。
3实验测试与分析
3.1实验环境
实验在Windows10操作系统上使用Chrome浏览器来完成,硬件配置如表2所示。
测试中用户同时收到了真伪2种类型的电子邮件,从常见和流行的电子邮件应用发送了真实的电子邮件,通过提供匿名电子邮件服务网站向我的电子邮件ID发送了伪造的电子邮件。真实的邮件由Gamil,Yahoo,Rediffmail三种流行的电子邮件服务发送,伪造的电子邮件由Anonymailer发送。
3.2性能测试
通过Accuracy和F1-Score两个指标来评估本文提出方法的性能,参数包括邮件的真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)。
使用3个案例场景进行测试,案例1发送了所有真实的电子邮件;案例2发送了所有伪造的电子邮件;案例3发送了二者都包含的混合邮件。对于这3种情况,本文提出方法的性能指标分析如表3所示。
由表3可以看到,本文方法在真伪邮件各占比50%的情况下Accuracy和F1-Score分别为98.04%和99.01%,说明准确率还是非常高的,当全部为欺骗邮件时,Accuracy和F1-Score分别为96.15%和99.01%,说明误报率比较低。
3.3开销分析
开销分析是通过考虑系统资源利用率、处理开销和时间来进行的,测试数据包括中央处理器利用率、内存利用率和磁盘利用率的平均值,以及程序执行过程中所用的时间,如图4所示。
由图4可以看到,从获取进程内存转储到检测电子邮件欺骗并将其保存到日志文件的整个过程大约需要1 min,而相关的资源开销比较低。
4结束语
内存取证技术保证了用户在物理内存中的操作得以复现,本文利用内存取证技术来获取浏览器的实时进程,提取电子邮件头进行分析,采用Message-ID检测,结合nslookup查询提取MX记录来检测和识别电子邮件欺骗。实验测试和分析结果表明,本文方法可以有效检测电子邮件欺骗,精度高、误报少,而开销、资源消耗和对用户系统正常运行的干扰小,并且不会中断机器的常规操作。
本文方法只在基于网络的电子邮件系统上测试了电子邮件欺骗,未来的工作将是扩展和包括电子邮件客户端应用程序,如Outlook和Thunderbird的检测。另外,为了进一步减少检测时间,需要识别与电子邮件相关的浏览器的确切过程。
参考文献
[1]张如旭.2021电子邮件安全的五大趋势[J].计算机与网络, 2021,47(1):52-53.
[2] KOVEN J, BERTINI E, DUBOIS L,et al. InVest:Intelligent Visual Email Search and Triage[J]. Digtial Investigation, 2016,18(6): S138-S148.
[3] SZDE Y. Covert Communication by Means of Email Spam: A Challenge for Digital Investigation[J]. Digtial Investigation, 2015,13(6):72-79.
[4]刘奇伟.电子邮件真实性技术分析[J].计算機与网络, 2015,41(2):70-72.
[5] HU Hang, PENG Peng, WANG Gang. Towards Understanding the Adoption of Anti-spoofing Protocols in Email Systems[C]//Proceedings of 2018 IEEE Cyber Security Development Conference. Cambridge: IEEE, 2018:94-101.
[6]张瑜,刘庆中,李涛,等.内存取证研究与进展[J].软件学报, 2015,26(5):1151-1172.
[7] RAYMOND L. A Multidisciplinary Digital Forensic Investigation Process Model[J]. Business Horizons, 2016,59(6):593-604.
[8] PARRA B, VEGETTI M ,LEONE H. Advances in the Application of Ontologies in the Area of Digtial Forensic Electronic Mail[J]. IEEE Latin America Transactions,2019,17(10):1694-1705.
[9] JAY K, CRISTIAN F,HOSSEIN S. Lessons Learned Developing a Visual Analytics Solution for Investigative Analysis of Scamming Activities[J].IEEE Transactions on Visualization and Computer Graphics,2019,25(1): 225-234.
关键词:电子邮件欺骗;内存取证;Message-ID;MX记录
中图分类号:TP393文献标志码:A文章编号:1008-1739(2021)17-57-4
0引言
在如今的数字时代,无论是在官方还是个人互动中,电子邮件都是日常交流的重要组成部分。电子邮件的保护和安全是一个具有挑战性的命题[1],因为简单邮件传输协议(SMTP)用于在邮件服务器之间进行邮件传输,传统上是不安全的,所以电子邮件容易受到主动形式和被动形式的攻击。电子邮件欺骗是最常见的电子邮件攻击类型,通过操纵发件人的电子邮件地址来创建伪造邮件的过程,使得收件人误认为原始电子邮件来自真正的发件人。
目前,研究人员已经提出了各种方法来应对电子邮件欺骗带来的挑战,其中包括对电子邮件头字段的时间和日期分析[2-3]、邮件内容分析[4]、欺骗对策技术、基于SSL协议的反欺骗应用[5]及电子邮件跟踪器等。
本文提出的系统利用内存取证技术,通过获取测试机上正在运行的浏览器进程,并提取电子邮件头进行分析,采用Message-ID检测,结合nslookup查询提取MX记录匹配来检测和识别电子邮件欺骗攻击。
1内存取证技术
内存取证作为计算机取证科学的重要分支,是指从计算机物理内存和页面交换文件中查找、提取、分析易失性内存数据,是对传统基于文件系统取证的重要补充,是对抗网络攻击或网络犯罪的有力武器[6]。在内存取证之前,需先对操作系统内存进行转储,获取到的重要数据可作为证据,帮助取证分析人员侦破网络犯罪或其他形式的网络攻击[7]。
将内存取证技术应用于电子邮件欺骗的检测[8],获取客户端的内存转储来分析和识别伪造的电子邮件[9],这种方法确实保证了不可否认性,但是依赖于内存大小。如果测试系统的内存很大,整个过程需要大量的时间、存储空间和其他资源来完成任务。故提出的方法只能获取浏览器的进程,而不是完整的内存转储,减少了获取时间、存储需求和系统资源的利用率,由于该方法不涉及完整的内存转储,因此独立于硬件。
2设计与实现
本文提出的方法是定期在用户计算机上监测,当用户打开收件箱查看电子邮件,会导致电子邮件被加载到计算机内存中。从实时内存中获取所有当前运行的浏览器进程,并提取电子邮件头,将提取的头字段进行匹配,以识别真正的和伪造的电子邮件。创建一个日志文件,其中包含所有已识别的伪造电子邮件列表。
2.1工作流程
系统工作操作步骤如下:
①用户打开电子邮件阅读,电子邮件被加载到内存中。
②在实时内存中获取所有与浏览器相关联的进程,并保存在辅助存储器中。
③STRINGS64的运行是为了扫描和提取ASCII和UNICODE字符串。
④文件经过过滤,提取出邮件头,存储在一个单独的文件中。
⑤文件头用作算法中的输入数据集,以检测伪造电子邮件。
⑥所有检测到的伪造电子邮件都将作为记录存储在单独的日志文件中。
2.2提取电子邮件头
2.2.1获取实时进程
使用Magnets Process Capturing工具捕获与电子邮件相关的实时进程。该工具易于安装、运行速度快、获取的进程规模小、易于存储在辅助设备上,可以选择在设定的时间间隔获取指定的进程。由于很难从所有浏览器运行的进程中识别出确切的进程,所以选择获取所有当前运行的浏览器进程。
2.2.2提取邮件头
利用Microsoft Strings64工具扫描获取进程转储文件,并将默认长度为3个或更多字符的ASCII和UNICODE字符串作为输出,存储在一个文件中。然后,通过Findstr Search命令从上述步骤的输出文件中提取邮件头,并将该数据作为检测电子邮件欺骗算法的输入。
2.3检测算法
通过电子邮件的通信遵循RFC 822的标准格式,电子邮件中的任何欺骗攻击检测都是基于对电子邮件头的分析,常见且重要的邮件头字段如表1所示。
为了正确检测伪造电子邮件,采用了以下检测方法:
①Message-ID检测:从邮件头中选择From和Message-ID这2个基本的头字段。然后将Message-ID字段的域名与From字段的域名进行比较。该匹配对于建立电子邮件的完整性和真实性至关重要,两字段域名互相匹配如图1所示,两字段域名不匹配如图2所示。
②MX记录匹配:当一封真正的电子邮件Form字段域和Message-ID域匹配失败时,基于Message-ID的方法就会失败。通过实验测试发现,向电子邮件服务提供商雇佣或外包电子邮件服务的组织在Message-ID匹配方面失败。比如G-suite,如果一個组织通过Google切换到G-suite,其邮件仍然会保留其父组织的域,但是由发送邮件的服务器生成的Message-ID会有Google域。当此域名与发件人域名相比较时,将显示为一封伪造的真实电子邮件。通过使用基于MX记录的匹配,克服了这种基于Message-ID检测的局限性。 MX记录将电子邮件定向到邮件服务器。DNS中存在的资源记录用于指定邮件服务器,该服务器将负责接收特定域的电子邮件。这些信息可以通过向DNS进行正向nslookup查询并存储MX记录以进行域名匹配来提取。从域名系统获取的典型MX记录如图3所示。
由于从MX记录中获得的域名不能被操纵,而是从DNS服务器上获取的,所以可以视为一个可靠的信息来源。
本文提出的算法首先读取进程转储的头文件,提取并比较From和Message-ID字段,以验证二者是否具有相同的域名。如果域名匹配,则认为是真实邮件。如果不是,则进行nslookup查询从DNS服务器获取MX记录,MX记录中的域名与Message-ID字段的域相匹配。如果匹配成功,认为这是一封真正的电子邮件;如果匹配失败,就确认是该伪造的电子邮件并将From和Message-ID值写入一个单独的日志文件。
为了进一步加快检测过程并减少获取记录的时间延迟,维护了MX记录的本地数据库。该算法首先向本地数据库查询MX记录,如果没有找到,则查询域名系统,并将该值存储在本地数据库中。
3实验测试与分析
3.1实验环境
实验在Windows10操作系统上使用Chrome浏览器来完成,硬件配置如表2所示。
测试中用户同时收到了真伪2种类型的电子邮件,从常见和流行的电子邮件应用发送了真实的电子邮件,通过提供匿名电子邮件服务网站向我的电子邮件ID发送了伪造的电子邮件。真实的邮件由Gamil,Yahoo,Rediffmail三种流行的电子邮件服务发送,伪造的电子邮件由Anonymailer发送。
3.2性能测试
通过Accuracy和F1-Score两个指标来评估本文提出方法的性能,参数包括邮件的真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)。
使用3个案例场景进行测试,案例1发送了所有真实的电子邮件;案例2发送了所有伪造的电子邮件;案例3发送了二者都包含的混合邮件。对于这3种情况,本文提出方法的性能指标分析如表3所示。
由表3可以看到,本文方法在真伪邮件各占比50%的情况下Accuracy和F1-Score分别为98.04%和99.01%,说明准确率还是非常高的,当全部为欺骗邮件时,Accuracy和F1-Score分别为96.15%和99.01%,说明误报率比较低。
3.3开销分析
开销分析是通过考虑系统资源利用率、处理开销和时间来进行的,测试数据包括中央处理器利用率、内存利用率和磁盘利用率的平均值,以及程序执行过程中所用的时间,如图4所示。
由图4可以看到,从获取进程内存转储到检测电子邮件欺骗并将其保存到日志文件的整个过程大约需要1 min,而相关的资源开销比较低。
4结束语
内存取证技术保证了用户在物理内存中的操作得以复现,本文利用内存取证技术来获取浏览器的实时进程,提取电子邮件头进行分析,采用Message-ID检测,结合nslookup查询提取MX记录来检测和识别电子邮件欺骗。实验测试和分析结果表明,本文方法可以有效检测电子邮件欺骗,精度高、误报少,而开销、资源消耗和对用户系统正常运行的干扰小,并且不会中断机器的常规操作。
本文方法只在基于网络的电子邮件系统上测试了电子邮件欺骗,未来的工作将是扩展和包括电子邮件客户端应用程序,如Outlook和Thunderbird的检测。另外,为了进一步减少检测时间,需要识别与电子邮件相关的浏览器的确切过程。
参考文献
[1]张如旭.2021电子邮件安全的五大趋势[J].计算机与网络, 2021,47(1):52-53.
[2] KOVEN J, BERTINI E, DUBOIS L,et al. InVest:Intelligent Visual Email Search and Triage[J]. Digtial Investigation, 2016,18(6): S138-S148.
[3] SZDE Y. Covert Communication by Means of Email Spam: A Challenge for Digital Investigation[J]. Digtial Investigation, 2015,13(6):72-79.
[4]刘奇伟.电子邮件真实性技术分析[J].计算機与网络, 2015,41(2):70-72.
[5] HU Hang, PENG Peng, WANG Gang. Towards Understanding the Adoption of Anti-spoofing Protocols in Email Systems[C]//Proceedings of 2018 IEEE Cyber Security Development Conference. Cambridge: IEEE, 2018:94-101.
[6]张瑜,刘庆中,李涛,等.内存取证研究与进展[J].软件学报, 2015,26(5):1151-1172.
[7] RAYMOND L. A Multidisciplinary Digital Forensic Investigation Process Model[J]. Business Horizons, 2016,59(6):593-604.
[8] PARRA B, VEGETTI M ,LEONE H. Advances in the Application of Ontologies in the Area of Digtial Forensic Electronic Mail[J]. IEEE Latin America Transactions,2019,17(10):1694-1705.
[9] JAY K, CRISTIAN F,HOSSEIN S. Lessons Learned Developing a Visual Analytics Solution for Investigative Analysis of Scamming Activities[J].IEEE Transactions on Visualization and Computer Graphics,2019,25(1): 225-234.