论文部分内容阅读
随着网络内容的日益丰富,不良信息在互联网上的泛滥也日益严重,如何有效监控网络内容,净化网络环境,已经成为当前学术研究的热点。而音视频作为不良信息传播的主要载体之一,因其高速、大流量等特点,加大了不良信息检测的难度。本文针对这一难点,提出了将网络数据多层语义理解技术和数据重组技术相结合的解决方案,并取得了阶段性成果。
首先应用协议结构分析和统计计算方法实现音视频数据由底层至高层的多层语义理解。结合两种常见报文匹配方式的优势,设计了基于协议结构分析的语义抽取方法,根据协议结构分离请求响应消息对,无分片的请求响应消息采用单报文匹配进行语义抽取,有分片的请求响应消息采用多报文一次性匹配。然后在语义理解的基础上,提出了基于语义分析的选择性还原策略。根据语义元素挖掘出感兴趣的、可疑的数据流,并计算这些数据流之间的重复度,即有选择性的对部分数据流进行内容还原检测。最后以HTTP和RTSP/RTP为例,着重讨论了HTTP协议的拆分和数据内容重组,以及windows media下的ASF数据单元的提取、修正和ASF流的重组技术。
实验结果表明,基于协议结构分析的语义抽取方式有较好的准确性和匹配速度,很好的克服了单报文匹配方式和多报文一次性匹配方式的不足;与纯粹的文本检测、内容审计相比,基于语义分析的音视频还原策略结合了二者的优势,在平衡网络监控速度和准确率之间的矛盾方面有一定作用。