论文部分内容阅读
随着互联网的快速发展,人类已越来越多地依赖社交网站或网络通讯工具进行交互。由于在线社会网络成员的匿名性和隐蔽性,致使互联网也成为了犯罪分子进行非法交易的新场所。因此鉴定在线犯罪用户的真实身份,已经成为刑事侦察机关处理网络犯罪案例时的重中之重。然而,犯罪分子往往使用虚假的信息以逃避侦察。因此通过用户的注册信息确定作者的真实身份是一件很困难的事,这也给在线作者身份鉴定的研究带来了新的挑战。本文以天涯论坛作为研究对象,针对中文在线信息语义和结构的特点,对在线作者的身份鉴定方法展开深入的研究和分析,主要工作如下:在详细分析中文在线信息的写作风格以及提取适用于中文在线信息的写作特征集的基础上,提出了基于假设检验的作者身份鉴定方法。该方法针对中文在线信息的特点构造了一组特征集,并用假设检验的方法测试样本间的相似性。实验结果表明,将假设检验方法应用到作者身份识别领域具有一定的实际意义和应用价值。针对在线信息内容复杂、短小的特点,本文提出了基于遗传算法的支持向量机的作者身份鉴定方法。支持向量机方法善于处理样本维数较高的分类问题,而遗传算法能产生问题的最优解。本文将两种方法结合应用于作者身份识别领域。实验结果表明该方法有较好的识别性能,具有选择的特征数较少,样本识别率高,检测时间短的特点。