论文部分内容阅读
在文本分类挖掘中,文本的预处理是关键的一步,在文本挖掘的预处理上有着多种常用的处理方法,这篇论文提出了一种把文本预处理不同阶段的算法结合起来构成不同的组合进行对比研究的思想,通过对这些组合进行研究,重点分析了不同算法之间的相互协调和配合。对常用的五种特征值选择方法:含有特征项的文本频率,信息增益,互信息,X2统计量(CHI),文本证据权和三种常用的权重计算方法:布尔权重、词频型特征权重TF、TF—IDF函数的十五种不同组合的考察,分析了特征选择方法和权重计算方法不同的组合对文本分类挖掘的效果的影响。实验结果表明IG和TF-IDF的组合最为有效,WET和TF的组合效果最差,并给出了效果差异的原因,这可以成为文本分类挖掘中不同的预处理方案选择的一个依据。同时,WEB2.0的成熟,使得互联网成为了信息和经验交流和分享的重要场所,导致了虚拟社区大量的出现。在这些虚拟社区,蕴藏着大量的信息和知识,也暗含着大量的商机。由于互联网虚拟社区的发展速度过快,致使我国针对互联网信息发布没有良好的监管措施和相关的法律对其进行约束,这就导致了网络中为了某种目的的各种虚假信息横行。我们在虚拟社区中查阅信息和发布评论时经常可以看到一些匪夷所思的言论或评论,或者大量的对某些产品或服务的重复评论,或者为了某种目的而大量散布一些主观性的评论,这些评论严重的影响了虚拟社区的网络环境,对互联网用户对待某些被评论的产品或服务在态度发生改变而做出错误的决策,针对这些问题,大多的研究者们从不同角度论述了虚拟社区虚假信息泛滥所带来的后果,同时指出了一些解决的办法,但是这些方法大都从实证的角度出发,研究影响虚拟社区评论信息可信性的影响因素。文本挖掘技术的出现为处理虚拟社区中非结构化的文本数据提供了一个良好的技术支持,文本挖掘又可分为文本分类和文本聚类,同时文本情感分类也在近几年得到了飞速的发展。这篇论文从互联网虚拟社区用户的实际需要出发,基于文本分类挖掘以及情感分类挖掘技术,通过长期在虚拟社区中的观察和分析,提出了一个虚拟社区评论信息可信性分析模型,目的在于对一个虚拟社区中的评论信息的可信性进行整体的评价,以使得虚拟社区的用户在查阅虚拟社区中的评论时对这一虚拟社区中的评论信心有着大致上的认识,然后判断到底值不值得花费时间查阅这一虚拟社区中的评论信息,加快互联网虚拟社区用户做出决策所需的时间,减少精力浪费。