基于文本分类挖掘的虚拟社区评论信息可信性研究

被引量 : 0次 | 上传用户:owennb1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在文本分类挖掘中,文本的预处理是关键的一步,在文本挖掘的预处理上有着多种常用的处理方法,这篇论文提出了一种把文本预处理不同阶段的算法结合起来构成不同的组合进行对比研究的思想,通过对这些组合进行研究,重点分析了不同算法之间的相互协调和配合。对常用的五种特征值选择方法:含有特征项的文本频率,信息增益,互信息,X2统计量(CHI),文本证据权和三种常用的权重计算方法:布尔权重、词频型特征权重TF、TF—IDF函数的十五种不同组合的考察,分析了特征选择方法和权重计算方法不同的组合对文本分类挖掘的效果的影响。实验结果表明IG和TF-IDF的组合最为有效,WET和TF的组合效果最差,并给出了效果差异的原因,这可以成为文本分类挖掘中不同的预处理方案选择的一个依据。同时,WEB2.0的成熟,使得互联网成为了信息和经验交流和分享的重要场所,导致了虚拟社区大量的出现。在这些虚拟社区,蕴藏着大量的信息和知识,也暗含着大量的商机。由于互联网虚拟社区的发展速度过快,致使我国针对互联网信息发布没有良好的监管措施和相关的法律对其进行约束,这就导致了网络中为了某种目的的各种虚假信息横行。我们在虚拟社区中查阅信息和发布评论时经常可以看到一些匪夷所思的言论或评论,或者大量的对某些产品或服务的重复评论,或者为了某种目的而大量散布一些主观性的评论,这些评论严重的影响了虚拟社区的网络环境,对互联网用户对待某些被评论的产品或服务在态度发生改变而做出错误的决策,针对这些问题,大多的研究者们从不同角度论述了虚拟社区虚假信息泛滥所带来的后果,同时指出了一些解决的办法,但是这些方法大都从实证的角度出发,研究影响虚拟社区评论信息可信性的影响因素。文本挖掘技术的出现为处理虚拟社区中非结构化的文本数据提供了一个良好的技术支持,文本挖掘又可分为文本分类和文本聚类,同时文本情感分类也在近几年得到了飞速的发展。这篇论文从互联网虚拟社区用户的实际需要出发,基于文本分类挖掘以及情感分类挖掘技术,通过长期在虚拟社区中的观察和分析,提出了一个虚拟社区评论信息可信性分析模型,目的在于对一个虚拟社区中的评论信息的可信性进行整体的评价,以使得虚拟社区的用户在查阅虚拟社区中的评论时对这一虚拟社区中的评论信心有着大致上的认识,然后判断到底值不值得花费时间查阅这一虚拟社区中的评论信息,加快互联网虚拟社区用户做出决策所需的时间,减少精力浪费。
其他文献
海德格尔对艺术作品本源的探讨,在本性上就是探讨存在者的存在。作为独特的存在者的艺术作品,不同于纯物和器具之处在于,只有艺术作品才能敞开存在。艺术的本性是真理之自行
苏轼贬官黄州,其居所遗址至今纷争不已。黄州东坡文化研究会通过海外学术机构获得了数份地图,一份是台湾"中央研究院"馆藏的民国8年测绘、民国31年印刷的黄冈县5万分之一等高
<正>病例男,57岁,因"头晕、行走不稳、呕吐1 d"入院,诊断为"急性脑梗死"。遵医嘱予:(1)0.9%氯化钠注射液100 ml加依达拉奉注射液(昆明积大制药有限公司,国药准字H20080056)30
在表述对象的过程中,从发生学角度而言,语言与图像都是人类古老的重要表述方式。书面语言的出现丰富了语言的内涵,使语言的表述处于强势地位。随着现代信息技术的出现与兴盛,图像
目的:观察通脉活血汤治疗糖尿病肾病的疗效。方法:将60例病例随机分为A组及B组。A组为洛汀新治疗作为对照组,B组为通脉活血汤加洛汀新作为治疗组。治疗时间2个月,检测治疗前
炎症小体是细胞内多种蛋白质组成的蛋白复合体,其形成可导致炎性天冬氨酸特异性的半胱氨酸蛋白水解酶(caspase)自我剪切,后者通过对促炎因子IL-1β和IL-18的激活,引起宿主的
目的探讨慢性踝关节外侧不稳继发病损及其有效的手术方法。方法 本组行手术解剖重建外踝韧带治疗慢性踝关节外侧不稳的患者106例,观察其继发病损在关节镜下的表现。结果 对
目的:探讨硫辛酸对腹膜透析患者氧化应激、炎症及营养状况的影响。方法:以腹膜透析患者为研究对象,随机分成观察组47例和对照组47例,两组均给予相同的常规治疗,观察组予硫辛
有源电力滤波器(APF)是改善电能质量、治理电网谐波污染的重要手段。本文研究APF的T.s模糊建模及其控制,分析并联型APF采用T.s模糊控制方法的可行性和具体方法及结果,讨论APF补偿