基于LDA模型的博客垃圾评论发现

来源 :第六届全国信息检索学术会议 | 被引量 : 0次 | 上传用户:sharapova60
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Blog(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,Blog 已经成为互联网上的主要信息源之一,这也使得Blog 空间中的垃圾评论成倍增长。本文首先利用处理垃圾邮件的方法,针对Blog本身的特点,使用规则初步过滤垃圾评论,然后对剩余评论,利用Latent Dirichlet Allocation(LDA)这种能够提取文本隐含主题的产生式模型,对博客中的博文进行主题提取,并结合主题信息进行判断,从而得到垃圾评论。经验证,该方法可以发现大多数垃圾评论,实验取得了较好的结果,使Blog 信息更加准确、有效的为用户使用。
其他文献
随着民航和科技的发展,飞行事故率在不断降低,但民航客运量在逐步增加且事故率中的人为因素在不断上涨.如果不降低人为差错率,事故数量将会不降反曾,而人为因素中飞行人员心
面向信息检索的语言模型存在较严重的数据稀疏问题,由于近邻信息能够较好地反映词的分布,因此将文档的近邻信息加入语言模型的平滑中,新方法称为近邻语言模型。实验结果表明,近邻
事业单位统计工作的规范化管理所具备的价值尤为显著,其利于促进事业单位统计工作的顺利开展,提升工作开展的实效性,与此同时也利于推动我国事业单位获得进一步的发展.然而以
由于Web数据库具有自治性和异构性的特点,造成了各查询接口在内容、形式以及查询能力上都不尽相同,使得用户的查询请求受限于其给定的查询接口的表达能力,这给查询转换的准确性
会议
当前的Web服务注册架构缺少能够高效、准确、充分发现服务的分类管理机制,导致业务需求不能满足,造成服务资源浪费.针对某一特定领域,进行Web服务的分类管理显得格外重要.本
会议
企业的生存和发展必须建立在一个健康的内循环环境下,因此企业必须时刻提高经营中影响企业发展的各种风险警惕性,减少企业风险损失.而税务风险是指企业未按照国家税务政策执
近几年来,随着科学技术的不断发明与创造,社会也在不断的进步,各行各业也都在改进和完善自身的管理与经营,以适应时代前进的规律与速度.就电力行业而言,电力电网的错综复杂,
在处理非均衡文本分类问题的诸多方法中,基于数据的方法最灵活,应用也最广泛。然而,传统的基于数据的方法存在过学习、丢失有用信息及增加训练分类器时间成本等问题,本文提出一系
会议
在新的时代背景下,审计管理依托于计算机网络技术,因此其呈现出信息化和现代化的发展特征.信息化和现代化的审计方式让审计工作更加规范、科学,为电力企业发展提供更准确的审
随着生物医学文献的急剧增加,从文本中自动抽取蛋白质的相互作用关系,成为文本挖掘领域研究中的重要方向。目前主流的蛋白质关系抽取方法大多侧重于提取句子的结构化特征信息,对
会议