基于Hash技术的重复性评论检测

来源 :计算机应用 | 被引量 : 9次 | 上传用户:tom1313
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,论坛已经成为人们获取信息、发表言论的重要场所,但大量的重复评论已成为论坛舆情信息内容获取与监管系统中新的难题,因此对重复评论进行有效检测和消重就至关重要。针对重复评论在一定时间内具有数量大、密度高、内容相似度高的特点,提出了一种基于SHA-1技术的重复评论检测方法。该方法以句和段为粒度块计算评论Hash值,然后统计Hash表中相同的指纹数目以此判断评论之间的相似度,最后依据给出的相似度阈值检测评论是否为重复评论。实验结果表明,该方法可以对重复评论进行有效检测和消重,且优于传
其他文献
电信资费一直是社会各界普遍关注的热点问题之一,消费者、企业、专家和政府在这一问题上争论很多,意见差距很大。本文对我国电信资费管制的历史进行了分析,借鉴国外的电信资费管制经验,提出应该从整个电信市场发展和市场结构出发来研究电信资费政策,进而提出未来电信资费管制的具体建议。
在中国近代社会东西方文化冲突、新旧时代递嬗的大背景下,苏曼殊的小说创作具有承前启后的作用。小说《碎簪记》中尴尬的叙述者,极具典型意义,通过分析可以揭示苏曼殊小说特定的
随着3G的演进与宽带多媒体业务的发展,用户需求、市场运营模式已发生了本质改变,在这种多方依赖、共赢合作的环境中,必须处理好技术驱动与市场驱动关系,以及“杀手锏”和“产业链”问题,企业才能作出正确的战略决策,在激烈的市场竞争中取得成功。本文针对这些情况,并结合中国国情,介绍了应关注的新技术,重点论述“杀手锏”、“产业链”问题及持续发展与不断创新关系的一些策略考虑。
本文通过对我国现实社会中生产要素价格的双轨体制的表征分析,指出这种要素价格的双轨制的形成原因、所具有的特点及其产生的经济效应,并进而得出结论:要素价格进一步改革的
本文讨论了在发展军事移动信息系统的过程中军民协同的若干问题,其中包括其重要意义、军民协同的障碍以及发展策略。
关于罗贯中的籍贯问题,历来有几种不同说法。其中“山东东平说”和“山西太原说”可谓针锋相对。本文通过考察、分析“梁山伯的方位”、“武松的籍贯”和“寿阳的错位”来证
近日,美国国家再生能源实验室(NREL)的科学家们开发出了一种新型空调,相比于目前市面上的产品可以节约最多90%的能源。
本文首先清理“原儒”的问题,扼要评述了现代人和汉代人有关“儒”及“儒林”含义的主要观点,论证了“儒林列传”为“通经博士列传”,“通经名家或专家列传”。其次,通过分析《儒
答:计算机软件是实验室开展检测/校准的“工具”之一,其质量要求同测量设备是一样的。设备的装机软件可视为设备的重要组成部分,无须单独验证。随设备采购的软件可视为随机附件或