文本去重相关论文
自动生成的严格对齐的文本,生活中更有常用,例如:自动生成对齐的招投标文件等。然而,自动生成对齐文本时,首先需要的是结构化数据......
随着网络信息技术的飞速发展,农业信息化的建设、服务水平得到了极大的促进与提高。互联网中海量、重复的农业信息为从事农业领域的......
随着Internet的迅速发展,网络信息也随之迅速增长,在从网上获取目标信息的时候通常会遇到需要进行筛选来提高定位信息速度的情况。......
文本分类是语言信息处理的基础技术,广泛应用于信息检索、信息过滤等方面,同时信息处理需求的提升对文本分类技术的要求也越来越高......
在中文文本相似去重中的关键词计算和提取阶段,文本分词后,存在高维、稀疏和缺乏语义词项,而这些大多没有实际意义的词会给计算带来噪......
针对中文短文本冗余问题,提出了有效的去重算法框架。考虑到短文本海量性和简短性的特点,以及中文与英文之间的区别,引入了Bloom F......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
针对中文文本,抽取出文本内容特征,结合Simhash算法生成中文文本的语义指纹,通过语义指纹的海明距离判断文本间相似程度。整合Sing......
如今网络和信息技术飞速发展,每天都有数以亿万计的文本数据产生。然而,不可避免地有很多文本内容是重复的。这样导致用户在利用搜索......
为了提升Simhash算法的文本去重效果、准确率,解决Simhash算法无法体现分布信息的缺点,提出了基于信息熵加权的Simhash算法(简称E-......
SimHash算法是目前主流的文本去重算法,但它对于特定行业的文本数据在主题方面的天然相似性特点并没有特殊的考虑.基于多年在金融......
随着互联网内容爆发式的增长,搜索引擎成为人们使用互联网时的主要入口。然而,面对当前互联网中的海量信息,传统搜索引擎在抓取速......
随着计算机技术的迅猛发展和信息传播手段的进步,即时通讯、BBS、新闻组、电子邮件等以短文本方式出现的信息也快速增长。消息文本......
针对单机爬虫效率低、可扩展性差等问题,本文设计并实现了一种基于MapReduce的网络爬虫系统.该系统首先采用HDFS和HBase对网页信息......
为了解决传统中文文本去重准确率低的问题,本文提出了一种基于语义指纹和LCS的文本去重方法。针对中文文本,预处理后抽取出文本摘......
中文文本去重是自然语言处理研究的一个重要方向。该文提出了一种基于N-Gram项和特征映射的文本去重方法。该方法提取N-Gram项的序......