一种高效的文本查重算法在电子商务中的应用

来源 :计算机应用与软件 | 被引量 : 2次 | 上传用户:lsq_1123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究一种高效的文本信息查重算法,对电子商务网站的相似信息进行自动归类排序,大幅度提高信息审核效率与正确性。测试表明,信息数量在100-1000条时,该算法十分有效,1000条的文本信息相互比较可控制在2秒之内。信息数量超过1000条后,计算时间会大幅度上升。可通过调整算法中相关参数来调整精度。对于过短信息(少于10个字),可将本算法与Levenshtein算法相结合,以提高该文本信息查重算法的灵活性。
其他文献
海南省正式开展城镇从业人员重大疾病医疗保险工作,所患急性白血病(骨髓移植)等重大疾病的医保报销范围提升至一年最高50万元。
本文描述了我们在UNIX/XENIX系统中开发的TOP/FTAM软件,给出了系统结构设计考虑及主要实现技术。该软件可用于通过局域网或广域网互连的PC和SUN工作站环境中。
美国西雅图的科学家完成的一项研究,打破了艾滋病出现于20世纪的理论。科学界过去已经证实,与艾滋病病毒(HIV)类似的慢病毒在其他灵长目动物中出现的时间比人类早很多.
美国卡内基梅隆大学认知脑成像中心(CCBI)的科学家首次采用了一种新的组合神经成像方法,能够确切发现人类大脑是如何适应损伤的。研究报告显示,当一个大脑区域的功能丧失时,备用的
动作慢:蹲下起立慢半拍上了年纪的老糖友,动作太快容易招惹很多麻烦、,比如,在床上躺着猛的起来或者蹲下快速起立,血液涌到下肢,导致脑部供血不足,可能出现头晕甚至晕倒,这是常见的体
3D技术的发展,为国内外的科学家们插上了想象的翅膀,他们通过奇思妙想,为人们创造出了许多无法想象的事物,或许未来有一天,人类生活的世界也能打印出来。
追溯人类同病毒斗争的历史不可谓不长,斗争结果不可谓不惨烈,早在公元前二至三个世纪的印度和中国就有了关于天花的记录。但是人们真正发现并知晓病毒的存在,却只有100多年的历
利用共沉淀法制备了Yb和Mn离子共掺的LaMgAl11O19荧光粉。研究其室温下的发光性能。紫外光激发时观察到发光中心位于504nm的单一宽带发光峰,归因于Yb^2+的激发态4f135d能级与
不要担心身材娇小的人肩不能扛、手不能提,通过研究背包旅行者,科学家们发现,小个子比大块头更能背负重物。科学家指出,在背包行走的同时,人还要承担自己身体的重量。尽管徒步旅行
在探求导致肥胖的生理因素的研究中,美闰乔瑟琳糖尿病中心的科学家认定,作为细胞周期转录辅助调节因子的TRIP—Br2在脂肪存储和能最代谢中发挥了重要作用。这一发现可能为开发