【摘 要】
:
针对在数据服务中舆情去重不可避免且缺乏理论指导的问题,通过研究Sim Hash、Min Hash、Jaccard、Cosine Similarty经典去重算法,以及常见的分词和特征选择算法,以寻求表现优
论文部分内容阅读
针对在数据服务中舆情去重不可避免且缺乏理论指导的问题,通过研究Sim Hash、Min Hash、Jaccard、Cosine Similarty经典去重算法,以及常见的分词和特征选择算法,以寻求表现优异的算法搭配,并对传统Jaccard和Sim Hash进行了改进分别产生新算法:基于短文章的Jaccard和基于Cosine Distance的Sim Hash.针对比较对象众多实验效率低下的问题,提出了先纵向比较筛选出优势算法,然后横向比较获得最佳搭配,最后综合比较的策略,并结合3000舆情样本实验证明:
其他文献
通过对复合铆钉触点压扁试验过程的受力分析,阐述了钉头厚度较薄的触点压扁后边缘开裂的原因。并根据实践经验提出了预防该现象出现的措施,以供电器厂家参考。
研究了固相烧结、液相烧结、液相熔渗和热压烧结等四种工艺制备的Cu/C复合材料,并测试了其显微组织、密度、硬度和电导率,结果表明:四种工艺所制备材料的显微组织中,石墨均呈
随钻地质导向是目前复杂油气藏开发的高端应用,三维井筒可视化是其关键基础技术之一.基于随钻获得的井斜工程数据和测井地质属性数据,研究了建立均径井筒和非均径井筒模型的
采用反应合成技术和传统粉末冶金技术制备银氧化锡(AgSnO2)电接触材料.利用千瓦CO2激光器模仿电弧作用在试样表面产生局部熔化,对AgSnO2块体材料进行抗熔蚀性测试.对AgSnO2块
研究了三种类型的添加物对AgNi(10)线材的加工性能及电性能的影响.在常规粉末冶金工艺的基础上,结合先进的高压水雾化合金粉末制备工艺,在AgNi(10)线材中分别进行了添加微量A
研究了摩擦磨损试验中摩擦时间、转速及润滑条件3个因素对CuNiMnFe合金耐磨性的影响。试验结果表明,干摩擦条件下CuNiMnFe合金的磨损率随着摩擦时间的增加而降低;随着转速的提
采用机械合金化法制备银稀土氧化物 (AgREO)触点材料.研究高能球磨对 AgREO混合粉末组织与性能以及烧结行为的影响,观察材料的微观组织,并测量了材料的密度、硬度、电导率等
为解决不完备信息的偏好决策问题,多种优势关系及其相应的粗糙集模型被提出并证实其实用性.然而在实际情况中,只要存在缺失值那么无论使用何种方法对比出来的优势关系都存在
云计算为我们提供了一种全新、高效的方式来部署可扩展的Web应用,这种方式使企业的应用可以按需对计算资源进行分配.微服务架构用于将庞大复杂的应用系统拆分为一系列可独立
研究了Linux设备驱动程序的自动更新方法,建立了基于源码的Linux设备驱动辅助更新模型,设计并实现了一组相应的自动更新支撑工具,包括Linux设备驱动程序对内核依赖接口的分析