基于联合分类器过滤噪声的微博主题发现

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:drlanrq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的广泛流行,以微博为代表的社交网络产生了大量的数据.从这些数据中挖掘到有用的信息成为当今研究的一项重要方向.根据微博文本的特点,本文提出来一种基于联合分类器过滤掉噪声微博,然后利用LDA模型进行主题发现.联合分类器模型是由朴素贝叶斯、支持向量机和决策树三种模型通过简单投票机制结合构成的,实验结果联合分类器的准确度达到87%,显然这种分类方法是可行的,也是有效的.
其他文献
在基于机器视觉实现蘑菇自动化采摘过程中,由于蘑菇苗床背景复杂多样,蘑菇群落之间尺度、形状差异大,且相互间存在复杂粘连,造成采摘位置定位困难,针对该问题,提出了以Harris角点为纹理特征的背景过滤算法,实现菌丝、木屑、杂草等干扰因素下的前景目标的准确提取;继而针对粘连蘑菇的尺度差异,提出了一种迭代方法搜索前景距离图中的区域极值点,在此基础上采用基于标记的分水岭算法实现粘连蘑菇的分割;最后利用椭圆拟
为提升投资效益,降低经济成本。电网企业的电力工程师们需对相关项目的造价进行控制,并实施一定的方案进行管理。本文通过分析全寿命周期的造价管理与控制理论的概念与意义,
本文针对流媒体Cloud-P2P存储模式中的副本选择,提出一种基于蚁群算法的改进算法(replica selectionalgorithm in Cloud-P2P based on ant colony algorithm, C2P2RSA2),建立
随着虚拟现实技术的不断发展,对虚拟场景的真实度要求也越来越提高.然而在虚拟场景中,复杂的地形、大量的植被和建筑使需要渲染的数据量大得惊人,故渲染速度成为了虚拟现实技
针对营养决策表规则提取中规则矛盾多、覆盖样例冗余多,导致有效规则遗漏的问题,提出概率覆盖决策粗糙集模型.首先,对决策粗糙集相关理论进行简要介绍,给出对应的属性约简和
新能源发电在电力系统中渗透率的不断提升给电力系统稳定性带来了影响.为了提高电力系统稳定性,本文研究和讨论了电压源型虚拟同步发电机控制策略.利用同步发电机的转子运动
现有设备区域覆盖方面的研究大多针对二维空间无向感知区域,设备位置往往随机设定,对复杂空间环境的感知覆盖率较低,难以满足安全监控等实际应用的需求,本文针对复杂环境下的
1—5月,电源完成投资同比正增长,电网工程完成投资同比下降。数据显示,1—5月,全国主要发电企业电源工程完成投资768亿元,同比提高5.9%。同期,全国电网工程完成投资1157亿元,
针对基于位置的社交网络(Location-Based Social Network, LBSN)中用户签到数据的高稀疏性问题及用户隐私问题,提出了一种混合推荐模型(SoGeoCat).首先,通过用户潜在兴趣点数
针对实际应用中色情图片的复杂多样性问题,提出一种基于多分类和深度残差网络(ResNet)的不良图片识别框架.不同于已有的方法将色情图片识别作为二分类问题,该方法基于多样性特征将色情图片分为7个更细粒度的类别,并将正常图片分为是否包含人物2个类别,通过50层ResNet模型进行分类,再按照阈值计算是否属于不良图片.为了减少训练时间和挖掘优质特征,采用一种反馈修正的训练策略.提出一种单边滑动窗口的预处