DBSCAN优化算法在实验文本大数据分析中的应用研究

来源 :计算机科学与应用 | 被引量 : 0次 | 上传用户:yec
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据是近年来计算机领域兴起的研究热点,通过聚类可以解决诸如数据挖掘、机器学习、文本处理等大数据领域问题。针对传统的DBSCAN算法参数需要人工设定,且算法速度无法适应大数据应用等问题,本文提出了一种DBSCAN优化算法。利用KD树加快查找邻域对象,显著减少算法的运行时间;同时,通过计算所有邻域对象的数学期望,实现密度阈值(Minpts)参数自适应;接着,设计了一种文本聚类流程,通过SD-TF-IDF算法对特征项的权值进行优化,进而完成对文本的聚类任务;最后,将其应用于高校计算机实验文本大数据的挖掘分析中
其他文献
针对用户在移动端进行银行卡卡号录入出错性高的问题,本文提出了一种基于移动端的银行卡识别方法。方法主要分为三步:银行卡图像获取及预处理,银行卡号数字字符分割,数字字符
"自我更新"取向教师专业发展中的师德建设是在批判传统"教化本位"取向下的一种发展理念,它由教师的善、教师公正和教师的责任感构成,并通过教师的教育实践、学习、反思等途径
动作预测是一类特殊的动作识别问题,不同于针对完整动作的传统动作识别,动作预测旨在动作尚未完成时尽可能早地识别动作所属的类别,以便对该动作可能造成的影响进行分析,从而
移动互联网时代,随着手机APP的不断发展,人们对APP的信息安全提出了更高要求。本文的研究目的就是利用安卓SDK设计实现加密验证,更大程度上加强应用上信息的安全性。利用安卓
针对我国中小城镇地区的污水处理特点,对MBBR的启动和处理效果进行了现场中试研究。研究表明:在中、低温条件下,MBBR反应器经过37d启动成功;当进水为低浓度生活污水、MBBR水力停
为了探讨土-石混合体的力学强度受块石定向性特征的影响,开发了二维椭圆块石集合体随机模型(2D Elliptic Block Collection Stochastic Model,简称EBCS~(2D)),并在此基础上进
先秦时期,楚国物产十分丰富,包括矿产、生丝、生漆、禽兽、水产、五谷、蔬果等.丰富的物产资源促进了楚国商品经济以及与其他地区商业贸易的繁荣.
社区院落是社会的基本单元,是巩固党的执政基础的重要基石。为推动社区院落群众文化生活繁荣兴盛,在基层群众娱乐中进一步加强基层社区治理和文化建设,强化党政方针政策在基
针对传统GrabCut算法用户交互后得到的目标容器分割结果存在的边缘凹陷、突刺问题,提出结合引导滤波算法与GrabCut函数的方法改善以上问题。该方法通过用户交互在彩色图像中
黄浦江上游水源地通管工程C3标段采用DN4000钢顶管施工,单次顶进长度达到969.94m,如何降低顶力是整个工程成功的关键。为减少摩阻力从而降低顶力,对泥浆配制、注浆控制等方面