数据流上基于可伸缩模式的潜在语义事件发现

来源 :第六届中国计算机学会大数据学术会议 | 被引量 : 0次 | 上传用户:zhang11289
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,人类社会产生了大量的数据,这些数据反映了人们的生活习惯、社会规律以及自然规律.数据流作为大数据最重要的表现形式之一,应用的范围非常广泛.在实际的数据流应用领域中,连续数据点组成的波段往往更具领域价值,因为单个数据点仅仅表示了值的变化,而波段则是在宏观层次上展示了丰富的语义,因此以模式(波段)为粒度来表达数据流显得尤为重要.虽然各个领域的数据流表现复杂,但是都有一定规律可循,如何从复杂的数据流中获取知识,一直是数据挖掘研究领域的热点与挑战,挖掘和预测数据流中隐含的数据模式及领域价值具有重要的理论和现实意义.基于SP-Tree挖掘的可伸缩模式,提出了Pattern2vec的方法,将可伸缩模式向量化,从而利用向量来发现数据流上潜在的隐含语义,完成分类工作.在医疗和电力数据开展实验,实验结果表明Pattern2vec相比其他对比方法,具有更好的分类表现.
其他文献
近年来,在多标签分类中标签相关性研究成为热点之一.针对已有的基于k近邻的多标签相关性算法未充分考虑样本分布的问题进行了研究,即算法在利用近邻标签时因仅考虑了近邻标签相关性信息,这可能会使算法的鲁棒性有所降低.基于此,引入萤火虫方法(Firefly Algorithm),将相似度信息与标签信息相结合,提出一种融合萤火虫方法的多标签懒惰学习算法(FF-IMLLA).首先,利用Minkowski距离来度
Collaborative filtering(CF)plays a key role in various rec-ommendation systems,but its effiectiveness will be limited by the highly sparse user-image click-through data when CF deploys for image recom
基于MathorCup全国大学生数学建模挑战赛提供的某地区共享单车骑行记录数据,利用时空统计分析,本文可视化的分析了该地区的共享单车时空分布情况;创新性的设计了依据骑行起讫时间及地址计算区域相对位置的计算方法,并应用蚁群算法优化了该地区共享单车的调度方案;基于该数据源中单车需求数据表,评估了该地区十个区域共享单车的使用满足程度,研究了基于满足程度趋势的共享单车最佳投放方案;最后,对共享单车投放量和
科研合作是学术成果非常重要的实现形式,很多高水平的研究成果通过合作实现.研究合作潜力可以为学者选择合作者提供指导,最大化科研效率.然而当前大数据爆发阻碍了合作者的有效选择.为了解决这个问题,基于学者-文章大数据,本文综合考虑学者的文章、机构、研究兴趣等个人属性和相关属性,分别从文章标题、文章等级、文章数量、时间及署名序多维度构造样本特征,提出了基于集成学习分类方法的科研合作者潜力预测模型.本文分析
在货物配送路径规划问题中,为了保持基本布谷鸟算法中Lévy飞行机制与偏好随机游动策略的特点,本文提出了基于定向变异的布谷鸟算法和求解配送路径问题的完整有效方法.首先采用快速排序法将实数编码个体的每一维元素映射成问题的城市编号,从而建立算法与问题模型之间的联系;然后运用邻域搜索法决定城市访问的次序,即通过各城市之间的距离寻找当前城市的邻近城市,增强算法的收敛速度.同时,在算法局部搜索机制中,通过平均
心电图是检测心脏疾病的重要手段之一,然而多种异常心电信号之间存在较大的相似性使得心电分类的准确性成为研究的焦点.传统的机器学习方法和当前的深度学习方法能较大的提升异常心电的分类准确率,但存在训练时间长、结构不灵活,难以实时在线学习更新等不足.基于此,提出一种基于宽度学习系统(BroadLearning System,BLS)的异常心电分类方法,该方法能够实时在线调整增强节点的个数并学习新样本的特征
This paper extends our previous DESIQUE [1] algorithm to a local-and-global way(LaG-DESIQUE)to blindly measure image quality without training on human opinion scores.The local DESIQUE extracts block-b
在语义结构查询问题中,由于语义结构的特殊性及庞大数据集的存在,传统的点查询和频繁子图查询,无法简洁直观的描述百万节点的大图,并衡量查询到的语义结构的重要性.针对该问题,VoG算法利用子图分割并最大化对特殊结构进行匹配,但存在查询时间长,错误率较高等问题.因此提出了一种新算法,解决了传统算法的缺陷.所提算法的具体思路为:1)利用ApxGreedy算法对输入图进行聚集处理;2)通过聚集之后的超点内部与
随着全国司法机关智能化建设和信息化建设应用的深入推进,积累了海量的司法文书,这为开展司法大数据应用和司法智能服务提供了基础.通过司法文书的相似性分析,实现类案推送,为司法人员提供智能辅助办案服务,可以显著提高办案的质量和效率.本文提出了一种语义驱动的方法来学习和分类司法文书.首先提出并构建了面向司法领域的领域知识本体以清晰表达文档级语义,然后在领域本体基础之上对司法文档进行相应的领域知识抽取.接着
In recent years,as an emerging technology,cloud computing has pro-vided us with convenient services,and power consumption on issues have be-come increasingly prominent.Virtual machine live migration t