基于关联分析的计算机软件数据挖掘技术

来源 :今日自动化 | 被引量 : 0次 | 上传用户:jiba00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘    要]软件数据挖掘技术就是在互联网中无数条信息中寻找需要且有价值的消息,它是软件工程中重要的研发领域,还能缩短软件的研发周期。计算机的核心是硬盘,其好坏决定了软件的使用质量和实用程度。各类软件的出现为现代信息搜索技术提供了便利条件,面对巨大的信息量,数据挖掘技术展现了其优势,让人们能够充分利用这些数据为未来的计算机的发展提供帮助。文章探讨基于关联分析的计算机软件数据挖掘技术。
  [关键词]关联分析;计算机软件;数据挖掘;应用
  [中图分类号]TP311.13 [文献标志码]A [文章编号]2095–6487(2021)07–00–03
  Data Mining Technology of Computer Software Based on Association Analysis
  Pang Xiao-bo
  [Abstract]Software data mining technology is to find needed and valuable information from countless pieces of information on the Internet. It is an important research and development field in software engineering and can also shorten the software development cycle. The core of the computer is the hard disk, and its quality determines the quality and practicality of the software. The emergence of various types of software provides convenient conditions for modern information search technology. Faced with a huge amount of information, data mining technology has demonstrated its advantages, allowing people to make full use of these data to provide help for the future development of computers. The article will discuss in depth the computer software data mining technology based on association analysis.
  [Keywords]association analysis; Computer software; Data mining; application
  计算机软件挖掘技术是信息收集、数据集成、数据规约的一种技术,是一种仿生全局优化方法数据挖掘。随着计算机技术的飞速发展,信息量大大增加,所以对信息的整合就需要人们格外关注,数据挖掘技术很好地解决了这一问题,这种算法提高了数据挖掘的效率和质量,降低了传统算法的复杂程度。由于它的算法复杂,因此经过的步骤也比较多,不仅如此,它还是一个反复循环的过程,只要有一个步骤没有达到标准,就需要重新开始,所以要想掌握这门技术就要有细心和耐心。
  1 数据挖掘的基本技术流程
  1.1 信息收集
  信息收集是数据挖掘的第一步,是通过所给的数据进行分析得出所需要数据的特征信息,并选择合理的方法进行信息收集,再将这些信息存入到数据库中,最后对这些数据整合汇总到合适的数据库中,便于查看以供参考。而面对海量的信息如何选择一个合适的数据库就尤为重要。
  1.2 數据集成
  数据集成就是把不同特点、方向、性质的数据结合到一起,形成全面且安全的网络环境,为人们提供各类信息满足需求,同时进行数据共享。
  1.3 数据规约
  在这个信息量巨大的网络时代,信息链四通八达,能链接到世界各地。由于大量的数据集中在一起,而数据挖掘技术本身算法就难以掌握,耗费的时间较多,所以在进行数据挖掘算法时更是要花费很大的精力。但是如果运用数据规约技术既能保证数据的完整性和计算结果的准确性,又能节约时间提高效率,是一个一举多得的好办法。
  1.4 数据清理
  在这个网络发达的时代,每分钟会产生几十万条信息,从而形成了庞大的数据存储仓库,面对这样巨大的信息量总有一些是错误的、不完整的、没有价值的,而这些数据就需要清理。如果不能及时处理这些垃圾信息可能会造成不必要的麻烦,而且经常清理不必要的数据才能节省空间将有价值的信息存入数据仓库中以供参考。
  1.5 数据变换
  这个步骤是通过一些专业的技术手段将原本的数据转换成特殊的形式以供使用,而对一些实数型数据,就需要运用概念分层和数据的离散化来转换数据,实现数据变换。
  1.6 数据挖掘过程
  根据数据库中的信息,选择合理的统计方法、分析模式、决策树、规则推理和遗传算法等方式处理这些数据,分析得出有价值的信息,这就是数据挖掘的过程,也是这项工程的核心所在。
  1.7 模式评估
  由专业人员对挖掘所得数据的准确性进行评估,包括信息的实用性、可靠性和价值程度。从企业的角度来说,商人从商为利,那么这样做可以达到最大化的商业利益;从社会的角度来说,所做的一切都是为了社会的进步,而这样做能给未来的数据挖掘技术带来更好的发展,使我国的科技水平更上一层楼。   1.8 知识表示
  将分析所得的数据整理,以表格或其他的方式呈现给用户,让其能清晰直观地看到数据的变化情况,了解实时信息,同时将这些数据汇总到数据库中进行合理的分类,为其他应用软件提供参考资料。
  2 遗传算法的基本原理
  遗传算法是建立在生物学和遗传学基础之上的一种随机搜索算法,这种算法具有良好的隐含并行性,能够与其他模型结合使用,因此在数据挖掘技术中被广泛使用。由于遗传算法具有对于各种通用问题都可以使用的特点,所以被广泛应用于训练神经网络,从网络中提取复杂的计算规则。但是它也有缺点,其算法比较复杂,操作困难,所以计算效率要比传统的优化方法低,因此应用范围就比较局限,而且其编码存在表示的不准确性。为了解决这些问题,相关技术人员实施了很多优化办法,比如函数优化、组合优化等一些高效的技术手段。
  3 计算机数据挖掘技术的研发
  随着计算机的更新换代,相关网络技术也在不断发展,一些数据处理的软件技术层出不穷,数据挖掘技术就是其中之一。要想执行这一技术就需要良好的网络环境和技术条件。其中还包含很多细节性的内容,比如可视化技术,就是将一些隐藏的比较深的数据信息通过一些特殊的技术手段进行深入的分析,最后得出想要的规律或答案。这种方法有效地提高了人们获取和处理信息的效率,便于进行各类数据的分析和整理。但是任何一种新型科技的研发都离不开研究人员的管理,良好的管理模式才能创造出更理想的科研成果,这样才能保证挖据所得数据的真实性和准确性,为以后的网络应用提供有效的帮助。
  4 计算机软件数据挖掘技术的操作方法
  数据挖掘的操作方法的种类数不胜数,主要有决策树方法、粗集方法、覆盖正例排斥反例方法、统计分析方法和模糊集方法等。决策树经常被应用于预测模型,它将大量的数据进行分类,获得重要的、有价值的信息,因为对数据处理的速度快,所以很适合用于大规模的数据分类;粗集实际上是一种数学工具,通常用于研究不准确的数学知识,它不需要额外的信息就能获得所需的数据,而且算法简单,便于操作。它的处理对象大多是类似于二位的信息表,但不能处理连续的数据,所以连续属性的离散化是影响粗集方法实用化的重点;覆盖正例排斥反例方法就是在正例集合中任意选择一个数据,在到反例中逐个对比,与所选值相容的就舍弃,相反的就保留下来,不断循环;在庞大的数据库中,每个数据之间只存在两种关系:函数关系和相关关系,而对这两种关系的分析就需要用到统计分析方法,它可以找出数据中的最大值、最小值、求和、平均值等,还可以统计回归分析、相关分析、差异分析所得出的数值差异来确定所有数据之间的不同;根据字面意思理解,模糊集是思维的基本形式之一,就是对事物进行模糊判断、模糊识别、模糊分析等。互联网系统的应用程度越繁琐,模糊集的作用就越大,传统的模糊集合还可以分为5个分支,它们之间并非是独立的,而是相辅相成的,有着紧密的联系。
  5 计算机软件数据挖掘技术的应用
  随着时代的变迁,数据挖掘技术成为了一种前沿科技,对数据挖掘技术的研发变得非常重要,其占据了现如今网络市场的主导地位。当今社会,人们对个人数据信息的保护越来越看重,而各种支付方式的出现就增加了信息泄露的风险。在这种情况下,数据挖掘技术就显得十分重要,它既保护了信息的安全又提高了对有效数据获取的效率。不仅如此,它在其他领域的应用也非常广泛,例如在检测克隆技术的代码中能有效地阻止错误代码的传播。任何一种程序的研究都需要不断地试错,这样才能提高应用软件的质量,同时还能解决突发状况的发生。对相关研究人员来说,要准确地分析各个数据之间的关系,并及时对计算机内的数据信息进行清理和整合分析才能有效地降低数据泄露的风险,保证用户的网络安全,提供良好的上网环境。在故障检测方面需要研究人员的关注,因为数据挖掘技术比较复杂,所以故障檢测技术需要不断地进行优化,以便网络系统的正常运行。
  6 数据挖掘技术的模式
  计算机软件数据挖掘技术的模式很多、种类丰富,但是大多采用表格的形式。对于企业来说,这种模式能让商家更加直观地了解消费者的信息,并通过这种技术手段对获得的数据进行分析,让商家清楚消费者的喜好,以便于以后的营销。对于个人用户来说,数据挖掘技术可以清理更深层的垃圾,例如有些应用软件看似被删除了,但其实依旧存在,只是隐藏在电脑的深处,发现不了而已。而随着这些无用的信息的堆积,就会降低电脑的运行速度,减少内存的使用量,对用户造成不必要的麻烦。所以在计算机的使用过程中,运用数据挖掘技术及时清理这些垃圾可以更好地保护电脑的使用寿命。对于研发者来说,不断地完善这种技术,提高用户的使用效果才能提升自身的市场竞争力,拥有更好的发展前景。
  7 基于关联分析的数据挖掘技术
  7.1 关联分析的方法
  关联分析是一种简单实用的分析技术,就是发现数据信息之间的关系,并总结出一些规律。简单来说就是发现交易数据库中不同商品之间的联系,从而对一些事物进行分析得出某种规律。在关联分析方法中Apriori算法是几大重要算法之一。它运用逐层搜索的方法有效地缩小了频繁项集的搜索空间。但它也有不足之处,它的算法繁琐复杂、准确度不高,而这就需要科研人员不断地完善并努力优化这项技术。可以运用划分的方法,将数据库分成几个互不相交的块;也可以通过哈希算法进行改进,还有减少交易个数等方法,但主要目的就是改善它繁琐的对象挖掘过程,降低计算难度,同时避免数据的重复,减少数据存储所占的空间。
  7.2 关联规则的生成
  把频繁项集划分成前件和后件两个部分,然后求前件到后件的置信度,如果大于最小置信度阈值,那么它就是一条强关联规则。不同的算法有不一样的关联规则,也就会产生差异,比如有Apriori算法、GA-Apriori算法和文本算法等,专家们曾经测试过,在用各种算法进行数据挖掘的时候,在这几种算法中文本算法在相同时间内处理数据所消耗的时间最少,也就是说它的效率与其他两种算法相比是最高的,因为它对计算机数据库进行了改进,减少了其他算法不重要的操作,而且也没有Apriori算法那么复杂,能让人们在短时间内获得强关联规则的频繁项集,
  8 结束语
  随着计算机技术的发展,数据挖掘技术越来越被重视,不论是对企业还是个人,它都是一个值得关注和讨论的话题,它在未来计算机领域将会有很大的发展前景。作为研发者,要保证开发出来的技术真实可靠,所以就要对每个岗位的人员安排进行严格的管理,以确保研发技术的质量。作为营销者,不断改进营销模式,提高营销策略才能将这项技术推向大众,让更多消费者体验到这一技术的优势。而为了保证计算机技术的高精准度,高效性和方便性,技术人员要注重对它的完善和改进,降低计算过程中的复杂程度和计算量,提高对数字的计算速度,不断优化它的挖掘效果,提升用户的体验感。
  参考文献
  [1] 兰园淞,刘雪萍,庞少红,等.基于logistic回归与Apriori数据挖掘技术的护理专业学生实习与就业关联研究[J].广西教育,2020(7):58-61,69.
  [2] 张稼,陆兴华.基于语义关联特征的大型信息管理系统数据挖掘技术[J].电子测量技术,2019,42(4):85-89.
  [3] 王进忠.基于数据挖掘和可视化技术的计算机应用基础教学评价[J].中外企业家,2020(17):206.
其他文献
文章从协同学理论视角出发,结合学校体育及风险管理,寻找农村学校体育风险管理中的差异与同一、部分与整体、竞争与合作之间的关系,旨在推进农村学校体育风险管理的可持续发展,引导农村学校体育风险管理向有序状态发展。
近现代以来,人类文明形态的历史演进与各国家对现代化道路的甄选紧密相关,相较于资本逻辑下对人与社会存在发展的禁锢,中国式现代化道路的探索、确立、发展从目标旨趣、发展理念、原则方法等方面展示出了\"新\"意,丰富了现代化理念与实践,打破了西方现代化道路对人类文明形态200余年的垄断,实现了对人类文明形态的变革。中国式现代化道路落实以人民为中心的发展思想,探索人类的自由解放,从人与自身、人与人、人与社会、人与自然、人与世界关系等多种角度,不仅实现了人口规模最大的现代化,而且以共同富裕、两个文明、绿色发展
本文对两版圆体类龟腹甲的卜辞释文进行了重新释读,纠正了以往释文的一些错误,提出了一些新的看法和值得注意的现象。
人类命运共同体理念自提出以来,引发海内外广泛热议,得到世界范围的广泛认可。随着这一理念被写入联合国相关决议,推动构建人类命运共同体已成为全球共识。外界围绕人类命运共同体理念提出的动机、意涵、前景等多方面展开了深入探讨,形成了丰硕的研究成果。但是,也存在一些对人类命运共同体的错误论调,如认为这一理念是所谓的国际修正主义、地缘政治挑战、中国霸权工程或出口中国模式的政治工具等谬论。批驳这些错误论调、回应争议与误解,对把握国际话语权,进而推动构建人类命运共同体具有重大现实意义。
基于2007年1月至2020年6月的月度数据,运用结构向量自回归(SVAR)模型分析经济政策不确定性、宏观杠杆率和金融稳定性的动态关系,并运用门限模型分析经济政策不确定性和宏观杠杆率对金融稳定性的门限效应和非对称影响。实证研究发现经济政策不确定性和宏观杠杆率是双向因果关系;经济政策不确定性是金融稳定性的格兰杰原因;经济政策不确定性的上升会显著提高宏观杠杆率,降低金融稳定性,宏观杠杆率的上升对金融稳定性产生负面影响;财政与货币政策不确定性的提高都会对金融稳定性造成不利的消极影响;经济政策不确定性和宏观杠杆率
在近代早期的英国,乌托邦作品大量涌现,它们针砭时弊,提出了诸多理想社会的制度蓝图,是社会主义思想史上的绚丽篇章。乌托邦写作之所以在这一时期的英国兴起并持续百年,与英国转型时代的社会分化及其引发的经济伦理危机有关,这反映在乌托邦作品中社会批判与制度建构两个方面。乌托邦思想家对现实社会进行批判,是为了解释社会何以分化这一问题,而对理想社会的建构,则意在调和社会关系,防范贫富分化。由此,乌托邦思想对近代社会主义思想的贡献,体现在创造性地探讨了经济思想与经济行为的道德合理性,\"平等\"开始成为社会主义所
笔者在常年从事广告史研究的过程中,心中反复生发出一个疑问:那就是和一些兄弟学科如文学史、新闻史、艺术史、设计史等相比,广告史研究似乎缺乏一些研究范式的自觉反思与学科建构意识。在这些兄弟学科纷纷举办“世界艺术史大会”“中国文学史学科百年学术讨论会”等各种大型学术研讨会、探讨学科建设与发展问题之时,学术界关于广告史研究的讨论却还停留在“广告史应该由学者还是广告人来撰写”之类基本的讨论。从广告学研究历史来看,虽然民国时期就已经出现了如来生的奠基性著作《中国广告事业史》,[1]但在今天的高等院校中,“广告史”讨论
鸭瘟是由鸭瘟疱疹病毒引起的急性、败血性和高度致死性传染病,传播迅速,流行广泛,严重危害养鸭业健康发展。本文对鸭瘟的流行特点、临床症状、病理变化、诊断、治疗和防控措施等方面阐述,希望为广大养鸭户提供科学参考。
年少成名天资聪慧“三分天下诸葛亮,一统江山刘伯温”“前朝军师诸葛亮,后朝军师刘伯温”,民谣中这位能跟蜀汉丞相诸葛亮相提并论的奇人就是刘伯温,他以神机妙算闻名于世。刘伯温,本名刘基,伯温是他的字。公元1311年,刘基出生在浙江青田一个官僚世家,从小聪慧过人,勤奋好学,据说阅读速度很快,一目七行,过目不忘,乡里人称他为神童。
[摘 要]造纸行业应用的自动化系统种类繁多,通常会将各类系统整合到技术成熟且兼容性高的DCS平台上做集中控制,纸机控制系统就是典型的系统集成代表。介绍纸机控制系统的主要构成和各部分子系统的特点,描述了一种以DCS为基础对各部分系统进行集成的设计方案,同时也对纸机控制系统发展方向进行了探讨。  [关键词]造纸工业;纸机控制系统;DCS;PLC  [中图分类号]TS736;TP29 [文献标