数据挖掘是分析大量数据以发现商业智能的过程,商业智能有助于公司解决问题、降低风险和抓住新的机遇。数据挖掘又称数据库中的知识发现,是计算机科学中在大量数据中发现感兴趣的、有用的模式和关系的过程。分析数据质量社区,等你加入~
该领域结合了统计学、人工智能和数据库管理的工具来分析大型数字集合(称为数据集)。数据挖掘广泛应用于商业、科学研究和政府安全。它是在大型数据集中发现异常、模式和相关性以预测结果的过程。这是公司用来将原始数据转化为有用信息的过程。
数据挖掘过程的步骤组织收集数据并将其加载到数据仓库中。它们在内部服务器或云上存储和管理数据。业务分析人员、管理团队和信息技术专业人员访问数据并确定他们想要如何组织数据。应用软件根据用户的结果对数据进行排序。最终用户以易于共享的格式(如图形或表格)显示数据。
(资料图片)
数据挖掘从业者通常通过遵循结构化且可重复的过程来获得及时可靠的结果,该过程包括以下六个步骤:
1.商业理解
充分了解项目参数,包括当前的业务情况、项目的主要业务目标和成功标准。
2.数据理解
确定解决问题所需的数据,并从所有可用的来源收集数据。
3.数据准备
以适当的格式准备数据,以回答业务问题并解决任何数据质量问题,例如丢失或重复的数据。
4.建模
使用算法识别数据中的模式。
5.估价
确定给定模型提供的结果,以及它如何帮助实现业务目标。为了得到最好的结果,通常会有一个寻找最佳算法的迭代阶段。
6.部署
向决策者提供项目结果。
数据挖掘技术
组织可以使用许多数据挖掘技术将原始数据转化为可操作的见解。这些技术包括从高级人工智能到基础数据准备,这些技术对于实现数据投资价值最大化至关重要:
1.模式跟踪
模式跟踪是数据挖掘的一项基本技术。它是关于识别和监控数据中的趋势或模式,以便对业务结果做出明智的推断。例如,当确定一种产品在特定人群中比其他产品卖得更好时,组织可以使用这种知识来创建类似的产品或服务,或者简单地为该人群存储更好的原始产品。
2.数据清理和准备
数据清洗和准备是数据挖掘的重要组成部分。原始数据必须经过清理和格式化,以便用于各种分析方法。数据清理和准备包括各种元素,如数据建模、转换、迁移、集成和聚合。这是理解数据的基本特征和属性以确定其最佳用途的必要步骤。
3.分类
基于分类的数据挖掘技术包括分析与不同类型数据相关的各种属性。一旦组织确定了这些数据类型的主要特征,他们就可以对相应的数据进行分类。这对于识别例如组织可能希望保护或从其记录中删除的个人可识别信息是至关重要的。
4.异常值检测
异常值检测可以识别数据集中的异常情况。一旦组织在其数据中发现异常值,就更容易理解这些异常的原因,并为将来可能出现的异常值做好准备,以更好地实现业务目标。例如,如果交易信用卡系统的使用在一天的某个时间达到高峰,组织可以使用该信息通过找到高峰的原因来优化一天剩余时间的销售。
5.关系
关联是一种与统计学相关的数据挖掘技术。它表示某些数据与其他数据或数据驱动的事件相关。类似于机器学习中的共生概念,一个基于数据的事件的概率用另一个事件的存在来表示。这意味着两个数据事件之间存在联系:例如,当你买一个汉堡时,你经常会买薯条。
6.使聚集
聚类是一种依赖可视化方法来理解数据的分析技术。聚类机制使用图表来显示数据的分布以及不同类型指标的分布位置。图解法是运用聚类分析的理想方法。特别是通过图形和集群,用户可以直观地看到数据是如何分布的,以确定与其业务目标相关的趋势。
7.返回
回归技术可用于识别数据集中变量之间关系的性质。在某些情况下,这些关系可能是因果关系,或者只是相互关联。回归是一种简单的白盒技术,可以清楚地揭示变量之间的关系。回归技术用于预测和数据建模的某些方面。
8.按序方式
这种数据挖掘技术侧重于发现一系列按顺序发生的事件。它对于事务数据挖掘特别有用。例如,这项技术可以揭示顾客第一次购买一双鞋后最有可能购买哪些衣服。理解序列模式可以帮助组织向客户推荐其他产品以促进销售。
9.预报
预测是数据挖掘的一个非常强大的方面,也是分析的四个分支之一。预测使用当前或历史数据中的模式将它们扩展到未来。通过这种方式,它使组织能够洞察未来数据的发展趋势。有几种不同的方法可以使用预测分析,其中一些方法更高级,涉及机器学习和人工智能。
10.决策图表
决策树是一种特定类型的预测模型,它使组织能够有效地提取数据。从技术上来说,决策树是机器学习的一部分,但由于其极其简单的性质,被称为“白盒”机器学习技术。决策树允许用户清楚地了解数据输入如何影响结果。当多个决策树模型组合在一起时,它们会创建一个称为随机森林的预测分析模型。
1.神经网络
神经网络是一种特定类型的机器学习模型,通常用于人工智能和深度学习。它们被称为神经网络是因为它们有不同的层,类似于人类大脑神经元的功能。神经网络是当今使用的最准确的机器学习模型之一。
12.形象化
数据可视化是数据挖掘的另一个重要部分。它们为用户提供基于人们可以看到的感官感知的数据视图。今天的数据可视化是动态的,对于实时数据流非常有用。它的特点是用不同的颜色显示数据的不同趋势和模式。
Dashboard是一种使用数据可视化来揭示数据操作信息的强大方法。组织可以基于不同的指标构建仪表板,并使用可视化来突出数据中的模式,而不是简单地在统计模型中使用数字结果。
13.统计技术
统计是数据挖掘中大多数分析的核心。不同的分析模型是基于统计概念的,统计概念产生适合特定业务目标的数值。例如,神经网络使用基于不同权重和度量的复杂统计数据来确定图像识别系统中的图像是狗还是猫。
14.长期记忆加工
长期记忆处理指的是长时间分析数据的能力。存储在数据仓库中的历史数据对此非常有用。当一个组织可以长时间分析时,它可以识别出太细微而无法检测到的模式。
15.数据库
数据仓库是数据挖掘的重要组成部分。传统上,数据存储是将结构化数据存储在相关的数据库管理系统中,以便分析其商业智能、报表和基本仪表板。今天,有基于云的数据仓库和半结构化和非结构化的数据仓库,如Hadoop。
16.机器学习和人工智能
机器学习和人工智能代表了数据挖掘领域的一些最新发展。深度学习等先进的机器学习可以在处理大规模数据时提供高度准确的预测。因此,它们可以用于人工智能实现中的数据处理,例如计算机视觉、语音识别或使用自然语言处理的复杂文本分析。这些数据挖掘技术有助于确定半结构化和非结构化数据的价值。