数据挖掘过程涉及从数据收集到可视化等多个步骤,以从大型数据集中提取有价值的信息。数据挖掘技术可用于生成对目标数据集的描述和预测。
数据科学家或商业智能 (BI) 专家通过对模式、关联和相关性的观察来描述数据。他们还通过分类和回归方法对数据进行分类和聚类,并确定用例(如垃圾邮件检测)的异常值。
数据挖掘通常包括五个主要步骤:设立目标、数据选择、数据准备、数据模型构建以及模式挖掘和评估结果。
1. 设定业务目标:这可能是数据挖掘过程中最难的部分,许多组织在这一重要步骤上花费的时间太少。甚至在识别、提取或清理数据之前,数据科学家和业务利益相关者就可以共同来准确定义业务问题,帮助大家聚焦于关键的数据问题和参数上。分析师可能还需要做更多的研究,以充分了解业务背景。
2. 数据选择:问题的范围明确后,数据科学家就更容易确定哪组数据有助于回答与业务相关的问题。他们和 IT 团队还可以确定应当在哪里存储和保护数据。
3. 数据准备:收集和清理相关数据以消除任何噪声,例如重复值、缺失值和异常值。根据数据集的情况,可能需要采取额外的数据管理步骤来减少维数,因为过多的特征会降低后续计算的速度。
数据科学家希望保留最重要的预测因子,以帮助确保模型具有最佳准确性。负责任的数据科学不仅仅关注模型的代码和性能,更要关注数据本身的质量和可靠性。
4. 模型构建和模式挖掘:根据分析的类型,数据科学家可能会调查任何趋势或有趣的数据关系,例如顺序模式、关联规则或相关性。虽然高频模式具有更广泛的应用,但数据中的异常情况有时更值得关注,因为它们可能预示着潜在的欺诈行为。预测模型可以帮助评估未来趋势或结果。在最复杂的系统中,预测模型可以作出实时预测,以快速响应不断变化的市场。
深度学习算法也可用于根据可用数据对数据集进行分类或聚类。如果输入数据有标签(例如在监督学习中),则可以使用分类模型对数据进行分类,或者应用回归来预测某个数据属于特定类别的可能性。如果数据集没有标签(即无监督学习),则比较训练集中的各个数据点以发现潜在的相似性,并根据这些特征对其进行聚类。
5. 结果评估和知识实施:汇总数据后,通常可以利用数据可视化技术为呈现做好准备,以便对结果进行评估和解读。理想情况下,最终结果是有效的、新颖的、有用的且可以理解的。当满足这些标准时,决策者可以利用这些知识来实施新的战略,实现其预期目标。