机器学习和数据挖掘是两个相关但不完全相同的概念。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是数据挖掘的重要工具,它可以用来作为数据挖掘的一种手段,通过从数据中学习,寻找潜在规律以形成规则或知识。
数据挖掘则是有组织有目的地收集数据、分析数据,使之成为信息,从而在大量数据中寻找潜在规律以形成规则或知识的技术。数据挖掘的手段不限于机器学习,还包括诸如统计学等众多方法。大体上看,数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。
总的来说,机器学习和数据挖掘是相互关联的领域,它们在处理数据、寻找潜在规律和形成知识方面有着共同的目标。在实践中,它们常常是相互补充、相互促进的。