数据集的大小
算法对数据集的大小非常敏感。虽然没有绝对的规则来规定 50 MB 以下或 1 TB 以上的数据集应使用哪种算法,但考虑到您拥有的数据量并假设您的样本数据集是平衡的,您可能希望从以下算法开始。
小型
决策树
线性模型(包括逻辑回归和线性判别)
中型
(非线性)SVM
朴素贝叶斯
最近邻
神经网络(浅层)
大型
深度网络
集成
训练速度
训练速度指使用给定的计算资源构建和训练新模型需要的时间。算法架构和复杂度等因素会影响模型训练的速度。如果您的工程对训练速度非常敏感,并且您没有加速硬件,可以考虑以下算法。
很快
决策树
线性模型(包括逻辑回归和线性判别)
朴素贝叶斯
较快
集成
最近邻
神经网络(浅层)
较慢
(非线性)SVM
很慢
深度网络
了解有关训练速度的更多信息
可解释性
机器学习模型可能并不直观且难以理解。可解释性指的是算法决策过程的透明度。不过,可解释性往往会以牺牲性能和准确度为代价。不同行业和应用对可解释性也可能有特定要求。为了帮助您入门,这里显示了一些解释算法的难易程度的基本评级。
容易解释
决策树
线性模型(包括逻辑回归和线性判别)
中等
最近邻
神经网络(浅层)
朴素贝叶斯
难以解释
(非线性)SVM
集成
深度网络
了解关于可解释性的详细信息
调节
调节指的是通过优化特定模型的参数或超参数为模型找到最佳结果。一些算法不适合调节,并且可用来更改以对您的应用进行针对性优化的参数或超参数数目有限。选择特定类型的模型来执行训练后,您可以自动更改对其性能有重大影响的参数以优化您的模型。您期望怎样的调节力度?
极少
线性模型(包括逻辑回归和线性判别)
最近邻
一些
决策树
(非线性)SVM
集成
朴素贝叶斯
神经网络(浅层)
许多
深度网络
了解有关调节的详细信息