下面用决策树法训练最节约时间的是减少数。
决策树模型因为其特征预处理简单、易于集成学习、良好的拟合能力及解释性,是应用最广泛的机器学习模型之一。
决策树算法在决策领域有着广泛的应用,比如个人决策、公司管理决策等。算法逻辑模型以“树形结构”呈现,因此它比较容易理解,并不是很复杂,我们可以清楚地掌握分类过程中的每一个细节。
控制决策树的复杂度:若所有叶结点都是纯的,模型过于复杂,训练集拟合度过高,出现过拟合。两种方法防治过拟合:预剪枝:限制树的生长到某一次停止。限制树的最大深度、叶结点的最大数目后剪枝:生成纯树以后把信息少的结点删掉。
常见决策树分类算法
1、CLS算法
最原始的决策树分类算法,基本流程是,从一棵空数出发,不断地从决策表选取属性加入数的生长过程中,直到决策树可以满足分类要求为止。CLS算法存在的主要问题是在新增属性选取时有很大的随机性。
2、ID3算法
对CLS算法的最大改进是摒弃了属性选择的随机性,利用信息熵的下降速度作为属性选择的度量。ID3是一种基于信息熵的决策树分类学习算法,以信息增益和信息熵,作为对象分类的衡量标准。
ID3算法结构简单、学习能力强、分类速度快适合大规模数据分类。但同时由于信息增益的不稳定性,容易倾向于众数属性导致过度拟合,算法抗干扰能力差。