随机森林优于神经网络对比机器学习和深度学习 有证据显示神经网络优于许多领域的机器学习算法。后者不断学习,直到得出满足预测值的最佳功能集。 然而神经网络将变量放大成一系列的数字,一旦它完成了学习阶段,对我们来说,特征就变得无法区分了。 如果只考虑预测,神经网络就是一直使用的事实上的算法。但是在行业环境中需要模型,它可以为利益相关者赋予特性或变量意义。这些利益相关者可以是任何人,不只是懂深度学习或机器学习知识的人。 随机森林和神经网络最大的区别是什么? 随机森林和神经网络是不同的技术,学习方式不同,但可以在类似的领域使用。随机森林是机器学习的技术,而神经网络则是深度学习的技术。 什么是神经网络? 神经网络是计算模型网络,它大体上模拟了人类大脑皮层功能,可以复制出和人类一样的思维和感知方式。神经网络是由相互连接的节点组成的层次结构,这些节点包含计算网络输出的激活函数。 神经网络是机器学习的另一种方法,计算机通过分析训练样本学习执行任务。因为神经网络大致模拟人脑,所以会包括成千上万个相互连接的节点。一个节点可以连接到它下级层中接收数据的几个节点,以及它上级层接收数据的几个节点。每个输入数据点接收一个权值,会对其进行加减乘除运算。如果加权和等于零,就会增加一个偏差,然后传递给激活函数。 神经网络的结构 神经网络有3个基本结构 1. 单层前馈网络 · 它是感知器的扩展,是最简单的网络。输入层和输出层之间有额外的隐藏节点。 2. 多层前馈网络 · 除了输入和输出外,这种类型的网络还有一个或多个隐藏层。它负责输入层和输出层之间的数据传输。 3.递归网络 · 递归神经网络与上述两者类似,但广泛应用于文本和时间等序列数据的预测。最有名的递归神经网络就是“长短记忆”模型(LSTM)。 什么是随机森林? 随机森林是决策树的集合,因此,最终节点/叶节点将是分类问题的多数类或回归问题的平均类。 一个随机森林会长出许多分类树,对于树的每个输出,称之为该树为该类的“投票”。树是这么生长起来的: 1. 每棵树行的随机样本从训练数据中抽取。 2. 从步骤1选出样本后,利用特征子集在选出的树上进行拆分。 3. 每棵树都按照参数指定的最大范围生长,直到它对类进行投票。 为什么推荐随机森林? 使用随机森林而非决策树的根本,是将多个决策树的预测组合成一个模型。逻辑就是一个由许多平庸的模型组成的模型,仍然优于一个单一的好模型。看看随机森林的主流表现,就知道这是有道理的。因此,随机森林不易产生过拟合。 在决策树这样的柔性模型中,可能会出现过拟合,模型会记住训练数据,并学习数据中的任何干扰。这将使它无法预测测试数据。 随机森林可以将多棵树组合成一个集合模型,这能降低决策树等柔性模型的高方差。 相比于神经网络,什么时候该使用随机森林? 随机森林计算成本较低,不需要依靠GPU完成培训。随机森林可以提供决策树的不同解释,并且具有更好的性能。神经网络需要普通人手头更多的数据才能真正有效。神经网络只会简单地破坏特征的可解释性,以至于为了性能而变得毫无意义。虽然听起来有些道理,但还是要看每个项目具体分析。 如果目标是创建预测模型,不考虑变量的影响,强烈推荐神经网络,但是需要资源来实现这一点。如果需要了解变量,那么不管个人喜好,在这种情况下通常会发生的情况是:性能受到轻微的影响,以确保仍然可以了解每个变量是如何为预测模型作贡献。