机器学习:我们必须掌握的必备知识
推荐
在机器学习的过程中,我们需要对机器学习有深入的了解,才能更加自信的驾驭机器学习,但是很多朋友因为不知道如何选择算法或者不会了解其中的知识,花费了时间和精力也无济于事。在这篇文章中,我们将着重向大家介绍在机器学习中我们必须掌握的必备知识。
偏差和方差
我们需要了解机器学习过程中的偏差和方差。 在统计学中,模型的质量是根据偏差和方差来衡量的。 因此,我们有必要了解偏差和方差的知识。 首先,偏见描述了预测。 值(估计值)的期望E与真实值Y之间的差距。偏差越大,越偏离真实数据。 方差描述了预测值P的变化范围,离散程度就是预测值的方差,即与其期望值E的距离。方差越大,说明数据分布越分散。
一般来说,如果是小训练集,高偏差/低方差分类器比低偏差/高方差大分类器有更大的优势,因为后者会过拟合。 但是,随着训练集的增长,模型对原始数据的预测能力越好,偏差就越小。 这时候低bias/high variance的分类器就会逐渐显示出优势,而high bias的分类器就会逐渐显示出优势。 时间已不足以提供准确的模型。
如何选择算法
那么我们如何选择合适的算法呢? 事实上,我们首先应该选择的算法是逻辑回归。 如果其效果不显着,那么其结果可以作为基准进行参考,并在此基础上与其他算法进行比较。 那我们试试决策树或者随机森林的知识,看看能不能大大提高你模型的性能。 即使最后我们不把它作为最终的模型,我们也可以用随机森林去除噪声变量,做特征选择。 当然,如果特征和观察样本的数量特别多,那么在资源和时间充足的情况下,使用SVM也是一种选择。 现在深度学习非常流行,应用在很多领域。 它基于神经网络。 算法固然重要,但好数据胜过好算法。 设计好的功能是有很大好处的。 如果我们有一个非常大的数据集,那么无论我们使用哪种算法都可能不会对分类性能产生太大影响。
在这篇文章中,我们向大家介绍了机器学习中涉及的偏差和方差的相关内容,同时也介绍了如何选择合适的算法。 这些知识可以帮助大家更好的理解和掌握机器学习,所以我们在学习机器学习或者从事机器学习领域工作的时候一定要注意算法的选择。