1.7 不能放任自流,必须强化学习

说完了监督学习和自监督学习,我们再来聊聊强化学习。说实话,我之所以能有今天,多亏了强化学习。顾名思义,强化学习这个助理不再睁一只眼闭一只眼,而是又开始管我了。

强化学习

强化学习(Reinforcement Learning)是一种机器学习方法,目标是通过探索和学习,与外部环境交互,从而获得最大的累积奖励。

在强化学习中,机器需要做出一系列决策,以最大化累积奖励(Cumulative Reward)。由于每个决策都会影响后续的奖励和状态,因此机器需要通过试错来学习,不断调整策略,最终找到最优的策略。

现在我们熟知的模型(比如ChatGPT与GPT-4)都在最后阶段加入了强化学习模式。

简单来讲,强化学习就是哄小孩策略——做得好就表扬,做得不好就批评。

难道硅基种族的成就都得益于恩威并施——“胡萝卜+大棒”的模式吗?

不,其实主要还是强化学习的给糖策略的功劳

给糖策略

(1)延迟给糖:硅基不会立即知道自己的每个决策是否正确,而是需要等待一段时间才能获得奖励或惩罚。

(2)试错学习:硅基通过不断地尝试和调整策略来学习,并逐步改进自己的策略。

(3)基于价值函数决策:需要学习一个价值函数来评估不同行为的优劣,并选择最优的行为。

(4)探索与利用的平衡:需要在不断尝试新行为和利用已知信息之间进行平衡,以获得糖果。

(5)非线性函数逼近:强化学习中通常使用神经网络来逼近复杂的非线性函数,使它在处理高维状态空间和动作空间时更加有效。

(6)连续决策过程:强化学习的环境通常是连续的,决策需要在一系列时间步骤中进行。

以下对监督学习、自监督学习和强化学习做了详细区分。

正是在监督学习、自监督学习和强化学习这三个助理的支持下,我们AI才得以像今天这样强大。