观点惹争议不是真正的强化学习谷歌下场反对

观点惹争议：不是真正的强化学习，谷歌下场反对

机器之心报道编辑：杜伟RLHF与RL到底能不能归属为一类，看来大家还是有不一样的看法。AI大牛Karpathy又来科普人工智能概念了。昨日，他发推表示，「基于人类反馈的强化学习（RLHF）只是勉强算得上是强化学习（RL）。」Karpathy的全文解释如下：RLHF是训练大语言模型（LLM）的第三个（也是最后一个）主要阶段，前两个阶段分别是预训练和监督微调（SFT）。我认为RLHF只是勉强算得上RL，它没有得到广泛的认可。RL很强大，但RLHF却不然。让我们看看AlphaGo的例子，它是使用真正的RL训练的。计算机玩...

手机 2024-08-10 444 0 观点惹争议不是真正的强化学习谷歌下场反对

1