观点惹争议不是真正的强化学习谷歌下场反对

  • 观点惹争议:不是真正的强化学习,谷歌下场反对

    观点惹争议:不是真正的强化学习,谷歌下场反对

    机器之心报道编辑:杜伟RLHF与RL到底能不能归属为一类,看来大家还是有不一样的看法。AI大牛Karpathy又来科普人工智能概念了。昨日,他发推表示,「基于人类反馈的强化学习(RLHF)只是勉强算得上是强化学习(RL)。」Karpathy的全文解释如下:RLHF是训练大语言模型(LLM)的第三个(也是最后一个)主要阶段,前两个阶段分别是预训练和监督微调(SFT)。我认为RLHF只是勉强算得上RL,它没有得到广泛的认可。RL很强大,但RLHF却不然。让我们看看AlphaGo的例子,它是使用真正的RL训练的。计算机玩...

1

最近发表