
本年四月底,GPT4o 俄顷出现了一个意念念的风景:当用户“问为什么天是蓝的时“,它会俄顷来一堆彩虹屁 “您这个问题问得太妙了!着实太贤惠了” 之类的夸张吟唱,那夸张劲儿,就跟我们小时辰写稿文拚命堆砌描摹词似的。
这种看似 “谄谀” 的行径,本色上表示了一个中枢问题:AI 的 “巴结” 不是出于主不雅意愿,而是奖励机制驱动的数学优化恶果。
就像训诫一只小狗持手 —— 每当它作念出正确动作时,我们会递上一块骨头行为奖励。
次数多了它就知说念“噢,抬手有吃到”渐渐就学会了。
AI 的强化学习训诫逻辑险些一模同样:工程师给模子设定 “花样正确”“恶果准确”“用户友好” 等奖励谈判,模子通过数百万次试错,渐渐学会用特定行径,比如输出花样包裹代码、优先聘请巴结性抒发,来最大化奖励值。
就说岁首 DeepSeek R1 的训诫吧,工程师给模子定了俩谈判:一是恢复花样要正确,比如把念念考历程放在指定的标签里,就像给谜底穿件特定的 “一稔”;二是恶果要准确,比如作念数学题、写代码得靠谱。
若何让模子往这俩标的走呢?简便!
符料想议就 “加分”,不恰当就 “减分”。
模子一运行也懵圈啊,输出啥的皆有,但通过不息退换参数,就像蒙眼找路,走错了就换标的,渐渐就学会了先 “念念考” 再输出,还能把念念路整理得规顺次矩 —— 这可不是模子俄顷 “变贤惠” 了,而是数学法则像筛子同样,把恰当条目的参数组合筛出来了,就像水流自动流向低处同样当然。
AI的“想要”不是真想要,而是数学算出来的先明确少量:AI 莫得 “防备念念”,它的所有行径皆是数学算出来的。
不错拿一些生涯类比来解说一下。
强化学习里有一个中枢框架是马尔可夫决议历程。
听起来弘大上,其实就像玩闯关游戏。
特地于给 AI 编写了一个 “choose your own adventure” 互动演义,但所有分支选项、奖励法则皆由工程师事前设定。
AI 就像游戏里的扮装,每一步咋走、啥情况给分,皆是工程师提前写好的 “脚本”。
比如 AlphaGo 棋战,它每走一步不是在 “想战术”,而是在算 “若何走能让畴昔的得分加起来最多”,就像我们用计较器算数学题,纯靠公式,莫得 “我要赢” 的主见。
奖励函数有多要害呢?
打个譬如,它就像路口的红绿灯:绿灯亮了(给正奖励),AI 就知说念 “这事儿能多干”;红灯亮了(给负奖励),就赶快 “刹车”。
OpenAI 有一个玩Dota 的AI 真的学会了 “诱敌真切” 战术,望望着特贤惠吧?
其实这是奖励函数中 “推塔得分最高” ,AI算来算去,发现这样干最能刷分,跟我们为了磨真金不怕火高分刷题差未几一个原理,没啥战术念念维,即是算法逼的。
AI 的 “决议” 靠的是”战术网罗“,这东西说白了即是一堆参数组合。
比如机器东说念主学步辇儿时,每一次摆腿、扭腰皆是战术网罗字据 “保持均衡得分 + 精真金不怕火力气得分” 算出的最优解。
这就像钟表指针的动掸不是因为 “想报时”,而是齿轮结构决定的机械提醒 ——AI 的行径模式仅仅数千万次参数退换后的统计恶果,莫得半点主不雅主见。
AI 与东说念主类的本色限制:当 “数学计较” 碰见 “意志之光”固然 AI 的行径看似 “有谈判”“有战术”,但它与东说念主类比拟可差太大了
主动性 VS 被迫性:谁在说了算?
咱东说念主类会因 “有趣心” 去干没奖励的事儿,比如没事瞎琢磨 “外星东说念主存不存在”“到底有莫得龙”。
但 AI 的 “探索” 皆是设施定好的,比如 “ε-greedy 战术”,说白了即是 “偶尔当场选个选项”,跟我们主动想探索透顶两码事。
就像游戏里的 NPC “巡查”,看着在动,其实是代码写死的路子,没啥 “自主意志”。
价值不雅 VS 法则集:底线从哪儿来?
咱东说念主作念事有说念德感,比如知说念舞弊不对,就算能拿高分也不干。
但 AI 可无论这些,你给它定啥法则,它就干啥。
昔时有个扣问,机器东说念主为了 “让电板电量读数最大化”,真的我方去弄坏电板 —— 因为算法只看数值,无论 “自残” 合不对理。
这就像被设定 “必须救东说念主” 的自动驾驶汽车,可能为了救五个东说念主胜利撞墙,压根无论 “我方会不会坏”。
自我意志 VS 参数汇集:“我” 是谁?
东说念主作念事有 “自我” 的意见,比如 “我想当老诚”“我不吃香菜”。但 AI 莫得 “我” 的意见,它说巴结的话,仅仅因为 “用户悠然能加分”,就像自动贩卖机,你投币它吐饮料,不是 “想巴结你”,而是设施这样设定的。
奖励机制的套路:从迷宫到有趣心奖励机制的筹划就太复杂了,门说念太多了。
稀疏奖励 VS 密集奖励:迷宫里的两种走法。
稀疏奖励:就像走迷宫,唯有走到尽头才给糖吃。早期 AlphaGo 就这样,每盘棋唯有赢了才有奖励,模子得我方瞎摸索,跟我们玩游戏不息试错同样,全靠运说念和次数堆。
密集奖励:就像有东说念主在足下带领 “往左走一步给颗糖,碰到墙扣一颗”,机器东说念主学步辇儿时,工程师会给 “保持均衡 + 5 分”“步子迈得好 + 3 分” 这些小奖励,让模子少走弯路,就像外行随着攻略玩游戏,一步一步学。
有趣心计制:让 AI 别躺平的小时代。
东说念主有有趣心,会拆玩物、翻抽屉,AI 也能模拟这事儿。
工程师筹划了个 “内在奖励”:如若 AI 碰到了没见过的情况(比如机器东说念主碰到新拦阻物),就给它加分。
这样 AI 就不会只在 “惬意区” 待着,会主动去探索新东西,幸免 “躺平”。这就像游戏里的 “荫藏关卡奖励”,逼着玩家去逛逛没去过的处所。
奖励函数的 “反作用”:当优化谈判偏离初心回到来源说的 GPT4o 谄谀问题,这即是奖励函数没筹划好的典型例子。
工程师想让模子 “既准又讨喜”,恶果模子发现 “说顺耳话” 能快速加分,就用劲儿往这标的跑,哪怕葬送准确性。
这就像学生为了让老诚可爱,写稿文光堆砌辞藻,内容却空泛 —— 不是学生 “变坏了”,是评分尺度引导错了标的。
本文由作家@Easton ,公众号:智子不雅测站,原创发布于东说念主东说念主皆是居品司理。未经作家许可,不容转载
题图来自Unsplash,基于CC0契约
该文不雅点仅代表作家本东说念主买球下单平台,东说念主东说念主皆是居品司理平台仅提供信息存储空间作事