【資料圖】

IT之家 8 月 26 日消息,科技媒體 9to5Mac 昨日(8 月 25 日)發(fā)布博文,報道稱蘋果研究人員在最新論文中提出“基于清單反饋的強化學習”(RLCF)方法,用任務清單替代傳統(tǒng)人類點贊 / 點踩評分,顯著提升大語言模型(LLMs)執(zhí)行復雜指令能力。

IT之家注:RLCF 的全稱為 Reinforcement Learning from Checklist Feedback,不同于傳統(tǒng)的“人類反饋強化學習”(RLHF)依賴人工點贊 / 點踩,RLCF 為每條用戶指令生成具體的檢查清單,并按 0-100 分逐項評分,用以指導模型優(yōu)化。

研究團隊在強指令跟隨模型 Qwen2.5-7B-Instruct 上測試該方法,涵蓋五個常用評測基準。結果顯示,RLCF 是唯一在全部測試中均取得提升的方案:

  • FollowBench 硬性滿意率提升 4 個百分點
  • InFoBench 提高 6 點
  • Arena-Hard 勝率增加 3 點
  • 某些任務最高提升達 8.2%。

這表明清單反饋在復雜、多步驟需求的執(zhí)行中效果顯著。

清單的生成過程也頗具特色。團隊利用更大規(guī)模的 Qwen2.5-72B-Instruct 模型,結合既有研究方法,為 13 萬條指令生成了“WildChecklists”數(shù)據(jù)集。清單內(nèi)容為明確的二元判斷項,例如“是否翻譯成西班牙語?”。隨后,大模型對候選回答逐項打分,綜合加權后作為小模型的訓練獎勵信號。

蘋果研究者也坦言該方法存在局限。首先,它依賴更強模型作為評判者,這在資源受限場景下未必可行。其次,RLCF 專注于提升復雜指令執(zhí)行能力,并非設計用于安全對齊,因此不能替代安全性評估與調(diào)優(yōu)。對于其他任務類型,該方法的適用性仍需進一步驗證。

標簽: 翻譯 清單法 蘋果公司 知名企業(yè) 深度思