開云世界杯官網 - 世界杯(中國) 英偉達推出 AI 框架 Polar,讓 Codex 跑分暴漲 594.74%

導語:英偉達磋磨團隊本周發布開源框架 Polar,在不禁錮原有器用調用、高下文組織和補丁提交樣子的前提下,讓 Codex、Claude Code、Qwen Code 等現存智能體框架接入 GRPO(廣義相對戰略優化)檢會。
IT 之家? 5 月 28 日音塵,英偉達磋磨團隊本周發布開源框架 Polar,在不禁錮原有器用調用、高下文組織和補丁提交樣子的前提下,讓 Codex、Claude Code、Qwen Code 等現存智能體框架接入 GRPO(廣義相對戰略優化)檢會。

IT 之家注:GRPO 是一種面向強化學習檢會的優化步調,會依據獎勵信號診療模子戰略,讓模子在多步方案任務里學會更優動作。
本文里,GRPO 主要用于代碼智能體檢會,讓模子在信得過器用調用和補丁提交經由中捏續糾正發揚。
論文指出智能體強化學習正從單步任務轉向長經由任務,比如代碼倉庫修改、瀏覽器操作和操作系統交互。這類任務經常依賴現成實施框架,包含多輪調用、器用使用、高下文壓縮和子智能體互助。
現存難點在于,這些框架很難徑直改寫成傳統強化學習環境接口,一朝強行接入,還可能丟失重要檢會信號。
英偉達 Polar 并非重寫智能體框架,聚焦在模子 API 范圍放棄智能體,基本不蛻變原有 harness。
harness 指 Codex CLI、Claude Code、Qwen Code、Pi 這類智能體運行外殼。傳統強化學習基礎設施時常條件把這類邏輯改寫到近似 ? env.init ? ( ) 、env.step ? ( ) 、env.reset ? ( ) 的環境接口里,接入資本高,開云足球世界杯中國官網入口還可能丟失原生實施細節。
pg娛樂麻將胡了中國最新版APP下載
Polar 的核神思劃,是把智能體與模子之間的接口看成檢會范圍,而不是把實施框架自身改釀成環境。
它在實施框架和推理作事器之間放棄模子智能體,兼容 Anthropic、OpenAI、Google 作風央求,轉發央求時紀錄教唆詞、采樣 Token、對數概率和反應踐諾,再把這些信息重建成可供檢會器徒然的軌跡。
在系統結構上,Polar 由 rollout server 和 gateway node 構成。前者負職守務提交、會話診療、情狀捏久化和回調采納;后者老成會話實施全生命周期,包括運行時啟動、實施框架準備、軌跡構建、約束評測和資源回收。
論文還把開動化、運行中、后解決拆到孤苦職責池,并建筑 READY 緩沖區,讓運行時預熱和評測預熱在后臺并行,減少長尾任務對 GPU 檢會的攪擾。
實驗部分聚焦軟件工程任務。基于兼并個 Qwen3.5-4B 底座模子,在 Codex、Claude Code、Qwen Code、Pi 4 種代碼實施框架上,Polar 配合 GRPO(組相對戰略優化)檢會后,在 SWE-Bench Verified 的 pass@1 分數區分從 3.8% 升遷到 26.4%(增漲 594.74%)、29.8% 升遷到 34.6%、34.6% 升遷到 35.2%、34.2% 升遷到 40.4%。
在約束方面,prefix_merging 比較 per_request,把 3 個檢會設施中的更新數從 1185 次降到 218 次,墻鐘時分從 189.5 分鐘裁減到 35.2 分鐘,約快 5.39 倍;rollout GPU 平均應用率也從 20.4% 升到 87.7%。
(著作為作家孤苦不雅點開云世界杯官網 - 世界杯(中國),不代表艾瑞網態度)