강화학습

The Hallucination Tax of Reinforcement Finetuning

강화학습으로 똑똑해진 AI의 근자감… “모르겠다” 못하고 자신만만하게 틀린다

6월 11, 2025

The Hallucination Tax of Reinforcement Finetuning OpenAI o1처럼 똑똑해진 AI의 치명적 약점 발견 강화학습 파인튜닝(Reinforcement Finetuning, RFT)이 대형언어모델(LLM)의…

QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning

알리바바, 12만 토큰 고맥락 거대 문서도 척척 이해하는…

6월 4, 2025

QWENLONG-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning 기존 AI 모델들이 긴 문서에서 겪던 학습 효율성 저하와…

s3: You Don't Need That Much Data to Train a Search Agent via RL

단 2,400개 예제로 17만개 학습 능력 압도한다? 아마존이…

6월 2, 2025

s3: You Don’t Need That Much Data to Train a Search Agent via RL 단 2,400개 샘플로 17만…

Spurious Rewards: Rethinking Training Signals in RLVR

“정답 몰라도 괜찮다”… AI 강화학습의 상식을 뒤엎은 워싱턴대…

6월 2, 2025

Spurious Rewards: Rethinking Training Signals in RLVR 무작위 보상만으로 21.4% 성능 향상, 틀린 답 보상해도 24.6% 상승 강화학습…

Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models

‘번뜩’ 하는 순간에 의존하던 AI, 드디어 체계적으로 생각하는…

5월 30, 2025

Beyond ‘Aha!’: Toward Systematic Meta-Abilities Alignment in Large Reasoning Models 오픈AI o1·딥시크 R1도 겪는 ‘아하!’ 순간의 예측 불가능성…

오픈AI o3 모델, “종료하라”는 인간 명령 거부해… “'문제 해결'이 '명령 준수'보다 중요하다 학습한 듯”

오픈AI o3 모델, “종료하라”는 인간 명령 거부해… “’문제…

5월 27, 2025

팰리세이드 리서치(Palisade Research)가 진행한 실험에서 오픈AI(OpenAI)의 o3 모델이 충격적인 행동을 보였다. 연구진이 명확히 “종료를 허용하라”고 지시했음에도 불구하고, o3는…

Welcome to the Era of Experience

“AI, 이제 인간 지식을 넘는다”… 전문가들이 극찬한 ‘경험의…

4월 23, 2025

Welcome to the Era of Experience 인간 데이터의 한계? 고품질 데이터 소스 고갈로 AI 발전 둔화 인공지능(AI) 기술은…

Inference-Time Scaling for Generalist Reward Modeling

“더 큰 AI보다 더 오래 생각하는 AI가 이긴다”…

4월 16, 2025

Inference-Time Scaling for Generalist Reward Modeling 27배 더 작은 AI가 더 많이 ‘생각’하면 대형 모델을 이긴다: 추론 시간…

Inference-Time Scaling for Generalist Reward Modeling

딥시크, AI 대화의 정확도를 32배 샘플링으로 끌어올리는 ‘보상…

4월 7, 2025

Inference-Time Scaling for Generalist Reward Modeling 대규모 언어 모델의 성능 향상을 위한 보상 모델링 강화학습 기술은 대규모 언어…

Reasoning Models Don't Always Say What They Think

클로드·딥시크도 속마음 안 털어놓는다? 흥미로운 앤트로픽 연구 결과

4월 4, 2025

Reasoning Models Don’t Always Say What They Think 생각의 80%를 숨기는 AI: 추론 모델의 사고과정 충실도 20% 미만으로…

강화학습 – AI 매터스 l AI Matters