강화학습

The Hallucination Tax of Reinforcement Finetuning

강화학습으로 똑똑해진 AI의 근자감… “모르겠다” 못하고 자신만만하게 틀린다

6월 11, 2025

The Hallucination Tax of Reinforcement Finetuning OpenAI o1처럼 똑똑해진 AI의 치명적 약점 발견 강화학습 파인튜닝(Reinforcement Finetuning, RFT)이 대형언어모델(LLM)의…

QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning

AI Report

알리바바, 12만 토큰 고맥락 거대 문서도 척척 이해하는…

6월 4, 2025

QWENLONG-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning 기존 AI 모델들이 긴 문서에서 겪던 학습 효율성 저하와…

s3: You Don't Need That Much Data to Train a Search Agent via RL

AI Report

단 2,400개 예제로 17만개 학습 능력 압도한다? 아마존이…

6월 2, 2025

s3: You Don’t Need That Much Data to Train a Search Agent via RL 단 2,400개 샘플로 17만…

Spurious Rewards: Rethinking Training Signals in RLVR

AI Report

“정답 몰라도 괜찮다”… AI 강화학습의 상식을 뒤엎은 워싱턴대…

6월 2, 2025

Spurious Rewards: Rethinking Training Signals in RLVR 무작위 보상만으로 21.4% 성능 향상, 틀린 답 보상해도 24.6% 상승 강화학습…

Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models

AI Report

‘번뜩’ 하는 순간에 의존하던 AI, 드디어 체계적으로 생각하는…

5월 30, 2025

Beyond ‘Aha!’: Toward Systematic Meta-Abilities Alignment in Large Reasoning Models 오픈AI o1·딥시크 R1도 겪는 ‘아하!’ 순간의 예측 불가능성…

News

오픈AI o3 모델, “종료하라”는 인간 명령 거부해… “’문제…

5월 27, 2025

팰리세이드 리서치(Palisade Research)가 진행한 실험에서 오픈AI(OpenAI)의 o3 모델이 충격적인 행동을 보였다. 연구진이 명확히 “종료를 허용하라”고 지시했음에도 불구하고, o3는…

AI Report

“AI, 이제 인간 지식을 넘는다”… 전문가들이 극찬한 ‘경험의…

4월 23, 2025

Welcome to the Era of Experience 인간 데이터의 한계? 고품질 데이터 소스 고갈로 AI 발전 둔화 인공지능(AI) 기술은…

Inference-Time Scaling for Generalist Reward Modeling

AI Report

“더 큰 AI보다 더 오래 생각하는 AI가 이긴다”…

4월 16, 2025

Inference-Time Scaling for Generalist Reward Modeling 27배 더 작은 AI가 더 많이 ‘생각’하면 대형 모델을 이긴다: 추론 시간…

AI Report

딥시크, AI 대화의 정확도를 32배 샘플링으로 끌어올리는 ‘보상…

4월 7, 2025

Inference-Time Scaling for Generalist Reward Modeling 대규모 언어 모델의 성능 향상을 위한 보상 모델링 강화학습 기술은 대규모 언어…

Reasoning Models Don't Always Say What They Think

AI Report

클로드·딥시크도 속마음 안 털어놓는다? 흥미로운 앤트로픽 연구 결과

4월 4, 2025

Reasoning Models Don’t Always Say What They Think 생각의 80%를 숨기는 AI: 추론 모델의 사고과정 충실도 20% 미만으로…

강화학습

강화학습으로 똑똑해진 AI의 근자감… “모르겠다” 못하고 자신만만하게 틀린다

알리바바, 12만 토큰 고맥락 거대 문서도 척척 이해하는…

단 2,400개 예제로 17만개 학습 능력 압도한다? 아마존이…

“정답 몰라도 괜찮다”… AI 강화학습의 상식을 뒤엎은 워싱턴대…

‘번뜩’ 하는 순간에 의존하던 AI, 드디어 체계적으로 생각하는…

오픈AI o3 모델, “종료하라”는 인간 명령 거부해… “’문제…

“AI, 이제 인간 지식을 넘는다”… 전문가들이 극찬한 ‘경험의…

“더 큰 AI보다 더 오래 생각하는 AI가 이긴다”…

딥시크, AI 대화의 정확도를 32배 샘플링으로 끌어올리는 ‘보상…

클로드·딥시크도 속마음 안 털어놓는다? 흥미로운 앤트로픽 연구 결과

Trending

EU Pledges €200 Billion to Reclaim Global…

AI Home Appliances Gain Ground: 8 in…

프리미어 프로 ‘AI 기능’ 정식 출시, 디지털…

등록번호: 서울, 아55707
등록일자: 2024년 11월 20일
제호: 에이아이매터스 (AI Matters)
발행인: 강명구
편집인: 공인희
주소 : 서울시 마포구 포은로2가길 57, 함샤우트글로벌빌딩
개인정보담당자 : 공인희

강화학습

Trending

등록번호: 서울, 아55707등록일자: 2024년 11월 20일제호: 에이아이매터스 (AI Matters)발행인: 강명구 편집인: 공인희주소 : 서울시 마포구 포은로2가길 57, 함샤우트글로벌빌딩개인정보담당자 : 공인희

등록번호: 서울, 아55707
등록일자: 2024년 11월 20일
제호: 에이아이매터스 (AI Matters)
발행인: 강명구
편집인: 공인희
주소 : 서울시 마포구 포은로2가길 57, 함샤우트글로벌빌딩
개인정보담당자 : 공인희