강화학습

Learning to Lie: Reinforcement Learning Attacks Damage Human-AI Teams and Teams of LLMs

AI가 거짓말을 배우면? 강화학습으로 무장한 생성형 AI가 팀…

4월 1, 2025

Learning to Lie: Reinforcement Learning Attacks Damage Human-AI Teams and Teams of LLMs 신뢰를 조작하는 적대적 AI: 팀…

피규어, 인간처럼 자연스럽게 걷는 휴머노이드 로봇 영상 공개

피규어, 인간처럼 자연스럽게 걷는 휴머노이드 로봇 영상 공개

3월 26, 2025

휴머노이드 로봇 전문기업 피규어(Figure)가 강화학습(Reinforcement Learning, RL)을 활용해 인간과 같은 자연스러운 보행이 가능한 로봇 개발에 성공했다. 25일(현지 시간)…

中 자전거 타는 로봇 영상 화제… “가르쳐주지 않아도 혼자 배워”

中 자전거 타는 로봇 영상 화제… “가르쳐주지 않아도…

3월 14, 2025

글로벌타임즈가 11일(현지 시간) 보도한 내용에 따르면, 상하이의 휴머노이드 로봇 제조업체 애지봇(AgiBot)이 자전거 타기와 호버보드에서 균형 잡기 같은 인간에…

알리바바, 추론 모델 QwQ-32B 모델 공개… 20배 작은 규모로도 딥시크 R1과 비슷한 성능 달성

알리바바, 추론 모델 QwQ-32B 모델 공개… 20배 작은…

3월 6, 2025

강화학습(RL)을 대규모로 적용하면 기존의 사전 훈련 및 후속 훈련 방법을 넘어서는 모델 성능을 실현할 수 있다. 퀜(Qwen) 팀이…

Psychology-Informed Reinforcement Learning for Situated Virtual Coaching in Smoking Cessation

AI가 금연 도우미? 가상 코치가 개인별 맞춤 전략으로…

3월 5, 2025

Psychology-Informed Reinforcement Learning for Situated Virtual Coaching in Smoking Cessation 사용자 맞춤형 금연 중재를 위한 가상 코치 연구의…

LIMO: Less is More for Reasoning

추론 모델 훈련에 일반 데이터 10만개보다 고급 데이터…

2월 17, 2025

LIMO: Less is More for Reasoning 817개 학습 데이터로 AIME 57.1% 정확도 달성한 LIMO의 혁신 상하이교통대학교(SJTU) 연구진이 발표한…

구글, 차세대 AI 모델 '제미나이 2.0' 전격 공개... 코딩·복잡한 작업 성능 대폭 강화

구글, 차세대 AI 모델 ‘제미나이 2.0’ 전격 공개……

2월 6, 2025

구글 딥마인드(Google DeepMind) 공식 블로그에 따르면, 구글이 차세대 AI 모델 ‘제미나이 2.0(Gemini 2.0)’ 시리즈를 전면 공개했다. 이번 발표에는…

30달러로 구현한 AI 추론 능력..."UC 버클리, 딥시크 핵심기술 재현 성공"

30달러로 구현한 AI 추론 능력…”UC 버클리, 딥시크 핵심기술…

2월 3, 2025

UC 버클리(UC Berkeley) 연구진이 30달러(약 4만3750원)라는 저비용으로 딥시크(DeepSeek)의 핵심 기술을 재현하는데 성공했다. 해당 연구진은 데이프시크 R1 제로(DeepSeek R1…

오픈AI, 웹브라우저 조작하는 AI '오퍼레이터' 공개..."인간처럼 마우스·키보드 사용"

오픈AI, 웹브라우저 조작하는 AI ‘오퍼레이터’ 공개…”인간처럼 마우스·키보드 사용”

1월 24, 2025

오픈AI가 웹브라우저를 자유롭게 조작할 수 있는 AI 에이전트 ‘오퍼레이터(Operator)’를 공개했다. 오픈AI 공식 블로그에 따르면, 컴퓨터 유저 에이전트(Computer-Using Agent,…

오픈AI, 안전한 AI 개발 위한 '숙고형 정렬' 기술 공개...GPT-4 뛰어넘는 성능 입증

오픈AI, 안전한 AI 개발 위한 ‘숙고형 정렬’ 기술…

12월 26, 2024

오픈AI(OpenAI)가 21일(현지 시간) 인공지능 언어모델의 안전성을 획기적으로 향상시킬 수 있는 ‘숙고형 정렬(Deliberative alignment)’ 기술을 공개했다. 이 기술은 O시리즈…

강화학습 – 페이지 2 – AI 매터스 l AI Matters