본문 바로가기

AI Tutorials (AI 학습 자료)

강화학습의 혁명: 320억 파라미터 QwQ-32B가 열어가는 AI 신세계

어제(2025년 3월 6일) github와  huggingface 등을 통해 업로드된 QwQ-32B에 대한 상세한 소개글입니다. 이 글은 Qwen 팀이 발표한 최신 연구 결과를 중심으로, 강화학습(RL)을 통한 대형 언어 모델의 성능 향상 가능성을 다루고 있습니다.

QwQ-32B-Preview


연구 배경 및 목적


최근 인공지능 분야에서는 사전학습(pretraining)과 사후학습(post-training) 외에도, 강화학습(RL)이 모델의 추론 능력과 복잡한 문제 해결 능력을 극대화할 수 있다는 점이 주목받고 있습니다. 본 포스팅에서 소개하는 QwQ-32B는 320억 개의 파라미터를 가진 모델로, 강화학습의 스케일링 기법을 적용하여 수학적 추론, 코드 작성, 일반 문제 해결 등 다양한 분야에서 뛰어난 성능을 보이고 있습니다. 연구진은 이 모델이 기존의 거대 모델인 DeepSeek-R1(6710억 파라미터, 그 중 370억 파라미터 활성화)과 유사한 성능을 보인다는 점에서 강화학습의 효과를 재확인하였습니다.

QwQ-32B: Embracing the Power of Reinforcement Learning


주요 내용

1. 강화학습을 통한 성능 향상

• 초기에는 수학과 코드 문제 해결을 위해 강화학습을 적용하였으며, 정확도 검증기와 코드 실행 서버를 활용하여 모델의 최종 답변의 정확성을 평가하였습니다.
• 이후, 일반적인 문제 해결 능력과 사용자 지시 따르기, 인간 선호도 반영 등의 분야에서도 강화학습 단계를 추가하여 모델의 전반적인 능력을 향상시켰습니다.
• 이 과정에서 소량의 강화학습 단계를 거치더라도 기존 성능에 큰 영향을 주지 않으면서도 추가적인 성능 개선 효과를 확인할 수 있었습니다.

2. 모델 성능 평가 및 비교

• QwQ-32B는 수학적 추론, 코드 작성, 그리고 종합 문제 해결 능력에 대해 여러 벤치마크 테스트를 통해 평가되었습니다.
• 다양한 비교 모델(DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini 등)과의 비교 결과, QwQ-32B는 뛰어난 성능을 보여주며 강화학습이 대형 언어 모델의 성능에 미치는 긍정적 영향을 입증하였습니다.


3. 모델 활용 방법

• Hugging Face Transformers 라이브러리를 이용한 모델 불러오기와 Alibaba Cloud DashScope API를 활용한 실시간 질문 응답 예시를 제공하여, 일반 개발자나 연구자가 QwQ-32B를 직접 체험할 수 있는 방법을 안내할께요.

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/QwQ-32B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "How many r's are in the word \"strawberry\""
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)


• 위 예제 코드는 QwQ-32B의 사용법을 보다 직관적으로 이해할 수 있도록 도와주며, 실제 응용 분야에서의 활용 가능성을 시사합니다.

4. 미래 연구 방향

• QwQ-32B 프로젝트는 강화학습을 통한 추론 능력 강화의 첫걸음에 불과하며, 연구진은 향후 보다 강력한 기초 모델과 확장된 강화학습을 결합해 인공지능 일반화(AGI)에 한 발짝 더 다가가겠다는 목표를 가지고 있습니다.
• 특히, 장기적인 추론 능력을 갖춘 에이전트 통합을 통해 실시간 추론 능력을 극대화하는 연구가 진행 중입니다.

QwQ is the reasoning model of the Qwen series.
QwQ-32 Preview

Alibaba Cloud Unveils QwQ-32B: A Compact Reasoning Model with Cutting-Edge Performance