علیبابا از مدل زبانی متنباز QwQ-32B با ۳۲ میلیارد پارامتر رونمایی کرد

شرکت چینی علیبابا بهتازگی از مدل زبانی متنباز جدید خود با نام QwQ-32B رونمایی کرده است؛ مدلی که با ۳۲ میلیارد پارامتر طراحی شده و هدف آن بهبود توانایی در حل مسائل پیچیده و استدلال منطقی است.
این مدل با بهرهگیری از تکنیکهای پیشرفته مانند یادگیری تقویتی (RL)، عملکرد قابلتوجهی در حوزههایی نظیر ریاضیات، کدنویسی و تحلیل مسائل پیچیده ارائه میدهد.
نسخه پیشرفته QwQ
QwQ-32B نسخه پیشرفتهای از مدل QwQ است که علیبابا در نوامبر ۲۰۲۴ با هدف رقابت با مدل استدلالی o1-preview از OpenAI عرضه کرده بود. در همان ابتدا، این مدل بهدلیل عملکرد مطلوب در آزمونهای ریاضی AIME و MATH و استدلال علمی GPQA توجه زیادی جلب کرد؛ هرچند در زمینه برنامهنویسی از رقبایی مانند LiveCodeBench عقب ماند.
مشخصات فنی و معماری QwQ-32B:
مدل QwQ-32B دارای ویژگیهای زیر است:
۶۴ لایه ترنسفورمر با استفاده از تکنیکهایی مانند RoPE و SwiGLU
پشتیبانی از ۱۳۱,۰۷۲ توکن برای پردازش متون طولانی
معماری Generalized Query Attention (GQA)
فرآیند آموزش سهمرحلهای شامل پیشتمرین، تنظیم با نظارت و یادگیری تقویتی
یادگیری تقویتی در QwQ-32B در دو مرحله اجرا شده است؛ ابتدا با تمرکز بر دقت در ریاضیات و برنامهنویسی و سپس بهبود تواناییهای عمومی مانند درک دستورات و هماهنگی با رفتار انسانی.
عملکرد و مقایسه با مدلهای دیگر:
طبق نتایج اولیه، QwQ-32B توانسته با وجود اندازه کوچکتر خود، به سطح عملکرد مدلهای بزرگی مانند DeepSeek-R1 با ۶۷۱ میلیارد پارامتر نزدیک شود، درحالیکه تنها به ۲۴ گیگابایت حافظه GPU نیاز دارد؛ این درحالی است که DeepSeek-R1 به بیش از ۱۵۰۰ گیگابایت VRAM نیاز دارد. این موضوع نشاندهنده بهینهسازی قابلتوجه در QwQ-32B است که امکان استفاده گستردهتر را فراهم میکند.
متنباز بودن و دسترسی:
یکی از ویژگیهای برجسته QwQ-32B، متنباز بودن آن است. این مدل تحت لایسنس Apache 2.0 منتشر شده و از طریق پلتفرمهای Hugging Face و ModelScope در دسترس قرار دارد. این موضوع به شرکتها و توسعهدهندگان امکان میدهد بدون محدودیتهای مدلهای تجاری، از آن برای تولید محصولات، خدمات و حتی پروژههای پولی استفاده کنند.
همچنین، این مدل از طریق سرویس Qwen Chat نیز قابل استفاده است. تیم Qwen قصد دارد با ادامه توسعه این مدل، مسیر حرکت بهسوی هوش عمومی مصنوعی (AGI) را هموار کند.
کاربردها و مزایا:
با توجه به متنباز بودن و بهرهمندی از استدلال پیشرفته، QwQ-32B میتواند گزینه مناسبی برای شرکتهایی باشد که به دنبال پیادهسازی تحلیل داده خودکار، توسعه نرمافزار، مدلسازی مالی یا اتوماسیون خدمات مشتری هستند. همچنین، هرچند برخی کاربران غیرچینی ممکن است نگرانیهایی درباره امنیت و سوگیری مدلهای وابسته به علیبابا داشته باشند، اما عرضه این مدل در Hugging Face برای دانلود و استفاده آفلاین تا حد زیادی این نگرانیها را کاهش میدهد.
چالشها و محدودیتها:
با وجود پیشرفتهای قابلتوجه، QwQ-32B همچنان با چالشهایی مواجه است. بهعنوان مثال، در برخی موارد ممکن است با مشکلاتی نظیر ترکیب زبانها یا گیر کردن در حلقههای استدلال مواجه شود. همچنین، علیبابا درباره دادهها یا فرآیندی که برای آموزش مدل خود استفاده کرده، هیچ مقالهای منتشر نکرده است.
با اینحال، باتوجهبه اینکه QwQ مدلی متنباز است (برخلاف o1)، «فرآیند تفکر» آن پنهان نیست و میتوان برای فهمیدن این موضوع که مدل هنگام حل مشکلات چگونه استدلال میکند، سراغ متن آن رفت.
معرفی QwQ-32B توسط علیبابا نشاندهنده پیشرفتهای قابلتوجه در حوزه مدلهای زبانی بزرگ است. با ویژگیهایی مانند متنباز بودن، معماری بهینه و عملکرد قوی در حوزههای مختلف، این مدل میتواند تأثیر بسزایی در توسعه فناوریهای مبتنی بر هوش مصنوعی داشته باشد. بااینحال، توجه به چالشها و محدودیتهای موجود نیز ضروری است تا بتوان از پتانسیل کامل این مدل بهرهبرداری کرد.