رونمایی دیپ‌سیک از نسخه 3.1: جهشی در پردازش متن با 685 میلیارد پارامتر

رونمایی دیپ‌سیک از نسخه 3.1: جهشی در پردازش متن با 685 میلیارد پارامتر

مرداد ۲۹، ۱۴۰۴ اخبار و رویدادها

فهرست مطالب

شرکت چینی دیپ‌سیک از نسخه پیشرفته 3.1 مدل زبانی خود رونمایی کرد که با پنجره متنی 128 هزار توکنی و 685 میلیارد پارامتر، گامی بزرگ در بهبود عملکرد و پردازش داده‌ها برداشته است. این مدل حالا می‌تواند متونی به اندازه یک کتاب 300 تا 400 صفحه‌ای را پردازش کند، قابلیتی که آن را برای تولید محتوای طولانی، تحلیل اسناد پیچیده و مکالمات چندمرحله‌ای ایده‌آل می‌کند. این ویژگی که پیش‌تر در نسخه داخلی V3 آزمایش شده بود، اکنون به‌صورت رسمی در تمامی پلتفرم‌های دیپ‌سیک در دسترس است.

دیپ سیک ورژن 3.1

دیپ‌سیک V3.1 همچنان از معماری Mixture-of-Experts (MoE) بهره می‌برد و در هر توکن تنها 37 میلیارد پارامتر فعال می‌کند. این مدل با پشتیبانی از فرمت‌های دقت BF16، FP8 و F32، انعطاف‌پذیری بالایی برای استفاده در محیط‌های مختلف ارائه می‌دهد. توسعه‌دهندگان می‌توانند از طریق API یا پلتفرم Hugging Face به این مدل دسترسی داشته باشند.

در آزمون‌های اولیه، دیپ‌سیک V3.1 با امتیاز 71.6 درصد در تست کدنویسی Aider، عملکردی بهتر از Claude Opus 4 به نمایش گذاشت و به یکی از برترین مدل‌های متن‌باز در حوزه برنامه‌نویسی تبدیل شد. این مدل همچنین در حل مسائل ریاضی و منطقی پیشرفت قابل توجهی داشته، هرچند برخی کاربران معتقدند توانایی استدلال آن نسبت به مدل قبلی R1-0528 تفاوت چشمگیری نشان نمی‌دهد.

دیپ‌سیک تمام ارجاعات به مدل R1 را از رابط چت‌بات خود حذف کرده و به سمت یک معماری هیبریدی حرکت کرده است که قابلیت‌های استدلال و غیراستدلال را در V3.1 یکپارچه می‌کند. هزینه آموزش نسخه 3.1 هنوز اعلام نشده، اما نسخه پایه V3 با 2.788 میلیون ساعت پردازش GPU روی تراشه‌های انویدیا H800 و هزینه تقریبی 5.6 میلیون دلار توسعه یافته بود.

در حالی که انتظار می‌رفت مدل بعدی دیپ‌سیک، یعنی R2، با تمرکز بر بهبود استدلال منتشر شود، مشکلات فنی تراشه‌های Huawei Ascend عرضه آن را به تأخیر انداخته است. ناسازگاری‌های این تراشه‌ها، دیپ‌سیک را وادار کرد تا برای آموزش به پردازشگرهای انویدیا تکیه کند و از Ascend فقط برای استنتاج استفاده شود. این چالش‌ها روند توسعه را پیچیده کرده و زمان عرضه R2 را به تعویق انداخته است.

تا زمان معرفی R2، نسخه V3.1 به‌عنوان مدل پیشرو دیپ‌سیک باقی می‌ماند و توانایی مدیریت همزمان وظایف استدلالی و غیراستدلالی را در یک ساختار یکپارچه ارائه می‌دهد.

نظرات

هنوز نظری ثبت نشده است.
برای ثبت نظر باید وارد شوید.