شرکت چینی دیپسیک از نسخه پیشرفته 3.1 مدل زبانی خود رونمایی کرد که با پنجره متنی 128 هزار توکنی و 685 میلیارد پارامتر، گامی بزرگ در بهبود عملکرد و پردازش دادهها برداشته است. این مدل حالا میتواند متونی به اندازه یک کتاب 300 تا 400 صفحهای را پردازش کند، قابلیتی که آن را برای تولید محتوای طولانی، تحلیل اسناد پیچیده و مکالمات چندمرحلهای ایدهآل میکند. این ویژگی که پیشتر در نسخه داخلی V3 آزمایش شده بود، اکنون بهصورت رسمی در تمامی پلتفرمهای دیپسیک در دسترس است.
دیپسیک V3.1 همچنان از معماری Mixture-of-Experts (MoE) بهره میبرد و در هر توکن تنها 37 میلیارد پارامتر فعال میکند. این مدل با پشتیبانی از فرمتهای دقت BF16، FP8 و F32، انعطافپذیری بالایی برای استفاده در محیطهای مختلف ارائه میدهد. توسعهدهندگان میتوانند از طریق API یا پلتفرم Hugging Face به این مدل دسترسی داشته باشند.
در آزمونهای اولیه، دیپسیک V3.1 با امتیاز 71.6 درصد در تست کدنویسی Aider، عملکردی بهتر از Claude Opus 4 به نمایش گذاشت و به یکی از برترین مدلهای متنباز در حوزه برنامهنویسی تبدیل شد. این مدل همچنین در حل مسائل ریاضی و منطقی پیشرفت قابل توجهی داشته، هرچند برخی کاربران معتقدند توانایی استدلال آن نسبت به مدل قبلی R1-0528 تفاوت چشمگیری نشان نمیدهد.
دیپسیک تمام ارجاعات به مدل R1 را از رابط چتبات خود حذف کرده و به سمت یک معماری هیبریدی حرکت کرده است که قابلیتهای استدلال و غیراستدلال را در V3.1 یکپارچه میکند. هزینه آموزش نسخه 3.1 هنوز اعلام نشده، اما نسخه پایه V3 با 2.788 میلیون ساعت پردازش GPU روی تراشههای انویدیا H800 و هزینه تقریبی 5.6 میلیون دلار توسعه یافته بود.
در حالی که انتظار میرفت مدل بعدی دیپسیک، یعنی R2، با تمرکز بر بهبود استدلال منتشر شود، مشکلات فنی تراشههای Huawei Ascend عرضه آن را به تأخیر انداخته است. ناسازگاریهای این تراشهها، دیپسیک را وادار کرد تا برای آموزش به پردازشگرهای انویدیا تکیه کند و از Ascend فقط برای استنتاج استفاده شود. این چالشها روند توسعه را پیچیده کرده و زمان عرضه R2 را به تعویق انداخته است.
تا زمان معرفی R2، نسخه V3.1 بهعنوان مدل پیشرو دیپسیک باقی میماند و توانایی مدیریت همزمان وظایف استدلالی و غیراستدلالی را در یک ساختار یکپارچه ارائه میدهد.