DeepSeek AI استارتاپ چینی درحالرشدی است که بهدلیل پیشرفتهای خود در زمینه هوش مصنوعی موردتوجه جهان قرار گرفته است. شرکت چینی به عقیده بسیاری از کارشناسان یکی از قدرتمندترین مدلهای هوش مصنوعی رایگان با نام دیپسیک را منتشر کرده است که در ادامه این مطلب آن را معرفی خواهیم کرد.
در ویدیوی زیر شما را کامل با دیپسیک آشنا میکنیم:
مشاهده در یوتوب دیجیاتو
مشاهده در آپارات دیجیاتو
جدیدترین نسخه از مدل هوش مصنوعی این شرکت که DeepSeek V3 نام دارد، اواخر 2024 منتشر شد و توسعهدهندگان میتوانند شخصیسازیشده آن را دانلود و در برنامههای خود استفاده کنند. همانطور که اشاره کردیم، مدلهای دیپسیک کاملاً متنباز هستند؛ توسعهدهندگان میتوانند آنها را دانلود کنند و برای استفاده در برنامهها و پروژههای خود تغییر دهند.
این مدل هوش مصنوعی از معماری نوآورانهای بهره میبرد که در ادامه به آن میپردازیم. همین معماری باعث شده در مقایسه با بسیاری از مدلهای هوش مصنوعی قدرتمند امروزی از شرکتهایی مانند متا و OpenAI که برای استفاه از امکانات پیشرفته آنها باید پول بپردازید، قدرتمندتر باشد.
درکل به نظر میرسد هدف تأسیس این شرکت تحقیقات بنیادی در هوش مصنوعی و ارائه نوآوری در مدلها با قیمتی کمتر از مدلهای فعلی بوده است.
دیپ سیک میگوید مدل پرچمدار آن میتواند طیف وسیعی از وظایف و کارهای مبتنیبر متن، نظیر کدنویسی، ترجمه و نگارش مقاله و ایمیل را انجام دهد. همچنین در آموزش آن از پردازشگرهای گرافیکی H800 مخصوص چین از شرکت انویدیا استفاده شده است.
دیپ سیک با تستهای خود اعلام کرده DeepSeek V3 هم از مدلهای قابلدانلود و رایگان هم از مدلهای غیررایگان که فقط از طریق API در دسترس هستند، بهتر عمل میکند. به گفته این شرکت و طبق تصویر زیر، مدل هوش مصنوعی آن در کدنویسی از مدلهای دیگر مانند Llama 3.1 متعلق به متا، GPT-4o از OpenAI و Qwen 2.5 72B شرکت چینی Alibaba بهتر عمل کرده است.
دیپ سیک ادعا کرده DeepSeek V3 با مجموعه دادهای از 14 تریلیون و 800 میلیارد توکن آموزش دیده است. برای درک بهتر این موضوع باید گفت هر یکمیلیون توکن معادل حدود 750 هزار کلمه است. DeepSeek V3 از نظر اندازه نیز بسیار وسیع است و از 671 میلیارد پارامتر پشتیبانی میکند (پارامترها متغیرهای داخلی هستند که مدلهای برای پیشبینی یا تصمیمگیری از آنها استفاده میکنند). با این شرایط، هوش مصنوعی این شرکت تقریباً 1.6 برابر از Llama 3.1 405B شرکت متا بزرگتر است که از 405 میلیارد پارامتر پشتیبانی میکند.
نکته جالب دیگر اینکه چینیها مدل پرچمدار خود را فقط در 2 ماه و با هزینهای نزدیک به 5.58 میلیون دلار آموزش دادهاند؛ بنابراین در مقایسه با شرکتهای بزرگی مانند متا و OpenAI این شرکت زمان و منابع کمتری برای مدل هوش مصنوعی خود صرف کرده است.
دیپ سیک برای توسعه مدل خود از معماری بهینهشدهای (با نام ترکیبی-از-متخصصان یا MoE) استفاده کرده است که نیاز آن به قدرت محاسباتی گسترده و سختافزارهای قدرتمند را کاهش میدهد. این معماری را تیم (متخصص) از سیستمهای هوش مصنوعی تخصصی در نظر بگیرید که در آن هر بهاصطلاح «متخصص» شبکه عصبی خود را دارد و برای انجام وظایف مرتبط با خود فعال میشوند.
در واقع این معماری پیش از انجام وظایف، پیچیدگی آنها را پیشبینی میکند و براساس منابعی که در اختیار دارد، (متخصصان) مسیر موردنیاز برای تحقق آن را تعیین میکند. همچنین برای انجام هریک از وظایف فقط مرتبطترین سیستمهای هوش مصنوعی فعال خواهند شد که محاسبات اضافی را به حداقل میرساند و سرعت عملکرد مدل را بیشتر میکند.
استارتاپ DeepSeek مه 2023 توسط «لیانگ ونفنگ» (Liang Wenfeng) 40 ساله تأسیس شد و مستقل نیز فعالیت میکند اما High-Flyer، صندوق حمایتی که به دست ونفنگ تأسیس شده، از آن تأمین مالی میکند.
لیانگ ونفنگ عموماً بهدلیل داشتن شخصیتی کمحاشیه و کنجکاوی علمی بهجای رفتن بهدنبال بازده مالی شناخته شده است. او اعلام کرده مأموریت دیپسیک حل «سختترین سؤالات جهان» و ترویج فرهنگ نوآوری و همکاری است. رویکرد او در استخدام بر اشتیاق و خلاقیت تأکید دارد و اغلب استعدادهای جوان را از دانشگاههای برتر چین جذب میکند.
برای آزمایش نحوه عملکرد هوش مصنوعی DeepSeek نیز در ادامه به چند مثال اشاره کردهایم. در اولین مورد، از این مدل خواستهشده شرح مفصلی از شخصیتی فانتزی (ملکهای که مقابل امپراتوری شیطانی مقاومت میکند) بنویسد. سپس DeepSeek V3 با انتخاب نام، عنوان، سن و ظاهر این شخصیت داستانی فانتزی نوشته است:
برای آزمایش مهارت این مدل در کدنویسی نیز طبق مثال زیر کد جاوا اسکریپت معیوب به آن داده شده است. همانطور که در تصویر زیر مشاهده میکنید، دیپسیک بلافاصله مشکل را متوجه شده و ضمن توضیح آن، کد اصلاحشده را برای کاربر ارسال کرده است:
در مثال زیر، توانایی DeepSeek V3 در بهرهوری آزمایش شده است. در آن کاربر از هوش مصنوعی خواسته دستور کار مختصری برای جلسهای درباره راهاندازی محصولی جدید تهیه کند. سپس هوش مصنوعی فهرست موضوعات پیشنهادی خود را که میتوان در جلسه مطرح کرد، همراه مدت برنامهریزیشده برای آنها به کاربر ارائه کرده است:
درکل، درباره عملکرد این مدل گفته شده DeepSeek طیف گستردهای از وظایف مانند نوشتن و رفع مشکلات کدهای پیچیده را بهراحتی انجام میدهد. همچنین این مدل میتواند لحن و سبک نوشتههای خود را براساس موضوعات مختلف تنظیم کند اما DeepSeek هم مانند بسیاری از مدلهای هوش مصنوعی دیگر در پاسخ به موضوعات بسیار خاص ممکن است اطلاعات اشتباه ارائه کند. همچنین ظاهراً DeepSeek V3 تمایلی به ارائه پاسخ درباره موضوعات تاریخی حساس ندارد.
سفر DeepSeek با انتشار DeepSeek Coder نوامبر 2023 آغاز شد، مدلی متنباز برای انجام کارهای کدنویسی. بهدنبال آن اولین مدل زبانی بزرگ DeepSeek از راه رسید که مدلی با 67 میلیارد پارامتر بود. سپس مه 2024 مدل DeepSeek-V2 عرضه شد که بهدلیل عملکرد قوی و هزینه کم توجه زیادی را به خود جلب کرد و جنگ قیمتی را در بازار مدلهای هوش مصنوعی چین به راه انداخت. استراتژی قیمتگذاری دیپسیک باعث شد غولهای فناوری بزرگ چین مانند بایدو، بایتدنس، تنسنت و علیبابا قیمت مدلهای هوش مصنوعی خود را کاهش دهند تا بتوانند در این بازار داغ رقابت کنند.
دیپسیک استارتاپی چینی است که دفتر مرکزی آن در هانگژو، استان ژجیانگ، چین قرار دارد. این استارتاپ کامل توسط های-فلایر تأمین مالی میشود، این امر به این شرکت اجازه میدهد بدون فشار سرمایهگذاران خارجی، بر تحقیقات و توسعه بلندمدت خود متمرکز باشد.
هویت برند و مأموریت DeepSeek حول چند کلیدواژه اصلی میچرخد: نوآوری در فناوری هوش مصنوعی، توسعه مدلهای زبانی بزرگ و مقرونبهصرفه بودن. همچنین مانند اکثر شرکتهای پیشتاز دیگر در حوزه AI هدف نهایی این شرکت چینی دستیابی به هوش جامع مصنوعی (AGI) است.
یکی از نکات اصلی که دیپسیک روی آن تأکید دارد، متنباز بودن مدلهای آن است؛ برای مثال مدل استدلالگر R1 آن در چند نسخه بهصورت متنباز تحت مجوز MIT منتشر شده که امکان استفاده تجاری و آکادمیک رایگان را فراهم میکند. این رویکرد با مدلهای گران رقبای این شرکت مانند OpenAI در تضاد است.
میتوانید رایگان از نسخه وب هوش مصنوعی پرچمدار چینی DeepSeek V3 استفاده کنید. البته برای استفاده از آن به حساب کاربری نیاز دارید که از طریق حساب گوگل نیز میتوان آن را ایجاد کرد. محیط کاربری این سرویس شباهت زیادی به ChatGPT دارد و میتوانید پس از ورود به حساب خود با آن گفتگو کنید. نکته قابلتوجه اینکه این مدل از زبان فارسی نیز پشتیبانی میکند و کاربران ایرانی را تحریم نکرده است.
افزونبر نسخه وب، درحالحاضر اپلیکیشن DeepSeek برای اندروید و iOS نیز موجود است.
دیپسیک استارتاپی چینی است که اخیراً توجه زیادی را جلب کرده است؛ مدلهای هوش مصنوعی این شرکت رایگان هستند و میتوانند با مدلهای قدرتمند OpenAI رقابت کنند.
برای استفاده از نسخه وب هوش مصنوعی دیپسیک میتوانید به وبسایت این شرکت مراجعه کنید، همچنین اپلیکیشن این هوش مصنوعی در پلی استور و اپ استور منتشر شده است.
مه 2023 «لیانگ ونفنگ» (Liang Wenfeng) 40 ساله استارتاپ DeepSeek را تأسیس کرد. او مستقل فعالیت میکند.