به گزارش راسخ
مایکروسافت اگرچه همکاری نزدیکی با OpenAI دارد، فقط به کار با این شرکت اکتفا نمیکند. غول دنیای فناوری بهتازگی از ۳ مدل تازه Phi-3.5 رونمایی کرده که باتوجهبه نتایج بنچمارکها میتوان آنها را رقیبی برای مدلهای گوگل و OpenAI دانست.
بر پایه گزارش VentureBeat، مایکروسافت بهتازگی ۳ مدل تازه سری Phi-3.5 را معارفه کرده است. هر ۳ مدل برای دانلود از پلتفرم Hugging Face تحت مجوز MIT در دسترس می باشند که امکان منفعت گیری تجاری و تحول بدون محدودیت را فراهم میکند. این ۳ مدل به شرح زیر می باشند:
مدلهای هوش مصنوعی Phi-3.5 مایکروسافت
بهشکل شگفتانگیزی، هر ۳ مدل در تعدادی از تستهای بنچمارک شخص ثالث عملکردی تقریباً عالی دارند، حتی در برخی موارد از دیگر مدلهای هوش مصنوعی همانند جمینای ۱.۵ فلش گوگل، Llama 3.1 متا و حتی GPT-4o از OpenAI پیشی میگیرند. اراعه این چنین مدلهای قوی و متنبازی تحسین کاربران در شبکه اجتماعی ایکس را نیز در پی داشته است.
Phi-3.5 Mini Instruct مدل هوش مصنوعی سبک با ۳.۸ میلیارد پارامتر است که پنجره عرصه با ۱۲۸ هزار توکن دارد. این مدل برای کارهایی که نیاز به قابلیتهای استدلال قوی دارند، همانند کدنویسی، حل مسائل ریاضی و استدلال مبتنی بر علتایدهآل است. مدل Phi-3.5 Mini Instruct باوجود اندازه کوچک خود، عملکردی تقریباً عالی در تعدادی از بنچمارکها دارد و از دیگر مدلهای هماندازه خود همانند Llama-3.1-8B-instruct و Mistral-7B-instruct در بنچمارک RepoQA جلو میزند.

مدل Phi-3.5 MoE انگارً اولین مدل MoE (ترکیب متخصصان) مایکروسافت است. این مدل چندین نوع مدل گوناگون را در خود ترکیب میکند که هرکدام در ماموریت های متغیری تخصص دارند. مدل تازه مایکروسافت از ۴۲ میلیارد پارامتر فعال منفعت میبرد و پنجره عرصه آن ۱۲۸ هزار توکن است. این مدل بهنحوه چشمگیری GPT-4o mini را در بنچمارک MMLU 5 در حوزههایی همانند STEM، علوم انسانی، علوم اجتماعی در سطوح گوناگون ناکامی میدهد.

مدل Phi-3.5 Vision Instruct قابلیتهای پردازش متن و عکس را ادغام میکند. این مدل چندوجهی بهاختصاصی برای کارهایی همانند فهمیدن کلی عکس، تشخیص کاراکترها، فهمیدن نمودار، جدول و خلاصهسازی ویدئو مناسب است. همانند ۲ مدل قبلی، پنجره عرصه این مدل ۱۲۸ هزار توکن است.
مدل Phi-3.5 Mini Instruct روی ۳.۴ تریلیون توکن با منفعت گیری از ۵۱۲ پردازشگر گرافیکی H100-80G طی ۱۰ روز آموزش داده شده است، درحالیکه مدل Vision Instruct روی ۵۰۰ میلیارد توکن با منفعت گیری از ۲۵۶ پردازشگر گرافیکی A100-80G در ۶ روز آموزش دید. مدل Phi-3.5 MoE نیز که دارای معماری ترکیبی از متخصصان است، طی ۲۳ روز روی ۴.۹ تریلیون توکن با ۵۱۲ پردازشگر گرافیکی H100-80G آموزش داده شد.
دسته بندی مطالب
کسب وکار