سارا ملکی اسفند ۱۱, ۱۴۰۳
نمودار میله ای مقایسه امتیاز چند مدل زبانی بزرگ

[ad_1]
نوشته و ویرایش شده توسط مجله ی سمسون

مایکروسافت دو مدل هوش مصنوعی Phi-4-mini و Phi-4-multimodal از سری Phi-4 را معارفه کرد. Phi-4-mini برای کارهایی همانند ریاضیات، برنامه‌نویسی و استدلال بهینه‌سازی شده است و مدل Phi-4-multimodal در پردازش متن، عکس و گفتار، برتری دارد.

مدل زبانی کوچک Phi-4-mini، کوچک‌ترین عضو خانواده‌ی Phi-4 محسوب می‌بشود و با ۳٫۸ میلیارد پارامتر به‌طوری طراحی شده است تا در انجام ماموریت های مبتنی‌بر پرامپت متنی، شدت و کارکرد بالایی داشته باشد. مایکروسافت ادعا می‌کند که این مدل با وجود فشرده‌بودن، در کارهایی همانند استدلال، حل مسائل ریاضی، برنامه‌نویسی و پیروی از دستورالعمل‌ها، از تعداد بسیاری از مدل‌های زبانی بزرگ بهتر عمل می‌کند.

Phi-4-mini از یک مبدل متراکم با ویژگی دقت به پرامپت‌های گروهی منفعت گیری می‌کند و می‌تواند توالی‌هایی به‌ طول حداکثر ۱۲۸,۰۰۰ توکن را پردازش کند.

به‌حرف های‌ی مایکروسافت، فراخوانی توابع، پیروی از دستورات و استدلال، قابلیت‌های قدرتمندی می باشند که به مدل‌های زبانی کوچک همانند Phi-4-mini اجازه خواهند داد به دانش بیرونی دسترسی اشکار کنند. فراخوانی توابع به مدل این امکان را می‌دهد که به‌راحتی با رابط‌های برنامه‌نویسی (API) تعامل داشته باشد.

وقتی که کاربر درخواستی اراعه می‌دهد، Phi-4-Mini می‌تواند استدلال کند، توابع مرتبط را شناسایی و با پارامترهای مناسب فراخوانی کند، خروجی‌های توابع را دریافت و نتایج را در جواب‌های خود یکپارچه کند. این سیستم، سامانه‌ای مبتنی‌بر قابلیت‌های گسترش‌پذیر تشکیل می‌کند که در آن، قابلیت‌های مدل با اتصال به ابزارهای خارجی، رابط‌های برنامه‌نویسی و منبع های داده قابل ارتقا است. به‌گفتن مثال، می‌توان از این مدل برای کنترل دستگاه‌های خانه‌ی هوشمند منفعت گیری کرد.

بر پایه مقاله‌ی مایکروسافت، Phi-4-mini در چند معیار مهم از تعداد بسیاری از مدل‌های هوش مصنوعی رقیب بهتر عمل می‌کند. نمودار مشخص می کند که مدل زبانی کوچک Phi-4-mini در آزمون GSM8K، در حل مسائل ریاضی امتیاز زیاد خوبی به‌دست آورده و با کسب امتیاز نزدیک به ۸۸ درصد، در جایگاه سوم قرار گرفته است.

مدل Phi-4-mini این چنین در آزمون‌های برنامه‌نویسی (HumanEval) و کارهای دلایلمحور (BigBench Hard CoT) کارکرد مساعد دارد. در حالی که مدل‌هایی همانند Llama-3.1-8B و Llama-3.2-3B در برخی آزمون‌ها بهتر عمل می‌کنند، Phi-4-mini در همه‌ی معیارها کارکرد پایداری را نگه داری کرده است.

در رابطه Phi-4-multimodal که در پردازش متن، عکس و گفتار کارکرد بهتری دارد، مایکروسافت می‌گوید که در چند معیار کلیدی نسبت‌ به مدل تازه Gemini 2.0 Flash گوگل مقداری ضعیف‌تر است.

خالق ویندوز می‌نویسد: «این مدل [Phi-4-multimodal] یکی از معدود مدل‌هایی است که می‌تواند خلاصه‌سازی گفتار را با پیروزی پیاده‌سازی کند و به‌ سطوح عملکردی قابل قیاس با مدل GPT-4o دست یابد. این مدل درمقایسه‌با مدل‌هایی همانند Gemini-2.0-Flash و GPT-4o-realtime-preview در جواب به سؤالات گفتاری (QA) فاصله دارد، چون اندازه‌ی کوچک‌تر مدل به ظرفیت کمتر برای نگه داری دانش واقعی QA منجر می‌بشود. کارهایی در حال انجام است تا قابلیت مذکور در نسخه‌های بعدی بهبود یابد.»

ویژو چن، معاون هوش مصنوعی مایکروسافت می‌گوید: «Phi-4-multimodal ابزارهای محلی کامپیوترهای کوپایلت‌پلاس را حمایتخواهد کرد و قوت مدل‌های زبانی کوچک (SLM) گسترش یافتهی مایکروسافت را بدون اتلاف انرژی اراعه می‌دهد. این یکپارچگی به افزایش منفعت‌وری، خلاقیت و ازمایش ها آموزشی پشتیبانی می‌کند و به بخشی استاندارد از پلتفرم گسترش‌دهنده‌ی ما تبدیل می‌بشود.»

مدل Phi-4-multimodal با ۵٫۶ میلیارد پارامتر می‌تواند به‌طور همزمان متن، تصاویر و گفتار را پردازش کند. این مدل برای بیشترین کارایی طراحی شده است و وظایفی همانند شناسایی گفتار و فهمیدن تصاویر را با مصرف انرژی کمتر نسبت‌ به مدل‌های بزرگ‌تر انجام می‌دهد.

مقاله‌های مرتبط

کامپیوترهای کوپایلت‌پلاس برای برخی از ماموریت های به‌طور محلی از هوش مصنوعی منفعت گیری می‌کنند، به این معنی که هوش مصنوعی به‌طور مستقیم روی دستگاه اجرا می‌بشود و به فضای ابری وابسته نیست. این نوشته به حریم خصوصی و شدت عمل پشتیبانی می‌کند. به‌گفتن مثال، ویژگی‌های هوش مصنوعی در نرم‌افزارهایی همانند ورد و اوت‌لوک یا حتی قابلیت او گفت و گو‌برانگیز Recall می‌توانند بدون نیاز به اتصال اینترنت کار کنند.

هر دو مدل تازه سری Phi-4 از طریق پلتفرم‌هایی همانند Azure AI Foundry و HuggingFace برای گسترش‌دهندگان در دسترس می باشند.

دسته بندی مطالب

مقالات کسب وکار

مقالات فناوری

مقالات آموزشی

مقالات سلامتی

[ad_2]