[ad_1]
نوشته و ویرایش شده توسط مجله ی سمسون
مایکروسافت دو مدل هوش مصنوعی Phi-4-mini و Phi-4-multimodal از سری Phi-4 را معارفه کرد. Phi-4-mini برای کارهایی همانند ریاضیات، برنامهنویسی و استدلال بهینهسازی شده است و مدل Phi-4-multimodal در پردازش متن، عکس و گفتار، برتری دارد.
مدل زبانی کوچک Phi-4-mini، کوچکترین عضو خانوادهی Phi-4 محسوب میبشود و با ۳٫۸ میلیارد پارامتر بهطوری طراحی شده است تا در انجام ماموریت های مبتنیبر پرامپت متنی، شدت و کارکرد بالایی داشته باشد. مایکروسافت ادعا میکند که این مدل با وجود فشردهبودن، در کارهایی همانند استدلال، حل مسائل ریاضی، برنامهنویسی و پیروی از دستورالعملها، از تعداد بسیاری از مدلهای زبانی بزرگ بهتر عمل میکند.
Phi-4-mini از یک مبدل متراکم با ویژگی دقت به پرامپتهای گروهی منفعت گیری میکند و میتواند توالیهایی به طول حداکثر ۱۲۸,۰۰۰ توکن را پردازش کند.
بهحرف هایی مایکروسافت، فراخوانی توابع، پیروی از دستورات و استدلال، قابلیتهای قدرتمندی می باشند که به مدلهای زبانی کوچک همانند Phi-4-mini اجازه خواهند داد به دانش بیرونی دسترسی اشکار کنند. فراخوانی توابع به مدل این امکان را میدهد که بهراحتی با رابطهای برنامهنویسی (API) تعامل داشته باشد.
وقتی که کاربر درخواستی اراعه میدهد، Phi-4-Mini میتواند استدلال کند، توابع مرتبط را شناسایی و با پارامترهای مناسب فراخوانی کند، خروجیهای توابع را دریافت و نتایج را در جوابهای خود یکپارچه کند. این سیستم، سامانهای مبتنیبر قابلیتهای گسترشپذیر تشکیل میکند که در آن، قابلیتهای مدل با اتصال به ابزارهای خارجی، رابطهای برنامهنویسی و منبع های داده قابل ارتقا است. بهگفتن مثال، میتوان از این مدل برای کنترل دستگاههای خانهی هوشمند منفعت گیری کرد.
بر پایه مقالهی مایکروسافت، Phi-4-mini در چند معیار مهم از تعداد بسیاری از مدلهای هوش مصنوعی رقیب بهتر عمل میکند. نمودار مشخص می کند که مدل زبانی کوچک Phi-4-mini در آزمون GSM8K، در حل مسائل ریاضی امتیاز زیاد خوبی بهدست آورده و با کسب امتیاز نزدیک به ۸۸ درصد، در جایگاه سوم قرار گرفته است.
مدل Phi-4-mini این چنین در آزمونهای برنامهنویسی (HumanEval) و کارهای دلایلمحور (BigBench Hard CoT) کارکرد مساعد دارد. در حالی که مدلهایی همانند Llama-3.1-8B و Llama-3.2-3B در برخی آزمونها بهتر عمل میکنند، Phi-4-mini در همهی معیارها کارکرد پایداری را نگه داری کرده است.
در رابطه Phi-4-multimodal که در پردازش متن، عکس و گفتار کارکرد بهتری دارد، مایکروسافت میگوید که در چند معیار کلیدی نسبت به مدل تازه Gemini 2.0 Flash گوگل مقداری ضعیفتر است.
خالق ویندوز مینویسد: «این مدل [Phi-4-multimodal] یکی از معدود مدلهایی است که میتواند خلاصهسازی گفتار را با پیروزی پیادهسازی کند و به سطوح عملکردی قابل قیاس با مدل GPT-4o دست یابد. این مدل درمقایسهبا مدلهایی همانند Gemini-2.0-Flash و GPT-4o-realtime-preview در جواب به سؤالات گفتاری (QA) فاصله دارد، چون اندازهی کوچکتر مدل به ظرفیت کمتر برای نگه داری دانش واقعی QA منجر میبشود. کارهایی در حال انجام است تا قابلیت مذکور در نسخههای بعدی بهبود یابد.»
ویژو چن، معاون هوش مصنوعی مایکروسافت میگوید: «Phi-4-multimodal ابزارهای محلی کامپیوترهای کوپایلتپلاس را حمایتخواهد کرد و قوت مدلهای زبانی کوچک (SLM) گسترش یافتهی مایکروسافت را بدون اتلاف انرژی اراعه میدهد. این یکپارچگی به افزایش منفعتوری، خلاقیت و ازمایش ها آموزشی پشتیبانی میکند و به بخشی استاندارد از پلتفرم گسترشدهندهی ما تبدیل میبشود.»
مدل Phi-4-multimodal با ۵٫۶ میلیارد پارامتر میتواند بهطور همزمان متن، تصاویر و گفتار را پردازش کند. این مدل برای بیشترین کارایی طراحی شده است و وظایفی همانند شناسایی گفتار و فهمیدن تصاویر را با مصرف انرژی کمتر نسبت به مدلهای بزرگتر انجام میدهد.
مقالههای مرتبط
کامپیوترهای کوپایلتپلاس برای برخی از ماموریت های بهطور محلی از هوش مصنوعی منفعت گیری میکنند، به این معنی که هوش مصنوعی بهطور مستقیم روی دستگاه اجرا میبشود و به فضای ابری وابسته نیست. این نوشته به حریم خصوصی و شدت عمل پشتیبانی میکند. بهگفتن مثال، ویژگیهای هوش مصنوعی در نرمافزارهایی همانند ورد و اوتلوک یا حتی قابلیت او گفت و گوبرانگیز Recall میتوانند بدون نیاز به اتصال اینترنت کار کنند.
هر دو مدل تازه سری Phi-4 از طریق پلتفرمهایی همانند Azure AI Foundry و HuggingFace برای گسترشدهندگان در دسترس می باشند.
دسته بندی مطالب
[ad_2]
