در عصر دانایی با دانا خبر      دانایی؛ توانایی است      دانا خبر گزارشگر هر تحول علمی در ایران و جهان      دانایی کلید موفقیت در هزاره سوم      
کد خبر: ۱۳۱۱۳۰۵
تاریخ انتشار: ۰۶ اسفند ۱۴۰۱ - ۱۰:۳۴
مدل زبانی بزرگ متا می‌تواند روی یک GPU اجرا شود و به منابع پردازشی بسیار کمی نیاز دارد.

به گزارش پایگاه خبری دانا به نقل از دیجاتو شرکت متا در واکنش به ترند داغ ابزارهای هوش مصنوعی از مدل زبانی بزرگی به نام LLaMA رونمایی کرد که اگرچه حدود 10برابر کوچک‌تر از مدل GPT-3 شرکت OpenAI است، ولی به ادعای متا، می‌تواند بهتر از آن عمل کند. البته این مدل جدید چت‌باتی نیست که کاربران بتوانند با آن حرف بزنند؛ درعوض برای کارهای تحقیقاتی کاربرد دارد.

متا در پستی در وبلاگ خود مقاله‌ای را منتشر کرده است که می‌گوید مدل LLaMA مثل سایر مدل‌های زبانی بزرگ، دنباله‌ای از کلمات را به‌عنوان ورودی دریافت و کلمه بعدی را پیش‌بینی می‌کند. این غول فناوری می‌گوید این مدل روی 20 زبان جهانی و با کمک داده‌های عمومی وب‌سایت‌هایی مثل ویکی‌پدیا، arXiv ،Stack Exchange ،C4 و CCNet آموزش داده شده است.

متا در مقاله خود مدعی شده که نسخه‌ای از این مدل هوش مصنوعی به نام LLaMA-13B در اکثر بنچمارک‌ها قوی‌تر از GPT-3 ظاهر شده و نسخه بزرگ‌تری از همین مدل به نام LLaMA-65B قادر به رقابت با بهترین مدل‌ها ازجمله Chinchilla70B از دیپ‌مایند و PaLM 540B از گوگل است.

مدل هوش مصنوعی متا توان پردازشی کمتری لازم دارد

متا می‌گوید LLaMA-13B مدلی کوچک‌تر است که توان و منابع پردازشی کمتری لازم دارد. این مدل درواقع از مجموعه‌ای از مدل‌های زبانی تشکیل شده است و در اندازه‌های مختلف در دسترس خواهد بود. این شرکت درباره عرضه مدل خود می‌گوید: «دسترسی به این مدل به‌صورت موردی برای محققان آکادمیک، سازمان‌های دولتی، گروه‌های مدنی و آزمایشگاه‌های تحقیقاتی در سراسر دنیا فراهم می‌شود.»

مدل LLaMA-13B پس از آموزش می‌تواند روی دیتاسنتری با GPU انویدیا تسلا V100 اجرا شود. این مسئله از آن جهت اهمیت دارد که به سازمان‌های کوچک‌تر اجازه می‌دهد تا آزمایش‌های خود را روی سیستم‌های ارزان‌تر انجام دهند.

مدل LLaMA تاکنون در هیچ‌کدام از محصولات و پلتفرم‌های متا پیاده‌سازی نشده است و به‌نظر نمی‌رسد که این شرکت برنامه‌ای برای عرضه هوش مصنوعی خود برای کاربران عادی داشته باشد.

«مارک زاکربرگ»، مدیرعامل متا، درباره عرضه LLaMA می‌گوید: «مدل‌های زبانی بزرگ پتانسیل‌های زیادی را در زمینه تولید متن، گفت‌وگو، خلاصه‌سازی متون و انجام کارهای پیچیده‌تر مثل حل مسائل ریاضی یا پیش‌بینی ساختارهای پروتئینی از خود نشان داده‌اند. متا به این مدل تحقیقات باز متعهد است و ما مدل جدید خود را در دسترس جامعه محققان هوش مصنوعی قرار می‌دهیم.»

انتهای پیام/

ارسال نظر