دوشنبه 24 دی 1403
Monday, 13 January 2025

این مدل جدید هوش مصنوعی فقط ۴۵۰ دلار خرج برمی‌دارد

خبرگزاری ایسنا دوشنبه 24 دی 1403 - 12:59
مدل جدید «Sky-T1» یک مدل هوش مصنوعی منبع باز است که می‌توان آن را با کمتر از ۴۵۰ دلار آموزش داد.

به گزارش ایسنا، توسعه مدل‌های موسوم به «هوش مصنوعی استدلالی» آسان‌تر و ارزان‌تر می‌شود.

به نقل از تک کرانچ، شرکت آمریکایی «نوآاسکای»(NovaSky) که حاصل همکاری گروهی از پژوهشگران «دانشگاه کالیفرنیا برکلی»(UC Berkeley) است، مدل «Sky-T1-32B-Preview» را منتشر کرد. این یک مدل استدلالی است که با نسخه o1 شرکت «اوپن‌ای‌آی»(OpenAI) در تعدادی از معیارهای کلیدی رقابت می‌کند. به نظر می‌رسد Sky-T1 اولین مدل استدلالی منبع باز واقعی است.

این گروه پژوهشی، مجموعه داده‌های مورد استفاده برای آموزش مدل و کد آموزشی آن را منتشر کردند. آنها در یک پست وبلاگ نوشتند: نکته قابل توجه این است که Sky-T1-32B-Preview با کمتر از ۴۵۰ دلار آموزش داده شد. این نشان می‌دهد که می‌توان توانایی‌های استدلالی سطح بالا را به صورت مقرون‌به‌صرفه و کارآمد تکرار کرد.

۴۵۰ دلار ممکن است چندان مقرون‌به‌صرفه به نظر نرسد اما چندی پیش بود که آموزش یک مدل با عملکرد قابل مقایسه با Sky-T1، میلیون‌ها دلار هزینه به بار آورد. داده‌های آموزشی مصنوعی یا داده های آموزشی تولید شده توسط مدل‌های دیگر، به کاهش هزینه‌ها کمک کرده‌اند. مدل «Palmyra X 004» که به تازگی توسط شرکت هوش مصنوعی «رایتر»(Writer) منتشر شده و تقریبا به طور کامل روی داده‌های مصنوعی آموزش دیده، طبق گزارش‌ها فقط ۷۰۰ هزار دلار برای توسعه هزینه داشته است.

برخلاف بیشتر مدل‌های هوش مصنوعی، مدل‌های استدلالی به ‌طور مؤثر خود را مورد بررسی قرار می‌دهند تا از برخی تله‌هایی که معمولا به مدل‌ها آسیب می‌رسانند، اجتناب کنند. مدل‌های استدلالی در مقایسه با مدل‌های غیر استدلالی معمولی، کمی بیشتر زمان می‌خواهند تا به راه‌ حل برسند. نکته مثبت این است که این مدل‌ها در حوزه‌هایی مانند فیزیک، علوم و ریاضیات قابل اعتمادتر هستند.

پژوهشگران نوآاسکای گفتند که از مدل استدلال دیگری به نام «QwQ-32B-Preview» برای تولید داده‌های آموزشی اولیه Sky-T1 استفاده کرده‌اند. سپس، پژوهشگران به مدیریت ترکیب داده‌ها پرداختند و از GPT-4o-mini شرکت اوپن‌ای‌آی استفاده کردند تا داده‌ها را به صورت قالب قابل اجرا درآورند. آموزش Sky-T1 با ۳۲ میلیارد پارامتر حدود ۱۹ ساعت با استفاده از پردازنده گرافیکی H100 شرکت «انویدیا»(Nvidia) طول کشید.

به گفته گروه نوآاسکای، Sky-T1 در مجموعه‌ای از چالش‌های ریاضی سطح رقابتی، بهتر از نسخه پیش‌نمایش اولیه o1 عمل می‌کند و پیش‌نمایش o1 را در مجموعه‌ای از مشکلات دشوار یک ارزیابی کدنویسی شکست می‌دهد.

انتهای پیام

منبع خبر "خبرگزاری ایسنا" است و موتور جستجوگر خبر تیترآنلاین در قبال محتوای آن هیچ مسئولیتی ندارد. (ادامه)
با استناد به ماده ۷۴ قانون تجارت الکترونیک مصوب ۱۳۸۲/۱۰/۱۷ مجلس شورای اسلامی و با عنایت به اینکه سایت تیترآنلاین مصداق بستر مبادلات الکترونیکی متنی، صوتی و تصویری است، مسئولیت نقض حقوق تصریح شده مولفان از قبیل تکثیر، اجرا و توزیع و یا هرگونه محتوای خلاف قوانین کشور ایران بر عهده منبع خبر و کاربران است.