به گزارش خبرنگار علم و فناوری خبرگزاری برنا؛ LLMها معمولا روی هزاران جمله یا عبارت آموزش داده میشوند که در آنها برخی از موارد مدل را مجبور میکنند تا بهترین کلمات را برای پر کردن جای خالی پیدا کند. آنها با انجام این کار حس ابتدایی جهان را درک میکنند.
لکون گفت: "هدف ما ساخت هوش ماشینی پیشرفتهای است که بتواند بیشتر شبیه به انسانها یاد بگیرد و مدلهای داخلی دنیای اطراف خود را برای یادگیری، سازگاری و ایجاد برنامههایی کارآمد در خدمت تکمیل وظایف پیچیده شکل دهد."
توجه داشته باشید که V - JEPA یک مدل مولد نیست، آن یک مدل مفهومی داخلی از جهان را توسعه میدهد و محققان متا می گویند که V - JEPA، پس از آموزش به روش تماشای ویدئو "در تشخیص و درک تعاملات بسیار دقیق، بین اشیا برتری دارد".
گام بعدی متا پس از V - JEPA اضافه کردن صدا به ویدئو است که به مدل بعد کاملا جدیدی از دادهها برای یادگیری میدهد - درست مانند کودکی که در حال تماشای یک تلویزیون خاموش است و سپس صدا را بالا می برد؛ کودک نه تنها میبیند اشیا چگونه حرکت میکنند، بلکه برای مثال میشنود که مردم در مورد آنها صحبت میکنند.
متا اعلام کرد مدل V - JEPA را تحت یک مجوز غیرتجاری Creative Commons منتشر میکند تا محققان بتوانند آن را آزمایش کنند و شاید قابلیتهای آن را گسترش دهند.
انتهای پیام/