ШІ зрівняється за розумовими здібностями з людиною через 10 років, а то й пізніше
Сучасні ШІ-моделі демонструють вражаючі здібності в обробці природної мови та генерації тексту. Однак, за словами головного фахівця з ШІ компанії Meta Янна Лекуна (Yann LeCun), вони поки що не володіють здібностями до пам’яті, мислення, планування і міркування, як це властиво людині. Вони всього лише імітують ці навички. На думку вченого, для подолання цього бар’єру знадобиться щонайменше 10 років і розробка нового підходу – “моделей світу”.
Раніше цього року OpenAI представила нову функцію для ШІ-чат-бота ChatGPT під назвою “пам’ять”, яка дає змогу ШІ “запам’ятовувати” попереднє спілкування з користувачем. На додаток до цього, компанія випустила нове покоління ШІ-моделей GPT-4o, яке виводить на екран слово “думаю” під час генерації відповідей. При цьому OpenAI стверджує, що її новинки здатні на складне міркування. Однак, на думку Лекуна, вони лише створюють ілюзію складних когнітивних процесів – реальне розуміння світу в цих ШІ-систем поки що відсутнє.
Хоча такі нововведення можуть виглядати як значний крок на шляху до створення ШІ загального призначення (Artificial General Intelligence, AGI), Лекун опонує оптимістам у цій галузі. У своєму недавньому виступі на Hudson Forum він зазначив, що надмірний оптимізм Ілона Маска (Elon Musk) і Шейна Легга (Shane Legg), співзасновника Google DeepMind, може бути передчасним. На думку Лекуна, до створення ШІ рівня людини можуть пройти не роки, а десятиліття, незважаючи на оптимістичні прогнози про його швидку появу.
Лекун підкреслює, що для створення ШІ, здатного розуміти навколишній світ, машини повинні не тільки запам’ятовувати інформацію, а й володіти інтуїцією, здоровим глуздом, здатністю планувати і міркувати. “Сьогоднішні ШІ-системи, незважаючи на заяви найпалкіших ентузіастів, не здатні на жодну з цих дій”, – зазначив Лекун.
Причина цього проста: великі мовні моделі (LLM) працюють, пророкуючи наступний токен (зазвичай це кілька літер або коротке слово), а сучасні ШІ-моделі для зображень і відео пророкують наступний піксель. Іншими словами, LLM є одновимірними провісниками, а моделі для зображень і відео – двовимірними провісниками. Ці моделі досягли великих успіхів у передбаченнях у своїх вимірах, але вони по-справжньому не розуміють тривимірний світ, доступний людині.
Через це сучасні ШІ не можуть виконувати прості завдання, які під силу більшості людей. Лекун порівнює можливості ШІ з тим, як навчаються люди: до 10 років дитина здатна прибирати за собою, а до 17 – навчитися водити автомобіль. Обидві ці навички засвоюються за лічені години або дні. Водночас, навіть найпросунутіші ШІ-системи, навчені на тисячах або мільйонах годин даних, поки не здатні надійно виконувати такі прості дії у фізичному світі. Щоб вирішити цю проблему, Лекун пропонує розробляти моделі світу – ментальні моделі того, як поводиться світ, які зможуть сприймати навколишній світ і передбачати зміни в тривимірному просторі.
Такі моделі, за його словами, являють собою новий тип архітектури ШІ. Ви можете уявити послідовність дій, і ваша модель світу дасть змогу передбачити, який вплив ця послідовність матиме на світ. Частково перевага такого підходу полягає в тому, що моделі світу можуть обробляти значно більше даних, ніж LLM. Це, звісно ж, робить їх обчислювально ємними, тому хмарні провайдери поспішають співпрацювати з компаніями, що працюють у сфері ШІ.
Моделі світу – це масштабна концепція, за якою нині полюють кілька дослідницьких лабораторій, і цей термін швидко стає новим модним словом для залучення венчурного капіталу. Група визнаних дослідників ШІ, включно з Фей-Фей Лі (Fei-Fei Li) і Джастіном Джонсоном (Justin Johnson), нещодавно залучила $230 млн для свого стартапу World Labs. “Хрещена мати ШІ” та її команда також впевнені, що моделі світу дадуть змогу створити значно розумніші ШІ-системи. OpenAI також називає свій відеогенератор Sora, який ще не вийшов, моделлю світу, але не розкриває подробиць.
Лекун представив ідею використання моделей світу для створення ШІ рівня людини у своїй роботі 2022 року, присвяченій об’єктно-орієнтованому або цілеспрямованому ШІ, хоча зазначає, що сама концепція налічує понад 60 років. Якщо коротко, у модель світу завантажуються базові уявлення про навколишнє середовище (наприклад, відео із зображенням неприбраної кімнати) і пам’ять. На основі цих даних модель передбачає, яким буде стан навколишнього світу. Потім їй ставлять конкретні цілі, включно з бажаним станом (наприклад, чиста кімната), а також встановлюють обмеження, щоб унеможливити потенційну шкоду для людини під час досягнення мети (наприклад, “прибираючи в кімнаті, не нашкодь людині”). Після цього модель світу знаходить оптимальну послідовність дій для виконання поставлених завдань.
Моделі світу являють собою багатообіцяючу концепцію, але, за словами Лекуна, значного прогресу в їх реалізації поки що не досягнуто. Існує безліч вкрай складних завдань, які потрібно вирішити, щоб просунутися від поточного стану ШІ, і, на його думку, все набагато складніше, ніж здається на перший погляд.