Декада ШІ агентів
Поки заголовки щодня обіцяють то сингулярність, то кінець людства, Карпатій дивиться на все це тверезіше. Чувак працював в OpenAI, керував автопілотом у Tesla - він знає, як ця кухня працює зсередини. В інтерв'ю Дваркешу Пателю він каже речі, які збігаються з тим, що я сам думаю: трансформери1 - тупик, RL - лайно, а ШІ загалом переоцінений.
Коли всі кричать "рік агентів", Карпатій каже - ні, це буде декада агентів, бо моделі зараз просто недостатньо надійні. Він прямо називає навчання з підкріпленням (RL) жахливим підходом, який видавлює результати по краплі. І навіть статистично модель вважає за краще промовчати, ніж відповісти - бо штраф за помилку більший, ніж за "я не знаю".
Він розповідає про досвід у Tesla, де прогрес - це поступове "вигризання" надійності, і про свою нещодавню роботу над Nanochat2, щоб пояснити: код-агенти досі не можуть замінити архітектора. Далі розбираємо головне з цієї розмови - чому справжній інтелект не зводиться до запам'ятовування, чому Карпатій не вірить у різкий "вибух" продуктивності, і навіщо він будує "Starfleet Academy" для освіти людства.
Про поточний стан ШІ та "Декаду агентів"
- Десятиріччя, а не рік: Карпатій називає цей час "декадою агентів", а не "роком агентів", реагуючи, на його думку, на надто оптимістичні прогнози в індустрії.
- Чому не зараз: Поточні агенти "просто не працюють" достатньо надійно, щоб замінити співробітника чи навіть джуна.
- Ключові проблеми: Їм бракує інтелекту, мультимодальності, а головне - "безперервного навчання" (continual learning), тобто здатності пам'ятати та інтегрувати нову інформацію.
Про навчання з підкріпленням (RL) та аналогії з людиною
- RL жахливий: Карпатій каже: "Навчання з підкріпленням жахливе. Просто так сталося, що все, що ми мали до нього, набагато гірше".
- "Висмоктування через соломинку": Проблема RL у тому, що він "висмоктує результат через соломинку". Один єдиний сигнал винагороди (наприклад, "завдання виконано") поширюється на тисячі попередніх дій, що робить навчання дуже "шумним" і неефективним.
- Люди так не вчаться: Люди не використовують RL для складних інтелектуальних завдань. Натомість ми маємо складний процес "огляду" (review) та аналізу своїх дій.
- Ми будуємо "привидів": Він обережно ставиться до аналогій з тваринами, оскільки вони є продуктом еволюції, що докорінно відрізняється від нашого процесу навчання. "Ми насправді не будуємо тварин. Ми будуємо привидів" - цифрові сутності, що імітують дані, створені людьми.
- "Когнітивне ядро" проти пам'яті: Попереднє навчання (pre-training) дає моделям дві речі: фактичні знання (пам'ять) та інтелект ("когнітивне ядро"). Карпатій вважає, що надмірна пам'ять насправді стримує моделі. Він хотів би "видалити пам'ять" і залишити лише чисті алгоритми мислення.
- Забудькуватість - це перевага: Те, що люди погано запам'ятовують дослівно, - це "особливість, а не вада", оскільки це змушує нас узагальнювати. LLM, навпаки, надто добре запам'ятовують, що їм заважає.
Про кодування, Nanochat2 та обмеження агентів
- Агенти не допомогли: При створенні Nanochat2 код-агенти йому майже не допомогли.
- Де агенти корисні: Вони корисні для шаблонного (boilerplate) коду або для вивчення нових мов програмування (він використовував їх для Rust).
- Де вони провалюються: Агенти погано справляються з кодом, який ніколи раніше не був написаний та інтелектуально складними, унікальними завданнями. Для такої роботи він надає перевагу автодоповненню (autocomplete).
- Як вчитися: Найкращий спосіб вчитися - це "створювати код... змусити його працювати". Він не радить писати блоги чи робити слайди, бо так "бракує знань".
Про майбутнє, AGI та "Вибух інтелекту"
- ШІ як продовження обчислень: Карпатій бачить ШІ не як окрему магічну технологію, а як "продовження обчислень" та неперервний процес автоматизації, що триває століттями.
- Вибух уже відбувається: Він вважає, що "ми вже перебуваємо у вибуху інтелекту, і це буде тривати десятиліттями".
- Без різкого стрибка ВВП: Він не очікує, що ШІ спричинить раптовий, різкий стрибок у зростанні ВВП. Натомість як і комп'ютери чи інтернет, він плавно інтегрується в економіку, і ми залишимося на тій самій експоненційній кривій зростання.
- Ризик - втрата контролю: Найімовірнішим негативним сценарієм він вважає не повстання машин, а "поступову втрату контролю та розуміння" того, що відбувається в ускладнених автоматизованих системах.
Уроки з досвіду в Tesla
- Демо - це не продукт: Досвід роботи над безпілотними автомобілями навчив його, що існує величезний "розрив від демо до продукту", особливо у сферах, де "ціна помилки занадто висока".
- "Марш дев'яток": Прогрес - це "march of nines" (тобто досягнення 90%, 99%, 99.9% надійності). "Кожна дев'ятка - це однаковий обсяг роботи".
- Скепсис до демо: Через це він тепер "дуже не вражений демо-версіями" будь-яких технологій.
Про свій новий проєкт Eureka
- Місія: Його головний страх - що людство "втратить повноваження" і стане пасивним, як у фільмах WALL-E або Idiocracy. Він хоче "розширити можливості людей" через освіту.
- "Starfleet Academy": Він описує Eureka Labs як "Starfleet Academy"- елітний інститут для передових технічних знань.
- Мета - ідеальний репетитор: Кінцева мета - створити ідеального ШІ-репетитора, але Карпатій визнає, що "можливостей ще немає". Він наводить приклад свого репетитора корейської мови як планку якості, якої ШІ ще не досяг.
- "Рампи до знань": Наразі він зосереджений на створенні "рамп до знань"- ідеально структурованих навчальних матеріалів (як Nanochat2), що максимізують "Eurekas per second".
- Освіта після AGI: Він висуває тезу: "До AGI освіта корисна. Після AGI освіта - це розвага".
- Освіта як спортзал: Після AGI люди будуть вчитися не заради роботи, а з тих самих причин, з яких ходять у спортзал: для самовдосконалення, здоров'я, статусу та задоволення.
- Розкриття потенціалу: Карпатій вважає, що "генії сьогодення ледве торкаються поверхні того, на що здатний людський розум", і ідеальний ШІ-репетитор зможе допомогти людям досягти набагато більшого.
