Перейти до основного вмісту

Декада ШІ агентів

· 5 хв. читання
UT3USW
Oleksii

Поки заголовки щодня обіцяють то сингулярність, то кінець людства, Карпатій дивиться на все це тверезіше. Чувак працював в OpenAI, керував автопілотом у Tesla - він знає, як ця кухня працює зсередини. В інтерв'ю Дваркешу Пателю він каже речі, які збігаються з тим, що я сам думаю: трансформери1 - тупик, RL - лайно, а ШІ загалом переоцінений.

Коли всі кричать "рік агентів", Карпатій каже - ні, це буде декада агентів, бо моделі зараз просто недостатньо надійні. Він прямо називає навчання з підкріпленням (RL) жахливим підходом, який видавлює результати по краплі. І навіть статистично модель вважає за краще промовчати, ніж відповісти - бо штраф за помилку більший, ніж за "я не знаю".

Він розповідає про досвід у Tesla, де прогрес - це поступове "вигризання" надійності, і про свою нещодавню роботу над Nanochat2, щоб пояснити: код-агенти досі не можуть замінити архітектора. Далі розбираємо головне з цієї розмови - чому справжній інтелект не зводиться до запам'ятовування, чому Карпатій не вірить у різкий "вибух" продуктивності, і навіщо він будує "Starfleet Academy" для освіти людства.

Про поточний стан ШІ та "Декаду агентів"

  • Десятиріччя, а не рік: Карпатій називає цей час "декадою агентів", а не "роком агентів", реагуючи, на його думку, на надто оптимістичні прогнози в індустрії.
  • Чому не зараз: Поточні агенти "просто не працюють" достатньо надійно, щоб замінити співробітника чи навіть джуна.
  • Ключові проблеми: Їм бракує інтелекту, мультимодальності, а головне - "безперервного навчання" (continual learning), тобто здатності пам'ятати та інтегрувати нову інформацію.

Про навчання з підкріпленням (RL) та аналогії з людиною

  • RL жахливий: Карпатій каже: "Навчання з підкріпленням жахливе. Просто так сталося, що все, що ми мали до нього, набагато гірше".
  • "Висмоктування через соломинку": Проблема RL у тому, що він "висмоктує результат через соломинку". Один єдиний сигнал винагороди (наприклад, "завдання виконано") поширюється на тисячі попередніх дій, що робить навчання дуже "шумним" і неефективним.
  • Люди так не вчаться: Люди не використовують RL для складних інтелектуальних завдань. Натомість ми маємо складний процес "огляду" (review) та аналізу своїх дій.
  • Ми будуємо "привидів": Він обережно ставиться до аналогій з тваринами, оскільки вони є продуктом еволюції, що докорінно відрізняється від нашого процесу навчання. "Ми насправді не будуємо тварин. Ми будуємо привидів" - цифрові сутності, що імітують дані, створені людьми.
  • "Когнітивне ядро" проти пам'яті: Попереднє навчання (pre-training) дає моделям дві речі: фактичні знання (пам'ять) та інтелект ("когнітивне ядро"). Карпатій вважає, що надмірна пам'ять насправді стримує моделі. Він хотів би "видалити пам'ять" і залишити лише чисті алгоритми мислення.
  • Забудькуватість - це перевага: Те, що люди погано запам'ятовують дослівно, - це "особливість, а не вада", оскільки це змушує нас узагальнювати. LLM, навпаки, надто добре запам'ятовують, що їм заважає.

Про кодування, Nanochat2 та обмеження агентів

  • Агенти не допомогли: При створенні Nanochat2 код-агенти йому майже не допомогли.
  • Де агенти корисні: Вони корисні для шаблонного (boilerplate) коду або для вивчення нових мов програмування (він використовував їх для Rust).
  • Де вони провалюються: Агенти погано справляються з кодом, який ніколи раніше не був написаний та інтелектуально складними, унікальними завданнями. Для такої роботи він надає перевагу автодоповненню (autocomplete).
  • Як вчитися: Найкращий спосіб вчитися - це "створювати код... змусити його працювати". Він не радить писати блоги чи робити слайди, бо так "бракує знань".

Про майбутнє, AGI та "Вибух інтелекту"

  • ШІ як продовження обчислень: Карпатій бачить ШІ не як окрему магічну технологію, а як "продовження обчислень" та неперервний процес автоматизації, що триває століттями.
  • Вибух уже відбувається: Він вважає, що "ми вже перебуваємо у вибуху інтелекту, і це буде тривати десятиліттями".
  • Без різкого стрибка ВВП: Він не очікує, що ШІ спричинить раптовий, різкий стрибок у зростанні ВВП. Натомість як і комп'ютери чи інтернет, він плавно інтегрується в економіку, і ми залишимося на тій самій експоненційній кривій зростання.
  • Ризик - втрата контролю: Найімовірнішим негативним сценарієм він вважає не повстання машин, а "поступову втрату контролю та розуміння" того, що відбувається в ускладнених автоматизованих системах.

Уроки з досвіду в Tesla

  • Демо - це не продукт: Досвід роботи над безпілотними автомобілями навчив його, що існує величезний "розрив від демо до продукту", особливо у сферах, де "ціна помилки занадто висока".
  • "Марш дев'яток": Прогрес - це "march of nines" (тобто досягнення 90%, 99%, 99.9% надійності). "Кожна дев'ятка - це однаковий обсяг роботи".
  • Скепсис до демо: Через це він тепер "дуже не вражений демо-версіями" будь-яких технологій.

Про свій новий проєкт Eureka

  • Місія: Його головний страх - що людство "втратить повноваження" і стане пасивним, як у фільмах WALL-E або Idiocracy. Він хоче "розширити можливості людей" через освіту.
  • "Starfleet Academy": Він описує Eureka Labs як "Starfleet Academy"- елітний інститут для передових технічних знань.
  • Мета - ідеальний репетитор: Кінцева мета - створити ідеального ШІ-репетитора, але Карпатій визнає, що "можливостей ще немає". Він наводить приклад свого репетитора корейської мови як планку якості, якої ШІ ще не досяг.
  • "Рампи до знань": Наразі він зосереджений на створенні "рамп до знань"- ідеально структурованих навчальних матеріалів (як Nanochat2), що максимізують "Eurekas per second".
  • Освіта після AGI: Він висуває тезу: "До AGI освіта корисна. Після AGI освіта - це розвага".
  • Освіта як спортзал: Після AGI люди будуть вчитися не заради роботи, а з тих самих причин, з яких ходять у спортзал: для самовдосконалення, здоров'я, статусу та задоволення.
  • Розкриття потенціалу: Карпатій вважає, що "генії сьогодення ледве торкаються поверхні того, на що здатний людський розум", і ідеальний ШІ-репетитор зможе допомогти людям досягти набагато більшого.

Footnotes

  1. https://arxiv.org/abs/1706.03762

  2. https://github.com/karpathy/nanochat 2 3 4