Китайский ИИ научился учить себя сам. Его разработчики называют это путем к сверхинтеллекту

Специальный корреспондент
Собака

Собака

Пресс-служба
Ветеран пробива
Private Club
Регистрация
13/10/15
Сообщения
61.337
Репутация
64.540
Реакции
295.244
USDT
0
Весной исследователи из Университета Цинхуа, Пекинского института общего искусственного интеллекта и Пенсильванского университета представили Absolute Zero Reasoner — систему, в которой языковая модель сама генерирует себе задачи, решает их и учится на результатах. Модели Qwen на 7 и 14 млрд параметров после такого обучения превзошли аналоги, натренированные на отобранных людьми датасетах. Как рассказывает Wired, теперь подход подхватывают крупные компании.

fa3f7e4cec1ba596b13c2bd961b1581c.jpg

Механика выглядит так: модель придумывает задачу на Python, пытается ее решить, затем запускает код для проверки. Успех или провал становится сигналом для обучения. Цикл повторяется — и с каждой итерацией модель учится и лучше решать задачи, и лучше их формулировать. Человек в этом процессе не участвует вообще.

"Сначала ты подражаешь родителям и делаешь как учителя, но потом начинаешь задавать собственные вопросы — и в итоге можешь превзойти тех, кто тебя учил", — объясняет логику подхода Эндрю Чжао, аспирант Университета Цинхуа и автор идеи Absolute Zero.

Сама концепция self-play не нова. DeepMind использовала ее еще в 2017 году в AlphaZero — системе, которая за 9 часов игры с собой научилась обыгрывать лучшие шахматные движки мира. Однако AlphaZero работала в закрытом мире с фиксированными правилами. Absolute Zero делает шаг дальше: здесь нет заранее заданных задач — модель сама формулирует, чему учиться.

Правда, пока это работает только там, где результат можно проверить автоматически, — код и математика. Но авторы планируют расширить подход на агентные задачи: веб-серфинг, работу с документами. «Как только мы это сделаем, это станет путём к сверхинтеллекту», — считает Цзылун Чжэн, исследователь из BIGAI.

Похожие идеи уже тестируют крупные лаборатории. Salesforce совместно со Стэнфордом представила Agent0 — агента, который улучшает себя через self-play. Meta* (признана экстремистской и запрещена в РФ), Иллинойский университет и Карнеги-Меллон опубликовали работу о самообучающихся агентах для разработки ПО — авторы прямо называют ее "первым шагом к сверхинтеллектуальным софтверным агентам". На фоне дефицита качественных данных для обучения такие подходы могут стать главным трендом года.







Источник
 
  • Теги
    ии возможности
  • Назад
    Сверху Снизу