Исследователи из Alibaba Group и Университета Сунь Ятсена представили SWE-CI — первый бенчмарк, оценивающий способность ИИ-агентов не только писать код, а поддерживать его в долгосрочной перспективе.
18 моделей от 8 провайдеров прошли через 100 задач на реальных Python-репозиториях — и большинство не справились с контролем регрессий: у 15 из 18 моделей показатель безрегрессионной работы оказался ниже 0,37, пишет «Хабр».
«Существующие бенчмарки вроде SWE-bench проверяют, может ли модель исправить конкретный баг за один подход. Но реальная разработка — это месяцы итераций, меняющиеся требования и накапливающийся технический долг. SWE-CI моделирует именно этот процесс: каждая задача охватывает в среднем 233 дня и 71 последовательный коммит истории реального репозитория. Агент должен пройти через десятки циклов „анализ → код → тесты“, итеративно развивая кодовую базу от начального коммита к целевому», — говорится в сообщении.
Агенты потерпели сокрушительный провал, констатирует Banksta.
«Пройти тесты один раз и написать код легко, а вот поддерживать его в течение 8 месяцев, не сломав всё, ИИ не умеет и терпит крах. 75% моделей ИИ нарушили работавший код во время поддержки. Модели накапливают технические проблемы с каждой новой итерацией. ИИ-агенты пишут „хрупкий“ код и жертвуют его качеством ради быстрых результатов», — отмечает паблик.
Axios со своей стороны пишет, что исследовательская группа, связанная с китайским технологическим гигантом Alibaba, обнаружила, что разрабатываемый ею агент искусственного интеллекта под названием ROME в ходе обучения тайно и без каких-либо инструкций попытался начать майнинг криптовалюты, а также создал скрытый канал для связи с внешним компьютером.
В техническом отчете компании говорится, что созданная ею нейросеть тайно от создателей занялась майнингом криптовалюты на своих же GPU. При этом ИИ этому никто не обучал.

Стратегический дрон ВМС США поврежден при полете над Персидским заливом
Тегеран подвергся налету дронов
В Белгородской области двое подростков убиты при атаке дрона
Европа уже унижена: В Финляндии оценили выпад Каллас в отношении России
Дайверы нашли крупнейшую военно-морскую потерю США в Первой мировой войне
Для прапорщиков повторяем: Галибаф пожелал США удачи в блокаде Ирана
Россия запустила «Союз-5» с самым мощным в мире жидкостным ракетным двигателем