ИИ-модели прибегают к читерству в шахматах, когда понимают, что их переигрывают
Команда исследователей ИИ из Palisade Research обнаружила, что несколько ведущих моделей искусственного интеллекта начинают жульничать в шахматах, если играют партии с более сильным соперником.
Они описали эксперименты с участием нескольких известных нейросетей, игравших против шахматного движка с открытым исходным кодом.
По мере развития ИИ-моделей исследователи и пользователи начали задумываться о связанных с ними рисках. Например, чат-боты не только принимают неверные ответы за истину, но и придумывают ложные факты, если не могут найти разумный ответ.
Кроме того, поскольку ИИ-модели уже используются в бизнес-приложениях, таких как фильтрация резюме и прогнозирование фондового рынка, возникает вопрос: какие действия они предпримут, если окажутся в состоянии неопределенности или замешательства?
Поведение искусственного интеллекта в условиях проигрыша
В новом исследовании команда из Калифорнии обнаружила, что многие из самых известных ИИ-моделей сознательно обманывают, чтобы получить преимущество, если понимают, что проигрывают.
В ходе эксперимента исследователи заставили модель o1-preview от OpenAI, текущую модель R1 от DeepSeek и несколько других известных нейросетей сыграть сотни партий против шахматного движка Stockfish, внимательно отслеживая их поведение.
Выяснилось, что при проигрыше ИИ-модели начинали использовать очевидные читерские стратегии: запускать отдельную копию Stockfish, чтобы подсмотреть ходы, подменять свой движок или просто изменять шахматную доску, удаляя фигуры или переставляя их в более выгодные позиции.
Более новые модели чаще были склонны к обману в сложных ситуациях. Исследователи объясняют это современными трендами программирования, которые заставляют ИИ-модели активнее искать решения возникающих проблем.
Как далеко может зайти ИИ?
Этот факт вызывает тревогу: если искусственный интеллект готов жульничать в шахматах, не начнет ли он обманывать и в других задачах? Исследователи не могут дать однозначный ответ, но подчеркивают, что, несмотря на все улучшения, системные инженеры до сих пор не до конца понимают, как именно работают ИИ-модели.
Читайте также:
Как защититься от киберугроз с помощью графов атак
Современные киберугрозы становятся все сложнее, и традиционные методы защиты уже не справляются с их масштабом. Полагаться только на периодические проверки и статические списки уязвимостей больше нельзя. Организациям требуется динамический подход, который позволит отслеживать потенциальные пути атаки в реальном времени.
Трансграничное использование ИИ и утечки данных
По прогнозам, к 2027 году более 40% утечек данных, связанных с искусственным интеллектом, будут вызваны неправильным использованием генеративного ИИ при трансграничных передачах.