В 2022 году исследователи обнаружили критическую уязвимость всех видов искусственного интеллекта, доступных для всеобщего пользования. Эксперты заявили, что современные языковые модели не способны разделять обычные запросы от вредоносных, скрытых в обрабатываемой ИИ информации. То есть нейросети в ответах учитывает все виды данных, в том числе и те, которым нельзя доверять.

Google DeepMind представил CaMel, новый подход к остановке атак с внедрением подсказок. Суть его сводится к том, что он рассматривает все языковые модели ИИ как ненадежные компоненты. То есть данная разработка четко разделяет пользовательские запросы и вредоносную информацию.

CaMel применяет другой подход к анализу данных. Вместо того чтобы ожидать, что ИИ обнаружит атаки, новая разработка реализует устоявшиеся принципы инженерии безопасности. Иначе говоря, Google смог найти решение, позволяющее эффективно разделять полезную и вредоносную информацию. CaMel гарантирует, что ИИ не сможет действовать на ненадежных данных, если ему это явно не разрешено.

Новая система разделяет обязанности между двумя языковыми моделями. Одна отвечает за генерацию кода, определяющий шаги, которые нужно предпринять, например, вызов функции для получения последнего электронного письма. Вторая анализирует неструктурированные данные. Эта модель не имеет доступа к памяти, а выступает скорее в качестве дополнительного помощника. Автор: Федор Аверьев

Запись перемещена в архив
Нет больше статей