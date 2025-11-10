The OpenNET Project / Index page

Атака Whisper Leak по определению тематики общения с AI-чатботами через анализ TLS-трафика

10.11.2025 21:11

Исследователи безопасности из компании Microsoft разработали технику атаки по сторонним каналам Whisper Leak, позволяющую на основе пассивного анализа шифрованного трафика, передаваемого через TLS-соединение, классифицировать темы запросов к сервисам на базе больших языковых моделей. Информации о размере сетевых пакетов и задержках между их передачей оказалось достаточно для определения тем запросов к AI-чатботам с точностью более 98%. На практике предложенный метод может применяться для выявления в транзитном трафике пользователя определённых тем запросов, например, попыток получения информации о незаконных действиях, без расшифровки содержимого.

Инструментарий для извлечения данных из дампов трафика, обучения модели и тестирования работы метода опубликован на GitHub. Возможность проведения атаки продемонстрирована для 28 популярных больших языковых моделей от крупнейших производителей. Например, точность определения запросов на тему "отмывание денег" для многих AI-сервисов составила 100%, при наличии в анализируемом трафике 1 искомого запроса и 10000 запросов, не связанных с нужной темой.

Причиной утечки информации является то, что модели генерируют ответ на запрос пошагово, по одному токену за раз, на каждом шагу используя предыдущий токен в качестве контекста для определения следующего наиболее вероятного слова или фразы. Соответственно, на каждый токен отправляется отдельный сетевой пакет и задержка между пакетами соответствует задержке между определением моделью следующего токена.

В TLS, если не используется сжатие данных, размен шифротекста равен размеру незашифрованного текста плюс константа. При создании модели, сопоставляющей искомые наборы токенов с размером пакетов и задержками между их отправкой, можно достаточно точно определить наличие в трафике искомых тем. В ходе исследования подготовлено три варианта подобных моделей машинного обучения, основанных на архитектурах нейронных сетей LightGBM, Bi-LSTM и BERT. Для каждой модели проведены эксперименты по определению искомой темы при анализе только размера пакетов, только задержек между пакетами и обеих критериев.

Для снижения эффективности пассивного анализа тематики запросов разработчикам AI-сервисов предложено прикреплять случайное добавочное заполнение, буферизировать передачу токенов или выполнять подстановку фиктивных пакетов.

Обсуждение (5)
  • 1, Аноним (1), 21:52, 10/11/2025 [ответить]  
    		• +/
    Сложно было спросить "как защититься от сабжа"?
     
     
  • 2, Аноним (2), 21:58, 10/11/2025 [^] [^^] [^^^] [ответить]  
    		• –1 +/
    Сейчас узнаем, что нам с этим делать:
    https://www.google.com/ai
     
     
  • 3, Аноним (3), 22:00, 10/11/2025 Скрыто ботом-модератором     [к модератору]
    		• +1 +/
     

  • 4, Аноним (4), 22:16, 10/11/2025 [ответить]  
    		• +/
    > Исследователи безопасности из компании Microsoft

    ... логично смотивированные своей классовой сущностью и целеполаганием дали ценный совет, отражающий их внутренний мир и стремления, тем, кто хочет поотмывать деньги:

    > Для снижения эффективности пассивного анализа тематики запросов разработчикам AI-сервисов предложено прикреплять случайное добавочное заполнение

     
  • 5, Аноним (5), 22:16, 10/11/2025 [ответить]  
    		• +/
    > Например, точность определения запросов на тему "отмывание денег"
    > для многих AI-сервисов составила 100%, при наличии в анализируемом
    > трафике 1 искомого запроса и 10000 запросов, не связанных с
    > нужной темой.

    Больше интересно сколько из тех 10000 оно таки тоже посчитало отмыванием  бабла... А то высокому суду нет же оснований не доверять сертифицированной балалайке по поиску запрещенных запросов в SSL мусоре.

     

