Исследователи безопасности из компании Microsoft разработали технику атаки по сторонним каналам Whisper Leak, позволяющую на основе пассивного анализа шифрованного трафика, передаваемого через TLS-соединение, классифицировать темы запросов к сервисам на базе больших языковых моделей. Информации о размере сетевых пакетов и задержках между их передачей оказалось достаточно для определения тем запросов к AI-чатботам с точностью более 98%. На практике предложенный метод может применяться для выявления в транзитном трафике пользователя определённых тем запросов, например, попыток получения информации о незаконных действиях, без расшифровки содержимого...Подробнее: https://www.opennet.ru/opennews/art.shtml?num=64218
Сложно было спросить "как защититься от сабжа"?
Сейчас узнаем, что нам с этим делать:
https://www.google.com/ai
Технологии типа DAITA. Выравнивает размеры пакетов, фоновый обмен мусором, дианамическая адаптация обмена мусором чтобы скрыть паттерны. Всё, чтобы трафик со стороны выглядел как единообразный поток. Неэффективно с точки зрения потребления трафика и задержек, но работать против статистического анализа должно
Поэтому И-провайдеры применять не будут массово. А кто будет - сотрудники того присядут.
> Исследователи безопасности из компании Microsoft... логично смотивированные своей классовой сущностью и целеполаганием дали ценный совет, отражающий их внутренний мир и стремления, тем, кто хочет поотмывать деньги:
> Для снижения эффективности пассивного анализа тематики запросов разработчикам AI-сервисов предложено прикреплять случайное добавочное заполнение
Теперь понятно зачем они везде ссылки на справку пихают.
> Например, точность определения запросов на тему "отмывание денег"
> для многих AI-сервисов составила 100%, при наличии в анализируемом
> трафике 1 искомого запроса и 10000 запросов, не связанных с
> нужной темой.Больше интересно сколько из тех 10000 оно таки тоже посчитало отмыванием бабла... А то высокому суду нет же оснований не доверять сертифицированной балалайке по поиску запрещенных запросов в SSL мусоре.
Ну что за ИТ отрасль сегодня такая, ни дня не проходит без найденных дырений в той или иной технологии, продукте, по.
да ровно такая же как и была, просто раньше на это забивали и игнорировали, конечно факапы случались, но не каждый кто увидет торчащий из кармана телефон в метро попытается его украсть, а сейчас после множества инцидентов, корпорасты наконецто поняли что проще предотвращать чем откупаться, выделили бюджеты, и вот, есть первая линия исследователей безопасности на зарплате, есть вторая по баунти хантер, все по взрослому и это работает
> но не каждый кто увидет торчащий из кармана телефон в метро попытается его украстьэто просто потому что может оказаться что предыдущий владелец телефона может бегает быстрее чем ты.
тут корпорации скорее все ж о себе заботятся. (владельцы ЫЫ и так знают же кто ты и что искал, их огорчает что эту информацию может получить нахаляву третий лишний, вместо того чтобы купить)
В принципе это вообще надо быть уникумом чтобы спрашивать подозрительные вещи у нелокального и неподконтрольного ИИ как минимум потому что владелец может донести куда следует и дальше либо полиция, либо агент от предложения которого трудно отказаться(и потом всё равно тюрьма, но уже за большее количество преступлений)
И все эти уязвимости работают только в тепличных специально созданных условиях.
"проверять это я конечно же никогда не буду, даром что все исходники публичны"
> В TLS, если не используется сжатие данныхА кто-то еще отправляет несжатые данные? Трафик не жалко?
По статистике w3techs каждый десятый сайт не использует сжатие (10.5%) .
Например американский интернет до сих пор состоит на 70% из сайтов написанных в 90-е на коленке.
Источник статистики?
Три П у него источник, как и часто тут. Пол-палец-потолок
В случае с языковыми моделями сжатия трафика скорее навредит, потому что классические алгоритмы сжатия не оптимизированы под сжатие трёх-десяти байт перед сбросом фрагмента, они оперируют большими кусками, и стрим токенов будут скорее увеличивать
Сжатие данных само даёт мощнейший side-channel. Когда жали - атака, подобная сабжу, была возможна и для просто сайтов.
это неверный перевод, сжатие данных на стороне HTTP-протокола никак не влияет на точность данной модели. TLS-сжатие отсутствует в природе, оно могло бы "застримить" и объединить чанки данных, но нет.
что-то слабо верится, зная как рандомно они генерят, какие случайные сетевые и ресурсные задержкитесты проводились в локальной сети на специальной машине и в изолированной сети?
исследование как бы и намекает что нифига похоже не рандомно.То что тебе кажется рандомными задержками (потому что ты не повторяешь один и тот же запрос десять раз) - на самом деле одинаково для одного и того же запроса. И настолько разное для других, что прямо в шифрованном траффике видно. Рандом, но не там где ожидали.
> тесты проводились в локальной сети на специальной машине и в изолированной сети?
угу, в которой откуда-то взялись два десятка моделей включая китайские.
Хорошая такая изолированная сеть, интернет называется.А дамп траффика слитый непосредственно с твоего порта и с транзитного железа в тысяче километров - внезапно, одинаковый.
я не раз сталкивался, что на заборе написано, начинаеть проверять, воспроизводить, а там дрова лежат, вот сейчас мне прост лень, что-либо перепроверять,> А дамп траффика слитый непосредственно с твоего порта и с транзитного железа в тысяче километров - внезапно, одинаковый.
а пинги разные, и пакеты под вопросом - а это единственный их источник данных, какой-нибудь промежуточный узел рандомом поливает и все
я ж говорю тест для локалки или хотя бы последней мили
«Пинги» тут никак не влияют. Влияет джиттер, но с ним провайдеры борятся чтобы VoIP не портил.
Просто отключить параметр streaming и получать ответ целиком. Делов то. Хотя у меня давно на роутере стоит скрипт, который генерирует рандомный трафик для предотвращения анализа запросом к мессенджерам. Вот там действительно можно нехило опрос то волос биться, тем более в моей стране, где за инакомыслие убивают в прямом смысле.
Можно подробнее про скрипт, пожалуйста?
> ...для выявления в транзитном трафике пользователя определённых тем запросов ... о незаконных действиях, без расшифровки содержимого.Но законы в разных странах могут отличаться. То, что незаконно в одной стране, может быть законно в другой и наоборот.
Ага, осталось только исключить из схемы корпорацию, сливающую спецам, а то всё без толку будет.
Да, и новое железо мы постоянно покупать не обязаны, горбатясь на тех, кто не работает вообще, а только паразитирует на нас.
Верно!?
>Для снижения эффективности пассивного анализа тематики запросов разработчикам AI-сервисов предложено прикреплять случайное добавочное заполнение, буферизировать передачу токенов или выполнять подстановку фиктивных пакетов.И присесть. Ведь всегда можно сказать "вы эту фичу реализовали специально, чтобы сотрудников Los Setas и мадуровского картеля покрывать".
>Соответственно, на каждый токен отправляется отдельный сетевой пакет и задержка между пакетами соответствует задержке между определением моделью следующего токена.
Я всегда думал, что она не зависит от токена, ведь GPU должно быть всё равно, что там в матрицах, которые оно множит и через софтмаксы пропускает. С денормалами могут быть проблемы, денормалы на CPU всегда были очень тормозными, но на GPU позволить денормалам тормозить весь ворп - я сомневаюсь, что могут позволить.
> И присесть. Ведь всегда можно сказать "вы эту фичу реализовали специально, чтобы сотрудников Los Setas и мадуровского картеля покрывать".Не надо пугалки изобретать, так рассуждаючи, уже за TLS должны были присесть.
С TLS проще: нет нужного корневого сертификата - хрен тебе, а не чебурнет (а интернета вообще просто хрен, без всяких условий). Все государства дойдут до этого.
В плане борьбы за все хорошее против всего плохого, предлагаю мелкософту перенаправить ресурсы на анализ транзитного канализационного трафика в целяхцелях проведения медицинских анализов. А за одно, повлиять на глобальное потепление, снижением количества выделяемого метана.
Нарколаборатории раскрывали по анализам канализационных стоков.
Разве это не городская легенда, основанная на банальном распиле (воды действительно анализировали, но бестолку, и так спустили кучу денег в ... гм... канализацию)?
>Разве это не городская легендаРеальная тема была во времена ковидлы. Стоки анализировались на количество вирусных частиц на объем. По результатам можно было за несколько дней предсказать волну обращений к врачам и как то подготовиться.
Вот например https://www.vshouz.ru/news/analitika/wcs-6477/
Но вообще да, напоминает историю, про то как военкомат по принесенному анализу мочи, определил, что у отца геморой, у матери климакс, сестра беременна, у кота блохи, а парень годен к службе :)
Там анализировали одну тему против остальных заведомо легитимных тем из дэйтасета. Не удивлюсь, если ловили сигнатуру ответов сети типа "Я не буду вам помогать, это незаконно".
даже если так - чем плохо-то, преступник найден, уже на допросе сознаешься что именно незаконного собирался сотворить.
Много наркобаронов сознались? Ты, вероятно, слабо представляешь, как устроена организованная преступность.
так с ними проблема как раз в "найден". В смысле "нашел? - Не, пойду еще на кухне поищу"А так-то у предыдущего президента Филлипин - все сознались. Большинство, правда, посмертно.
Вообще то Whisper используют ради весьма годной офлайн работы.
Читайте статью дальше, не стесняйтесь. Не стоит отстанавливаться на втором слове заголовка.
Так это не проблема ЛЛМ, а проблема убогого TLS. И долбить надо разработчиков протокола, чтобы они сделали рандомизацию, а не вебмастеров.