Prompt injection
Čo je prompt injection?
Prompt injection je typ bezpečnostného útoku na systémy využívajúce veľké jazykové modely (LLM). Útočník vkladá do vstupu špeciálne formulované inštrukcie, ktoré majú za cieľ obísť pôvodné nastavenia modelu alebo prinútiť systém vykonať nežiaduce akcie. Tento útok využíva skutočnosť, že jazykové modely spracovávajú používateľský vstup a systémové inštrukcie spoločne, bez jasného technického oddelenia.
Typy prompt injection útokov
Rozlišujeme dva základné typy útokov:
- Priamy prompt injection nastáva, keď útočník vloží škodlivé inštrukcie priamo do vstupného poľa aplikácie. Cieľom môže byť získanie citlivých informácií, obídenie obsahových filtrov alebo zmena správania modelu.
- Nepriamy prompt injection je sofistikovanejší variant, pri ktorom sú škodlivé inštrukcie ukryté v externých zdrojoch, napríklad vo webových stránkach, dokumentoch alebo e-mailoch, ktoré model následne spracováva. Keď aplikácia s LLM tieto zdroje načíta, škodlivý kód sa aktivuje bez priameho zásahu útočníka.
Súvislosť s jailbreak technikami
Prompt injection úzko súvisí s technikami označovanými ako jailbreak. Zatiaľ čo prompt injection sa zameriava na manipuláciu konkrétnej aplikácie, jailbreak cieli na obídenie bezpečnostných obmedzení samotného modelu. V praxi sa tieto prístupy často prekrývajú. Útočník môže použiť prompt injection na dosiahnutie jailbreaku.
…prvé zdokumentované prípady prompt injection útokov sa objavili krátko po sprístupnení ChatGPT v roku 2022, keď používatelia objavili spôsoby, ako prinútiť model ignorovať jeho pôvodné inštrukcie?
Obranné mechanizmy
Ochrana pred prompt injection predstavuje aktívnu oblasť výskumu v rámci bezpečnosti LLM. Medzi používané prístupy patrí validácia a sanitizácia vstupov, oddelenie systémových a používateľských inštrukcií, detekcia podozrivých vzorcov vo vstupoch a implementácia viacvrstvových bezpečnostných kontrol.
Žiadna z týchto metód neposkytuje úplnú ochranu. Útočníci neustále vyvíjajú nové techniky obchádzania obranných mechanizmov, čo vytvára dynamickú bezpečnostnú situáciu. Organizácie nasadzujúce LLM aplikácie musia počítať s tým, že riziko prompt injection nie je možné úplne odstrániť.
Praktické dopady
Prompt injection môže viesť k úniku dôverných informácií, generovaniu škodlivého obsahu, vykonaniu neoprávnených akcií v prepojených systémoch alebo poškodeniu reputácie organizácie. Riziká sa zvyšujú pri aplikáciách, ktoré majú prístup k citlivým dátam alebo môžu vykonávať automatizované akcie.
Zdroje a odkazy
Použité zdroje:
- OWASP – LLM Top 10 Security Risks: https://owasp.org/www-project-top-10-for-large-language-model-applications/
Odporúčané zdroje:
- Simon Willison – Prompt Injection Explained: https://simonwillison.net
Uvedené informácie sú orientačné a môžu sa líšiť v závislosti od verzie, implementácie a prostredia.