Generative AI (generatívna AI)
Čo je generative AI?
Generative AI (známa aj pod skratkou GenAI, v slovenskom preklade generatívna AI) je kategória systémov umelej inteligencie schopných vytvárať nový obsah – text, obrázky, zvuk, video alebo programový kód. Na rozdiel od tradičných AI systémov, ktoré analyzujú alebo klasifikujú existujúce dáta, generatívna AI produkuje originálne výstupy na základe vzorcov naučených z tréningových dát.
Generatívne modely využívajú architektúry ako transformery alebo difúzne modely. Medzi najznámejšie nástroje patria ChatGPT pre generovanie textu, DALL-E a Midjourney pre tvorbu obrázkov, či GitHub Copilot pre asistované programovanie.
Architektúra a princípy fungovania
Generatívna AI funguje na princípe predikcie – model sa učí štatistické vzťahy medzi prvkami v tréningových dátach a následne generuje nové sekvencie, ktoré týmto vzťahom zodpovedajú. Pri textových modeloch to znamená predpovedanie nasledujúceho tokenu na základe predchádzajúceho kontextu.
Trénovanie prebieha na rozsiahlych datasetoch – jazykové modely sa učia na miliardách textových dokumentov, obrazové modely na miliónoch párovaní obrázok-popis. Tento proces vyžaduje značné výpočtové zdroje a špecializovaný hardvér.
Kľúčovú úlohu zohráva prompt – textový vstup, ktorým používateľ špecifikuje požadovaný výstup. Kvalita a presnosť vygenerovaného obsahu priamo závisí od formulácie promptu, čo viedlo k vzniku disciplíny prompt engineering.
…prvé generatívne AI systémy (ako chatbot ELIZA) vznikli už v 60. rokoch 20. storočia, ale termín „generatívna AI“ a jeho masová popularita sa rozšírili až po vydaní ChatGPT v novembri 2022?
Typy generatívnych modelov
- Veľké jazykové modely (LLM) ako chatGPT, Claude alebo Gemini sa špecializujú na prácu s textom. Dokážu generovať súvislé odpovede, sumarizovať dokumenty, prekladať medzi jazykmi alebo písať programový kód.
- Difúzne modely tvoria základ obrazových generátorov. Fungujú na princípe postupného odstraňovania šumu z náhodného vstupu, až kým nevznikne koherentný obrázok zodpovedajúci textovému popisu.
- Multimodálne modely kombinujú viaceré typy vstupov a výstupov. Dokážu napríklad analyzovať obrázok a odpovedať na otázky o jeho obsahu, alebo generovať obrázky na základe kombinácie textu a referenčnej fotografie.
Obmedzenia a výzvy
Generatívne modely môžu produkovať fakticky nesprávne informácie prezentované s vysokou mierou istoty – tento jav sa označuje ako halucinácia. Výstupy je preto potrebné overovať, najmä pri kritických aplikáciách.
Modely odrážajú skreslenia prítomné v tréningových dátach. Môžu reprodukovať stereotypy alebo generovať nevyvážený obsah, čo vyžaduje implementáciu bezpečnostných opatrení a priebežný monitoring.
Otvorená ostáva aj otázka autorských práv – nie je jednoznačne právne vyriešené, či trénovanie na chránenom obsahu predstavuje porušenie práv, ani aký je právny status vygenerovaného obsahu.
Zdroje a odkazy
Použité zdroje:
- OpenAI – dokumentácia GPT modelov: https://platform.openai.com
- Google DeepMind – prehľad generatívnych modelov: https://deepmind.google
Odporúčané zdroje:
- Stanford University Human-Centered Artificial Intelligence – AI Index Report: https://aiindex.stanford.edu
Uvedené informácie sú orientačné a môžu sa líšiť v závislosti od verzie, implementácie a prostredia.