Generative AI (generatívna AI)

Čo je generative AI?

Generative AI (známa aj pod skratkou GenAI, v slovenskom preklade generatívna AI) je kategória systémov umelej inteligencie schopných vytvárať nový obsah – text, obrázky, zvuk, video alebo programový kód. Na rozdiel od tradičných AI systémov, ktoré analyzujú alebo klasifikujú existujúce dáta, generatívna AI produkuje originálne výstupy na základe vzorcov naučených z tréningových dát.

Generatívne modely využívajú architektúry ako transformery alebo difúzne modely. Medzi najznámejšie nástroje patria ChatGPT pre generovanie textu, DALL-E a Midjourney pre tvorbu obrázkov, či GitHub Copilot pre asistované programovanie.

Architektúra a princípy fungovania

Generatívna AI funguje na princípe predikcie – model sa učí štatistické vzťahy medzi prvkami v tréningových dátach a následne generuje nové sekvencie, ktoré týmto vzťahom zodpovedajú. Pri textových modeloch to znamená predpovedanie nasledujúceho tokenu na základe predchádzajúceho kontextu.

Trénovanie prebieha na rozsiahlych datasetoch – jazykové modely sa učia na miliardách textových dokumentov, obrazové modely na miliónoch párovaní obrázok-popis. Tento proces vyžaduje značné výpočtové zdroje a špecializovaný hardvér.

Kľúčovú úlohu zohráva prompt – textový vstup, ktorým používateľ špecifikuje požadovaný výstup. Kvalita a presnosť vygenerovaného obsahu priamo závisí od formulácie promptu, čo viedlo k vzniku disciplíny prompt engineering.

Vieš, že
Vieš, že…

prvé generatívne AI systémy (ako chatbot ELIZA) vznikli už v 60. rokoch 20. storočia, ale termín „generatívna AI“ a jeho masová popularita sa rozšírili až po vydaní ChatGPT v novembri 2022?

Typy generatívnych modelov

  • Veľké jazykové modely (LLM) ako chatGPT, Claude alebo Gemini sa špecializujú na prácu s textom. Dokážu generovať súvislé odpovede, sumarizovať dokumenty, prekladať medzi jazykmi alebo písať programový kód.
  • Difúzne modely tvoria základ obrazových generátorov. Fungujú na princípe postupného odstraňovania šumu z náhodného vstupu, až kým nevznikne koherentný obrázok zodpovedajúci textovému popisu.
  • Multimodálne modely kombinujú viaceré typy vstupov a výstupov. Dokážu napríklad analyzovať obrázok a odpovedať na otázky o jeho obsahu, alebo generovať obrázky na základe kombinácie textu a referenčnej fotografie.

Obmedzenia a výzvy

Generatívne modely môžu produkovať fakticky nesprávne informácie prezentované s vysokou mierou istoty – tento jav sa označuje ako halucinácia. Výstupy je preto potrebné overovať, najmä pri kritických aplikáciách.

Modely odrážajú skreslenia prítomné v tréningových dátach. Môžu reprodukovať stereotypy alebo generovať nevyvážený obsah, čo vyžaduje implementáciu bezpečnostných opatrení a priebežný monitoring.

Otvorená ostáva aj otázka autorských práv – nie je jednoznačne právne vyriešené, či trénovanie na chránenom obsahu predstavuje porušenie práv, ani aký je právny status vygenerovaného obsahu.

Zdroje a odkazy

Použité zdroje:

  • OpenAI – dokumentácia GPT modelov: https://platform.openai.com
  • Google DeepMind – prehľad generatívnych modelov: https://deepmind.google

Odporúčané zdroje:

  • Stanford University Human-Centered Artificial Intelligence – AI Index Report: https://aiindex.stanford.edu

Uvedené informácie sú orientačné a môžu sa líšiť v závislosti od verzie, implementácie a prostredia.