Dataset (dátová sada)

Čo je dataset?

Dataset (v slovenskom preklade dátová sada) je štruktúrovaná kolekcia údajov používaná na trénovanie, validáciu a testovanie modelov strojového učenia. Datasety tvoria základ pre akýkoľvek projekt v oblasti umelej inteligencie, pretože kvalita a rozsah vstupných dát priamo ovplyvňujú výkon výsledného modelu.

Typy datasetov v strojovom učení

V procese vývoja AI modelov sa datasety zvyčajne delia na tri hlavné kategórie. Tréningové dáta slúžia na učenie modelu – algoritmus na nich identifikuje vzory a vzťahy. Validačný dataset sa používa počas trénovania na ladenie hyperparametrov a prevenciu preučenia (overfitting).

Testovací dataset zostáva úplne oddelený od tréningového procesu. Používa sa až na záverečné hodnotenie výkonu modelu na dátach, ktoré predtým nevidel. Typické rozdelenie datasetu je v pomere 70:15:15 alebo 80:10:10 pre tréning, validáciu a testovanie.

Štruktúra a formáty datasetov

Dátové sady môžu obsahovať rôzne typy údajov – text, obrázky, zvuk, video alebo štruktúrované tabuľkové dáta. Pre učenie s učiteľom, tzv. supervised learning, obsahuje dataset vstupné príznaky (features) aj zodpovedajúce označenia (labels). Pri učení bez učiteľa (unsupervised learning) sú k dispozícii len vstupné dáta bez anotácií.

Medzi bežné formáty patria:

  • CSV a JSON pre tabuľkové dáta,
  • formáty COCO alebo Pascal VOC pre obrazové formáty s priloženými anotáciami,
  • špecializované formáty ako TFRecord pre TensorFlow alebo Parquet pre veľké objemy dát.
Vieš, že
Vieš, že…

…jeden z najznámejších datasetov ImageNet obsahuje viac ako 14 miliónov ručne anotovaných obrázkov v tisícoch kategórií a jeho vytvorenie trvalo niekoľko rokov?

Kvalita datasetu a jej vplyv na model

Kvalita dátovej sady je rozhodujúca pre úspech AI projektu. Nekvalitné, neúplné alebo nevyvážené dáta vedú k modelom s nízkou presnosťou alebo systematickými chybami. Ak dataset obsahuje predsudky (bias), model ich reprodukuje vo svojich predikciách.

Príprava datasetu zahŕňa čistenie dát, odstránenie duplikátov, spracovanie chýbajúcich hodnôt a vyváženie tried. Pri obrazových dátach sa často používa augmentácia – umelé rozšírenie datasetu rotáciou, zmenou mierky či úpravou farieb existujúcich obrázkov.

Verejné a proprietárne datasety

Pre výskum a vývoj existuje množstvo verejne dostupných datasetov. MNIST obsahuje rukou písané číslice, Common Crawl poskytuje webové dáta pre trénovanie jazykových modelov a LibriSpeech slúži na rozpoznávanie reči. Platformy ako Kaggle, Hugging Face Datasets či UCI Machine Learning Repository zoskupujú tisíce datasetov pre rôzne úlohy.

Organizácie často vytvárajú vlastné proprietárne datasety z interných dát. Tieto dátové sady môžu poskytovať konkurenčnú výhodu, ale vyžadujú značné investície do zberu, anotácie a spravovania dát pri dodržaní pravidiel ochrany osobných údajov.

Zdroje a odkazy

Použité zdroje:

  • Google Machine Learning Crash Course – Introduction to Datasets: https://developers.google.com/machine-learning/crash-course

Odporúčané zdroje:

  • Hugging Face Datasets – knižnica a repozitár datasetov pre ML: https://huggingface.co/datasets

Uvedené informácie sú orientačné a môžu sa líšiť v závislosti od verzie, implementácie a prostredia.