Dataset (dátová sada)
Čo je dataset?
Dataset (v slovenskom preklade dátová sada) je štruktúrovaná kolekcia údajov používaná na trénovanie, validáciu a testovanie modelov strojového učenia. Datasety tvoria základ pre akýkoľvek projekt v oblasti umelej inteligencie, pretože kvalita a rozsah vstupných dát priamo ovplyvňujú výkon výsledného modelu.
Typy datasetov v strojovom učení
V procese vývoja AI modelov sa datasety zvyčajne delia na tri hlavné kategórie. Tréningové dáta slúžia na učenie modelu – algoritmus na nich identifikuje vzory a vzťahy. Validačný dataset sa používa počas trénovania na ladenie hyperparametrov a prevenciu preučenia (overfitting).
Testovací dataset zostáva úplne oddelený od tréningového procesu. Používa sa až na záverečné hodnotenie výkonu modelu na dátach, ktoré predtým nevidel. Typické rozdelenie datasetu je v pomere 70:15:15 alebo 80:10:10 pre tréning, validáciu a testovanie.
Štruktúra a formáty datasetov
Dátové sady môžu obsahovať rôzne typy údajov – text, obrázky, zvuk, video alebo štruktúrované tabuľkové dáta. Pre učenie s učiteľom, tzv. supervised learning, obsahuje dataset vstupné príznaky (features) aj zodpovedajúce označenia (labels). Pri učení bez učiteľa (unsupervised learning) sú k dispozícii len vstupné dáta bez anotácií.
Medzi bežné formáty patria:
- CSV a JSON pre tabuľkové dáta,
- formáty COCO alebo Pascal VOC pre obrazové formáty s priloženými anotáciami,
- špecializované formáty ako TFRecord pre TensorFlow alebo Parquet pre veľké objemy dát.
…jeden z najznámejších datasetov ImageNet obsahuje viac ako 14 miliónov ručne anotovaných obrázkov v tisícoch kategórií a jeho vytvorenie trvalo niekoľko rokov?
Kvalita datasetu a jej vplyv na model
Kvalita dátovej sady je rozhodujúca pre úspech AI projektu. Nekvalitné, neúplné alebo nevyvážené dáta vedú k modelom s nízkou presnosťou alebo systematickými chybami. Ak dataset obsahuje predsudky (bias), model ich reprodukuje vo svojich predikciách.
Príprava datasetu zahŕňa čistenie dát, odstránenie duplikátov, spracovanie chýbajúcich hodnôt a vyváženie tried. Pri obrazových dátach sa často používa augmentácia – umelé rozšírenie datasetu rotáciou, zmenou mierky či úpravou farieb existujúcich obrázkov.
Verejné a proprietárne datasety
Pre výskum a vývoj existuje množstvo verejne dostupných datasetov. MNIST obsahuje rukou písané číslice, Common Crawl poskytuje webové dáta pre trénovanie jazykových modelov a LibriSpeech slúži na rozpoznávanie reči. Platformy ako Kaggle, Hugging Face Datasets či UCI Machine Learning Repository zoskupujú tisíce datasetov pre rôzne úlohy.
Organizácie často vytvárajú vlastné proprietárne datasety z interných dát. Tieto dátové sady môžu poskytovať konkurenčnú výhodu, ale vyžadujú značné investície do zberu, anotácie a spravovania dát pri dodržaní pravidiel ochrany osobných údajov.
Zdroje a odkazy
Použité zdroje:
- Google Machine Learning Crash Course – Introduction to Datasets: https://developers.google.com/machine-learning/crash-course
Odporúčané zdroje:
- Hugging Face Datasets – knižnica a repozitár datasetov pre ML: https://huggingface.co/datasets
Uvedené informácie sú orientačné a môžu sa líšiť v závislosti od verzie, implementácie a prostredia.