Logistic regression (logistická regresia)
Čo je logistic regression?
Logistic regression (v slovenskom preklade logistická regresia) je štatistická metóda používaná v strojovom učení na riešenie klasifikačných úloh. Na rozdiel od lineárnej regresie, ktorá predikuje spojité hodnoty, logistická regresia odhaduje pravdepodobnosť príslušnosti k určitej triede. Výstupom modelu je hodnota medzi 0 a 1, ktorá sa následne interpretuje ako pravdepodobnosť.
Princípy logistic regression
Základom logistickej regresie je logistická funkcia, ktorá premieňa ľubovoľnú reálnu hodnotu do intervalu (0, 1). Model počíta váženú sumu vstupných premenných.
Trénovanie modelu prebieha pomocou metódy maximálnej vierohodnosti (maximum likelihood estimation). Algoritmus iteratívne upravuje váhy tak, aby maximalizoval pravdepodobnosť správnej klasifikácie tréningových dát. Pre optimalizáciu sa štandardne využíva gradientný zostup alebo jeho variácie.
Rozhodovacia hranica (decision boundary) určuje, od akej vypočítanej pravdepodobnosti model povie „áno, patrí do pozitívnej triedy“ (napr. podvod / spam / chorý). Štandardne sa berie prah 0,5, teda hodnoty nad 0,5 sa označia ako pozitívne a pod 0,5 ako negatívne, ale v praxi sa tento prah často posúva podľa toho, či je dôležitejšie zachytiť viac pozitívnych prípadov (napr. podvodov) alebo minimalizovať falošné poplachy.
…logistická regresia napriek svojmu názvu nie je regresná, ale klasifikačná metóda? Názov pochádza z použitia logistickej (sigmoidnej) funkcie, nie z typu úlohy.
Typy logistic regression
- Binárna logistická regresia predstavuje základný variant, ktorý rozlišuje medzi dvoma triedami (napríklad áno/nie, spam/nie spam). Multinomiálna logistická regresia rozširuje tento prístup na problémy s viacerými triedami, kde triedy nemajú prirodzené usporiadanie.
- Ordinálna logistická regresia sa využíva pri klasifikácii do usporiadaných kategórií. Príkladom môže byť hodnotenie spokojnosti zákazníkov na škále od „veľmi nespokojný“ po „veľmi spokojný“.
Príklady použitia logistic regression
V oblasti detekcie podvodov finančné inštitúcie využívajú logistickú regresiu na identifikáciu podozrivých transakcií. Model na základe charakteristík transakcie odhaduje pravdepodobnosť, že ide o podvod.
Pri filtrovaní e‑mailov model na základe obsahu a metadát správy odhaduje pravdepodobnosť, že ide o spam, a podľa toho ju zaradí do schránky doručených alebo do spamu.
Medicínska diagnostika predstavuje ďalšiu významnú aplikáciu. Modely pomáhajú lekárom pri hodnotení rizika ochorení na základe symptómov a anamnézy pacienta. V marketingu sa logistická regresia používa na predikciu pravdepodobnosti, že zákazník zareaguje na ponuku alebo ukončí využívanie služby.
Logistická regresia má svoje obmedzenia – predpokladá lineárny vzťah medzi vstupnými premennými a logaritmom pravdepodobnosti. Pri komplexnejších vzťahoch v dátach môžu dosiahnuť lepšie výsledky metódy ako neurónové siete alebo rozhodovacie stromy.
Zdroje a odkazy
Použité zdroje:
- IBM Think – What is Logistic Regression: https://www.ibm.com/think/topics/logistic-regression
Odporúčané zdroje:
- Stanford University – Machine Learning Course: https://www.coursera.org/learn/machine-learning
Uvedené informácie sú orientačné a môžu sa líšiť v závislosti od verzie, implementácie a prostredia.