Metodele statistice sunt o parte cheie a științei datelor, totuși puțini oameni de știință ai datelor au pregătire statistică oficială. Cursurile și cărțile despre statistica de bază acoperă rareori subiectul din perspectiva științei datelor. A doua ediție a acestui ghid popular adaugă exemple cuprinzătoare în Python, oferă îndrumări practice privind aplicarea metodelor statistice în știința datelor, vă spune cum să evitați utilizarea lor greșită și vă oferă sfaturi despre ce este important și ce nu.
Multe resurse de știință a datelor încorporează metode statistice, dar le lipsește o perspectivă statistică mai profundă. Dacă sunteți familiarizat cu limbajele de programare R sau Python și aveți o oarecare expunere la statistică, această referință rapidă face legătura într-un format accesibil și ușor de citit.
Cu această carte, vei învăța:
De ce analiza exploratorie a datelor este un pas preliminar cheie în știința datelor
Cum eșantionarea aleatorie poate reduce părtinirea și poate genera un set de date de calitate superioară, chiar și cu date mari
Cum principiile designului experimental dau răspunsuri definitive la întrebări
Cum să utilizați regresia pentru a estima rezultatele și a detecta anomalii
Tehnici cheie de clasificare pentru prezicerea categoriilor din care aparține o înregistrare
Metode statistice de învățare automată care „învață” din date
Metode de învățare nesupervizată pentru extragerea sensului din date neetichetate
Despre autor
Peter Bruce este Fondatorul și Directorul Academic al Institutului pentru Educație Statistică de la Statistics.com, care oferă aproximativ 80 de cursuri în statistică și analiză, dintre care aproximativ jumătate sunt destinate oamenilor de știință de date.. Este autorul sau coautorul mai multor cărți în statistică și analiză, și a obținut diploma de licență la Princeton, și diplome de master la Harvard și Universitatea din Maryland.
^
Andrew Bruce, Cercetător Științific Principal la Amazon, are peste 30 de ani de experiență în statistică și știința datelor în mediul academic, guvernamental și de afaceri. Coautorul lucrării Applied Wavelet Analysis with S-PLUS, a obținut licența la Princeton și doctoratul în statistică la Universitatea Washington.
^
Peter Gedeck, Senior Data Scientist la Collaborative Drug Discovery, este specializat în dezvoltarea de algoritmi de învățare automată pentru a prezice proprietățile biologice și fizico-chimice ale candidaților la medicamente.. Coautor al cărții Data Mining for Business Analytics, a obținut doctoratul în Chimie de la Universitatea Erlangen-Nürnberg din Germania și în Matematică de la Fernuniversität Hagen, Germania.