Curs „Analist de date” - curs 96.000 rub. de la Yandex Workshop, instruire 7 luni, data de 7 decembrie 2023.
Miscelaneu / / December 02, 2023
Un analist de date extrage sens din cifre și valori: vede tendințe, prezice evenimente și ajută o companie să înțeleagă clienții, să optimizeze procesele și să crească.
Piața are nevoie de specialiști care să poată folosi datele în mod util. Un studiu al companiei de personal Ancor pentru septembrie 2022 a arătat că 45% dintre companiile rusești caută analiști care să se alăture echipei lor.
Abilități pe care le vei învăța la curs
Denumirea funcției
Analist, Analist de date, Analist de date
Oportunitati de dezvoltare: Analist de produs, analist de marketing, analist BI, specialist în știința datelor
Iată tehnologiile și instrumentele pe care le veți folosi:
Piton
Caietul Jupyter
SQL
PostgreSQL
Tablou
Teste A/B
Începeți să faceți bani analizând
Vei începe dintr-o poziție de junior, apoi vei merge doar înainte. Vei urca pe scara carierei și vei crește în valoare. Și într-o zi nu va fi niciun preț pentru tine.
Programul complet al cursului de analiză a datelor
Îl actualizăm în mod regulat pentru a ne asigura că îndeplinește nevoile industriei și ale angajatorilor.
Cu alte cuvinte, înveți doar ceea ce va fi cu siguranță util în munca ta.
Parte gratuită - 1 săptămână
Introducere gratuită: Bazele Python și analiza datelor
Aflați conceptele de bază ale analizei datelor și înțelegeți ce fac analiștii de date și oamenii de știință ai datelor.
• Moscova Catnamycs. Afișarea datelor pe ecran. fișiere CSV. Lucrul cu tabele. Hărți de căldură. Înmulțirea unei coloane cu un număr întreg.
• Erori în cod. Erori de sintaxă. Erori de denumire. Erori la împărțirea la zero. Erori la importul unui modul.
• Variabile și tipuri de date. Variabile. Tipuri de date. Operații aritmetice cu numere și șiruri.
• Cum se fac ipoteze. Ipoteze. Cicluri HADI. Gandire analitica. Citirea graficelor.
• Ce fac oamenii de știință de date. Sarcinile de analist. Clarificarea sarcinilor. Descompunere. Etapele proiectului.
• Verificarea conversiilor. Conversie. Explorarea datelor. Formarea concluziilor.
• Rambursarea campaniilor de publicitate. Diagramă cu coloane. Diferența de elemente. Indexarea în coloane.
• Învățare automată și știința datelor. Instruire în învățarea automată. Găsirea valorilor unice în coloane. Indexare logica. Gruparea valorilor într-un tabel. Erori de predicție.
• Proiect final. Segmentarea utilizatorilor.
PythonPandasEroriSeabornIpotezeVariabile de conversieTipuri de dateHărți termice
1 sprint 3 săptămâni
Python de bază
Aprofundați în limbajul de programare Python și în biblioteca Pandas.
• Variabile și tipuri de date. Limbajul Python. Variabile. Afișarea datelor pe ecran. Afișarea obiectelor pe ecran. Gestionarea erorilor, încercați... cu excepția operatorului. Tipuri de date. Conversii tip de date.
• Linii. Indici în rânduri. Tăieri de linie. Operații pe șiruri. Metode cu șiruri. Formatare șiruri, metoda format(), șiruri f.
• Liste. Indici în liste. Lista felii. Adăugarea de elemente la o listă. Eliminarea elementelor din listă. Adunarea și înmulțirea listelor. • Sortarea listelor. Căutați articole dintr-o listă. Împărțirea unui șir într-o listă de șiruri, concatenarea unei liste de șiruri într-un șir.
• Pentru buclă. Cicluri. Enumerarea elementelor. Iterarea peste indici de elemente. Prelucrarea elementelor listei folosind bucle: găsirea sumei și a produsului elementelor.
• Liste imbricate. Buclă prin liste imbricate cu valori de numărare. Adăugarea de elemente la liste imbricate. Sortarea listelor imbricate.
• Operator condiționat. buclă în timp ce. Tipul de date boolean. Valori booleene. Expresii logice. Expresii logice compuse. Declarație condiționată dacă... elif...altfel. Ramificare. Filtrarea listelor folosind un operator condiționat. buclă în timp ce.
• Funcții. Atribuirea funcțiilor. Parametri și argumente. Parametri cu valori implicite. Argumente poziționale și numite. Returnarea unui rezultat dintr-o funcție.
• Dicționare. Chei și valori. Căutarea unei valori după cheie. Adăugarea de elemente în dicționar. Lista dicționarelor. Frumos producție de dicționare.
• Biblioteca Pandas. Citirea fișierelor csv. Cadrul de date. Constructor de cadre de date. Imprimarea primului și ultimului rând al unui cadru de date. Indexarea în cadre de date. Indexarea pe coloanele serie.
• Preprocesarea datelor. Principiul GIGO. Redenumirea coloanelor din cadrul de date. Gestionarea valorilor lipsă. Gestionarea duplicatelor explicite și implicite.
• Analiza datelor și prezentarea rezultatelor. Gruparea datelor. Sortarea datelor. Bazele statisticii descriptive.
• Jupyter Notebook - un caiet într-o celulă. Interfață Jupyter Notebook. Comenzi rapide Jupyter Notebook.
BuclePython Pandas șiruri de caractereListeFuncțiiDicționareDateFrameVariablesDateTipeInstrucțiune condițională
Proiect
Comparați datele utilizatorilor Yandex Music în funcție de oraș și de ziua săptămânii.
2 sprint 2 săptămâni
Preprocesarea datelor
Aflați să curățați datele de valori aberante, omisiuni și duplicate, precum și să convertiți diferite formate de date.
• Lucrul cu permise. Conversie. Cookie-uri. Variabile categoriale și cantitative. Gestionarea lacunelor în variabilele categoriale. Gestionarea lacunelor în variabilele cantitative. Gestionarea lacunelor în variabilele cantitative pe categorii.
• Modificarea tipurilor de date. Citirea fișierelor Excel. Convertiți seria în tip numeric. Modul numeric, metoda abs(). Lucrul cu data și ora. Gestionarea erorilor, încercați... cu excepția operatorului. Fuzionarea cadrelor de date, metoda merge(). Tabele pivot.
• Căutați duplicate. Căutați dubluri, distinge între majuscule și minuscule.
• Categorizarea datelor. Descompunerea tabelelor. Clasificarea pe intervale numerice. Clasificați pe baza mai multor valori pe rând.
• Gândire sistematică și critică în munca unui analist. Gândirea sistemică. Cauzele erorilor de date. Gândire critică.
PythonPandasGap handlingProcesarea datelorPrelucrare duplicatăCategorizarea datelor
Proiect
Analizați datele despre clienții băncii și determinați ponderea celor solvabili.
3 sprint 2 săptămâni
Analiza exploratorie a datelor
Aflați elementele de bază ale probabilității și statisticilor. Folosiți-le pentru a explora proprietățile de bază ale datelor, căutând modele, distribuții și anomalii. Faceți cunoștință cu biblioteca Matplotlib. Desenați diagrame și exersați analiza graficelor.
• Primele grafice și concluzii. Utilizarea tabelelor pivot. Diagramă cu bare. Distribuții. Diagrama intervalului.
• Studiul secțiunilor de date. Metoda query(). Lucrul cu data și ora. Trasarea graficelor folosind metoda plot(). Briciul lui Occam.
• Lucrul cu mai multe surse de date. Secțiune de date bazată pe obiecte externe. Adăugarea de noi coloane la un cadru de date. Adăugarea de date din alte cadre de date. Redenumirea coloanelor. Combinarea tabelelor folosind metodele merge() și join().
• Relații de date. Scatterplot. Corelarea variabilelor. Matricea diagramei de dispersie.
• Validarea rezultatelor. Consolidarea grupurilor. Împărțirea datelor în grupuri.
PythonPandasMatplotlibHistogrameSlice de dateAnaliza datelorScatterplotScatterplotVizualizarea datelorStatistici descriptive
Proiect
Explorați arhiva de reclame pentru vânzarea de bunuri imobiliare din Sankt Petersburg și regiunea Leningrad.
4 sprint 3 săptămâni
Analiza datelor statistice
Învață să analizezi relațiile în date folosind metode statistice. Aflați ce semnificație statistică și ipotezele sunt.
• Combinatorică. Combinații. Regula înmulțirii. Rearanjamente. Numărul de permutări. Plasări. Numărul de plasări. Combinații. Numărul de combinații.
• Teoria probabilității. Experiment. Spațiul de probabilitate. Evenimente. Probabilitate. Evenimente care se intersectează și se exclud reciproc. Diagrama Euler-Venn. Legea numerelor mari.
• Statisticile descriptive. Variabile categoriale și cantitative. Mod și mediană. Valoarea medie. Dispersia. Deviație standard. Quartile și percentile. Diagrama intervalului. Diagramă cu coloane. Densitatea de frecventa. Diagramă cu bare.
• Variabile aleatoare. Variabilă aleatorie discretă. Distribuția probabilității pentru o variabilă aleatoare discretă. Funcția cumulativă (funcția de distribuție) a unei variabile aleatoare discrete. Așteptările matematice ale unei variabile aleatoare discrete. Dispersia unei variabile aleatoare discrete.
• Distribuții. experimentul lui Bernoulli. Experiment binom. Distribuție binomială. Distribuție uniformă continuă. Distributie normala. Distribuție normală standard. CDF și PPF pentru distribuție normală. Distribuția Poisson. Aproximarea unei distribuții cu alta.
• Testarea ipotezelor. Populatie generala. Probă. Distribuția eșantionării. Teorema limitei centrale. Ipoteze unilaterale și bilaterale. Valoarea P. Testarea ipotezelor unilaterale și bilaterale pentru un eșantion. Testarea ipotezei despre egalitatea mediilor a două populații generale. Testarea ipotezei egalității de medii pentru eșantioane dependente.
ScipyNumpyPythonPandasMatplotlibCombinatoriceDistribuțiiTestarea ipotezei Teoria probabilității
Proiect
Testați ipotezele serviciului de închiriere de scutere pentru a vă ajuta să vă dezvoltați afacerea.
Sprint suplimentar
Teoria probabilității
Amintiți-vă sau recunoașteți termenii de bază din teoria probabilității: evenimente independente, opuse, incompatibile etc. Folosind exemple simple și probleme distractive, vei exersa lucrul cu numere și construirea logicii soluțiilor.
Acesta este un sprint opțional. Aceasta înseamnă că fiecare elev însuși alege una dintre opțiuni:
• Stăpânește un sprint suplimentar de 10 lecții scurte, perfecționează teoria și rezolvă probleme.
• Deschideți numai blocul cu sarcini de interviu, amintiți-vă practica fără teorie.
• Sari peste curs sau revino la el atunci cand este timp si nevoie.
PythonEvenimenteTeorema probabilității lui BayesVariabile aleatoareTeoria probabilitățiiAnaliza datelor statistice
5 sprint 1 săptămână
Proiect final al primului modul
Aflați cum să efectuați cercetări preliminare de date și să formulați și să testați ipoteze.
ScipyNumpyPythonPandasMatplotlibAnaliza datelorTestarea ipotezeiProcesarea datelor
Proiect
Găsiți modele în datele vânzărilor de jocuri.
6 sprint 2 săptămâni
SQL de bază
Aflați elementele de bază ale limbajului de interogare structurat SQL și algebrei relaționale pentru lucrul cu bazele de date. Familiarizați-vă cu caracteristicile de lucru în PostgreSQL, un sistem popular de gestionare a bazelor de date (DBMS). Învățați să scrieți interogări cu diferite niveluri de complexitate și să traduceți problemele de afaceri în SQL. Veți lucra cu o bază de date a unui magazin online specializat în filme și muzică.
• Introducere în baze de date. Sisteme de management al bazelor de date (DBMS). Limbajul SQL. interogări SQL. Formatarea interogărilor SQL.
• Secțiuni de date în SQL. Tipuri de date în PostgreSQL. Conversia tipului de date. clauza WHERE. Operatori logici. Secțiuni de date. Operatori ÎN, LIKE, ÎNTRE. Lucrul cu data și ora. Gestionarea valorilor lipsă. Construcția CASE condiționată.
• Funcții de agregare. Gruparea și sortarea datelor. Operatii matematice. Funcții de agregare. Gruparea datelor. Sortarea datelor. Filtrare după date agregate, operator HAVING.
• Relații între tabele. Tipuri de îmbinări de tabele. Diagramele ER. Redenumirea câmpurilor și a tabelelor. Aliasuri. Îmbinarea tabelelor. Tipuri de îmbinare: INNER JOIN, LEFT JOIN, RIGHT JOIN, FULL OUTER JOIN. Tipuri alternative de sindicate UNION și UNION ALL.
• Subinterogări și expresii comune de tabel. Subinterogări. Subinterogări în FROM. Subinterogări în WHERE. O combinație de îmbinări și subinterogări. Expresii comune de tabel (CTE). Variabilitatea cererilor.
SQLDBMSPostgreSQLSubinterogăriBaze de dateInterogări SQL Filtrarea datelor Sortarea datelorGruparea datelor Îmbinarea tabelelorExpresii comune de tabel
Proiect
Veți scrie o serie de interogări de complexitate diferită într-o bază de date care stochează date despre investitorii de risc, startup-urile și investițiile în acestea.
7 sprint 3 săptămâni
Analiza indicatorilor de afaceri
Aflați ce valori sunt în afaceri. Învățați să utilizați instrumente pentru analiza datelor în afaceri: analiza cohortelor, pâlnia de vânzări și economia unitară.
• Metrici și pâlnii. Conversie. Pâlnii. Pâlnie de marketing. Impresii. Clicuri. CTR. Pâlnie de produs.
• Analiza cohortei. Profil de utilizator. rata de retentie. Rata de abandon. Orizontul analizei. Vizualizarea analizei de cohortă. Analiza retenției cohortelor aleatoare. Conversie în analiza de cohortă. Calcularea valorilor în Python.
• Economia unitară. Valori LTV, CAC, ROI. ARPU, ARPPU. Calcularea valorilor în Python. Vizualizare avansată a valorilor. Parametrul Sharey. Media mobilă.
• Valori personalizate. Evaluarea activității utilizatorilor. Sesiune utilizator. Investigarea anomaliilor.
ValoriPâlnieConversieEconomia unităților Analiza de cohorteMetrici de produs Valori de marketing
Proiect
Pe baza datelor, înțelegeți comportamentul utilizatorilor, precum și analizați profitabilitatea clienților și rentabilitatea investiției în publicitate pentru a face recomandări pentru departamentul de marketing.
8 sprint 2 săptămâni
SQL avansat
Veți urma un curs suplimentar despre lucrul cu baze de date și veți deveni și mai aproape de afaceri. Folosind limbajul SQL, veți analiza calculul principalelor metrici de afaceri cu care v-ați familiarizat în sprintul „Analiza indicatorilor de afaceri”. Luați în considerare lucrul cu un instrument complex, cum ar fi funcțiile ferestrei. Învață să schimbi conținutul bazelor de date local, fără un simulator, folosind programe și biblioteci speciale pentru Python.
• Calculul indicatorilor de afaceri. Schema de date. Conversie. LTV. ARPU. ARPPU. ROI. Calcul folosind SQL.
• Agregarea funcţiilor ferestrei. EXPRESIUNEA EXTRA. Parametrul ferestrei PARTITION BY.
• Funcții de clasificare a ferestrei. Funcții de clasare. Fereastră ORDER BY operator. ROW_NUMBER(). RANG(). DENSE_RANK(). NTILE(). Operatori de ferestre împreună cu funcții de clasare.
• Funcții de compensare a ferestrei. Valori cumulate. Funcții de offset. CONDUCE(). LAG(). Funcții și aliasuri ale ferestrei.
• Analiza cohortei. Rata de retenție, rata de abandon. LTV.
• Instalarea și configurarea bazei de date și a clientului bazei de date. Client baza de date. Instalarea PostgreSQL. Instalarea DBeaver. Interfața DBeaver. Crearea bazei de date. Implementarea unui dump de bază de date. Se încarcă rezultatele interogării. Prezentarea rezultatelor interogării.
SQLDBMSMetricăPostgreSQLBază de dateInterogări SQLFuncții ferestrei Analiză de cohorte
Proiect
Folosind Python și SQL, conectați-vă la o bază de date, calculați și vizualizați valorile cheie într-un sistem de servicii de Q&A de programare.
9 sprint 2 săptămâni
Luarea deciziilor în afaceri
Veți afla ce este testarea A/B și veți înțelege în ce cazuri este utilizat. Învățați să proiectați teste A/B și să evaluați rezultatele acesteia.
• Fundamentele testării ipotezelor în afaceri. Valori de vârf. Bazele experimentelor. Generarea de ipoteze. Prioritizarea valorilor. Alegerea unei metode de realizare a unui experiment. Metode calitative de testare a ipotezelor. Metode cantitative de testare a ipotezelor. Avantajele și dezavantajele testelor A/B.
• Prioritizarea ipotezelor. cadru RICE. Parametrul de atingere. Parametru de impact. Parametrul de încredere. Parametrul eforturilor.
• Pregătirea pentru efectuarea unui test A/B. Test A/A. Erori de tip I și II. Puterea testului statistic. Semnificația testului statistic. Comparații multiple, metode de reducere a probabilității de eroare. Calculul dimensiunii eșantionului și al duratei unui test A/B. Analiza grafică a metricilor.
• Analiza rezultatelor testelor A/B. Testarea ipotezei egalității acțiunilor. Testul Shapiro-Wilk pentru a testa normalitatea datelor. Teste statistice neparametrice. Testul Mann-Whitney. Stabilitatea valorilor cumulate. Analiza valorii aberante și a exploziilor.
• Algoritmi comportamentali. Fapte, emoții, aprecieri. Explicați-vă punctul de vedere.
Testarea A/B Prioritizarea ipotezelorPregătirea pentru testarea A/B Analiza rezultatelor testării A/B Analiza rezultatelor testării A/B
Proiect
Analizați rezultatele testării A/B într-un mare magazin online.
10 sprint 1 săptămână
Proiect final al celui de-al doilea modul
Aflați să testați ipotezele statistice folosind testarea A/B și să pregătiți concluzii și recomandări în format de raport analitic.
Pâlnie de vânzări Testare A/B Prelucrarea datelor Analiza datelor de cercetare
Proiect
Explorează canalul de vânzări și analizează rezultatele testării A/B în aplicația mobilă.
11 sprint 2 săptămâni
Cum să spui o poveste cu date
Veți învăța cum să prezentați corect rezultatele cercetării dvs. folosind grafice, cele mai importante cifre și interpretarea corectă a acestora. Faceți cunoștință cu bibliotecile Seaborn și Plotly.
• Cui, cum, ce și de ce să spun. Prezentarea rezultatului cercetării. Publicul țintă al naratorului. Ce și de ce să-i spui unui analist de date.
• Biblioteca Seaborn. Biblioteca Seaborn ca extensie a bibliotecii Matplotlib. metoda jointplot(). Game de culori. Stiluri de diagrame. Vizualizarea distribuțiilor.
• Bibliotecă Plotly. Grafice interactive. Grafic cu linii. Diagramă cu coloane. Graficul proporțiilor. Diagramă pâlnie.
• Vizualizarea datelor în geoanalitică. Geoanalitica. Foliumul Bibliotecii. Afișarea hărții. Setarea markerilor cu coordonatele specificate. Crearea clusterelor de puncte. Pictograme personalizate pentru markere. Horoplet.
• Pregătirea unei prezentări. Concluzii bazate pe studiu. Sezonalitate și factori externi. Valori absolute și relative. Paradoxul lui Simpson. Principii de realizare a prezentărilor. Rapoarte în Jupyter Notebook.
PlotlyFoliumSeabornMatplotlibPresentationGeoanalyticsVizualizarea datelor
Proiect
Pregătiți un studiu de piață bazat pe date deschise despre unitățile de alimentație publică din Moscova, vizualizați datele obținute.
12 sprint 2 săptămâni
Crearea de tablouri de bord în Tableau
În acest sprint vei lucra cu sistemul Tableau BI. Învățați să vă conectați la date și să le modificați, să construiți diferite tipuri de grafice, să asamblați tablouri de bord și prezentări.
• Bazele lucrului cu Tableau. sisteme BI. Tablou. Crearea unui document. Salvarea documentului. Publicarea documentului.
• Lucrul cu surse de date. Surse de date. Fuziunea datelor. Metoda relației. Metoda de alăturare. Metoda amestecului. Metoda unirii. Schimbarea formatului tabelului.
• Tipuri de date. Tipuri de date de bază. Măsurătorile. Măsuri. Lucrul cu data și ora. Seturi. Grupuri. Opțiuni. Modificarea formatului variabilelor. Variabile Măsoară Nume, Măsoară Valori, Număr.
• Tabele și calcule. Interfață de editare a foilor. Tabele pivot. Câmpuri calculate. Expresii LOD.
• Filtre și sortare. Măsuri de sortare. Sortarea dimensiunilor. Sorturi imbricate. Sortare folosind un parametru. Filtre.
• Vizualizări. Controale de vizualizare. Hărți de căldură. Diagrame circulare. Diagrame cu coloane. Histograme. Diagrame de gamă. Diagrama de dispersie. Grafice cu linii. Grafice combinate. Diagrame cu zone.
• Vizualizări speciale și sfaturi cu instrumente. Carduri. Harta caracterelor. Diagrama cu bule. Harta arborelui. Diagrame de vedere în cerc. Diagrame cu glonț. Diagramele Gantt. Măsurați numele și măsurați valorile în vizualizări. Inginerie inversă. Sfaturi instrumente. Sfaturi instrumente cu vizualizări. Valori de prag pe grafice. Instrumente analitice în Custom.
• Prezentări. Opțiuni suplimentare. Studiul parametrilor tipici. Crearea unei prezentări.
• Tablouri de bord. Încărcarea și pregătirea datelor. Pregătirea vizualizărilor. Asamblare tablou de bord. Acțiuni. Demonstrație tablou de bord. Publicarea unui tablou de bord.
TableauDashboardsBI-toolsBI-toolsVizualizarea datelor
Proiect
Cercetați istoria conferințelor TED și creați un tablou de bord în Tableau pe baza datelor obținute.
Sprint suplimentar
Bazele învățării automate
Familiarizați-vă cu elementele de bază ale învățării automate și aflați despre principalele sarcini ale învățării automate în afaceri.
PythonPandasSklearnÎnvățare automată Sarcini de învățare automatăAlgoritmi de învățare automată
Sprint suplimentar
Practicați Python
Veți urma mai multe clase de laborator cu sarcini suplimentare în limbajul de programare Python. De asemenea, veți învăța cum să extrageți date din resursele web.
Veți:
• în structura paginilor HTML și funcționarea cererilor GET,
• învață să scrii expresii regulate simple,
• cunoașteți API-ul și JSON,
• face mai multe solicitări către site-uri și colectează date.
JSONPythonREST APIWeb scraping
13 sprint 3 săptămâni
Proiect de absolvire
În ultimul proiect, confirmați că ați stăpânit o nouă profesie. Clarificați sarcina clientului și parcurgeți toate etapele analizei datelor. Acum nu există lecții sau teme - totul este ca la un loc de muncă adevărat.
Sprintul final include lucrări de proiect, testare A/B și sarcini SQL și o sarcină suplimentară. Proiectul conține o declarație a problemei, rezultatul așteptat, un set de date și descrierea acestora.
Sarcina se referă la unul dintre cele cinci domenii de activitate:
• bănci,
• cu amănuntul,
• jocuri,
• aplicatii mobile,
• comerțul electronic.
Nu va exista o descriere obișnuită a pașilor din proiect. Vei lucra singur prin ele.
SQ LPython PandasTableau Tablouri de bord Postgre SQL Decomposition Testare A/B