MLOps - rata 80.000 de ruble. din Otus, antrenament 5 luni, data 30 noiembrie 2023.
Miscelaneu / / November 30, 2023
Veți stăpâni toate abilitățile necesare de învățare automată pentru streaming de date și medii distribuite. Programul include cunoștințele necesare din domeniile Data Science și Data Engineering, care vă vor permite să procesați date mari și să scrieți algoritmi distribuiți în Spark.
Veți exersa fiecare modul completând temele. La finalul instruirii, veți avea un proiect final care vă va permite să rezumați toate cunoștințele pe care le-ați dobândit și să le adăugați portofoliului. Poate fi realizat ca parte a sarcinilor de lucru din setul dvs. de date sau poate fi un proiect de învățare bazat pe datele furnizate de OTUS.
Pentru cine este acest curs?
Pentru specialiștii în învățare automată sau inginerii software care doresc să învețe cum să lucreze cu date mari. De obicei, astfel de sarcini există în marile companii IT cu un produs digital la scară largă.
Pentru oamenii de știință de date care doresc să-și consolideze setul de abilități cu abilități de inginerie. Datorită cursului, veți putea să procesați date și să afișați în mod independent rezultatele soluțiilor ML în producție.
Pentru a învăța, veți avea nevoie de abilități de bază în știința datelor. Vă sugerăm să vă uitați la cursurile Map of Data Science de la OTUS pentru a afla nivelul necesar de pregătire.
O sa inveti:
- Utilizați instrumente standard de pipeline ML într-un mediu distribuit;
- Dezvoltați-vă propriile blocuri pentru conductele ML;
- Adaptarea algoritmilor ML la medii distribuite și instrumente de date mari;
- Utilizați Spark, SparkML, Spark Streaming;
- Dezvoltați algoritmi pentru pregătirea datelor în flux pentru învățarea automată;
- Asigurarea controlului calitatii in toate etapele trecerii solutiilor ML in exploatare industriala.
Cererea de specialiști
Abilitățile pe care le vei stăpâni sunt cât se poate de aplicate și promițătoare. Pe piață apar tot mai multe produse digitale, a căror dezvoltare necesită lucrul cu big data și procesarea fluxului. Deja acum, specialiștii cu un astfel de bazin de competențe și o anumită experiență de lucru se pot califica pentru un salariu de 270 de mii. ruble O altă tendință - automatizarea proceselor de instruire și validare, dimpotrivă, devalorizează într-un fel munca unui Data Scientist clasic. Totul se îndreaptă spre punctul în care chiar și un nespecialist poate face o previziune. Prin urmare, cei care au abilități de inginerie cel puțin superficiale sunt deja la o primă.
Caracteristicile cursului
Multă practică de lucru cu date
O gamă largă de abilități, de la ML distribuit și procesarea datelor în flux până la producție
Instrumente și tehnologii actuale: Scala, Spark, Python, Docker
Comunicare live cu experți prin webinarii și chat-ul Slack
4
cursImplicat în dezvoltarea unei echipe de știință a datelor care oferă funcționalități bazate pe învățarea automată pentru produsele și serviciile companiei. În calitate de Data Scientist, a participat la dezvoltarea Kaspersky MLAD și MDR AI Analyst. ÎN...
Implicat în dezvoltarea unei echipe de știință a datelor care oferă funcționalități bazate pe învățarea automată pentru produsele și serviciile companiei. În calitate de Data Scientist, a participat la dezvoltarea Kaspersky MLAD și MDR AI Analyst. În calitate de dezvoltator C++, a participat la crearea MaxPatrol SIEM și a predat computer de mulți ani. discipline științifice la MSTU GA.Autor al unei serii de rapoarte despre managementul și dezvoltarea proiectelor ML, C++, DS echipe. Membru al conferinței PC C++ Rusia. Manager de program
8
cursuriPeste 20 de ani de experiență în proiecte de dezvoltare personalizată în IT. Zeci de proiecte de succes, inclusiv cele sub contracte guvernamentale. Experienta in dezvoltarea si implementarea sistemelor ERP, solutii open-source, suport pentru aplicatii cu incarcare mare. Profesor de cursuri despre...
Peste 20 de ani de experiență în proiecte de dezvoltare personalizată în IT. Zeci de proiecte de succes, inclusiv cele sub contracte guvernamentale. Experienta in dezvoltarea si implementarea sistemelor ERP, solutii open-source, suport pentru aplicatii cu incarcare mare. Profesor de cursuri pe Linux, Kuber, MLOps, DataOps, SolutionArchitect, IaC, SRE, precum și mentor al cursului HighLoad
1
bineSpecialist în lucrul cu big data și machine learning. Timp de 8 ani a lucrat la Odnoklassniki.ru. Am gestionat echipa OK Data Lab (un laborator pentru cercetători în domeniul big data și mașini...
Specialist în lucrul cu big data și machine learning. Timp de 8 ani a lucrat la Odnoklassniki.ru. Am gestionat echipa OK Data Lab (un laborator pentru cercetători în domeniul big data și machine learning). Analiza datelor mari în Odnoklassniki a devenit o șansă unică de a combina pregătirea teoretică și fundația științifică cu dezvoltarea de produse reale, la cerere. Din 2019, lucrează la Sberbank în calitate de director general. Acționează ca lider al clusterului pentru dezvoltarea unei platforme pentru sisteme de recomandare în divizia de personalizare în masă. A absolvit Universitatea de Stat din Sankt Petersburg în 2004, unde și-a susținut doctoratul în metode logice formale în 2007. Am lucrat în outsourcing aproape 9 ani fără să pierd contactul cu mediul universitar și științific.
Introducere de bază pentru începerea cursului
-Tema 1.Coborâre gradient și modele liniare
- Subiectul 2. Prezentare generală a metodelor și metricilor de bază de învățare automată
-Tema 3.Evoluția abordărilor de lucru cu date
-Tema 4. Bazele programarii in Scala
Baza tehnologică a procesării distribuite a datelor
-Tema 5. Sisteme de fișiere distribuite
-Tema 6. Managerii de resurse în sistemele distribuite
-Tema 7. Evoluția cadrelor de calcul masiv paralele și distribuite
-Tema 8. Bazele Apache Spark 1
-Subiectul 9. Bazele Apache Spark 2
Noțiuni de bază ML distribuite
-Tema 10. Transferul algoritmilor ML într-un mediu distribuit
-Subiect 11.ML în Apache Spark
-Tema 12.Dezvoltarea propriilor blocuri pentru SparkML
-Tema 13.Optimizarea hiperparametrilor și AutoML
Procesarea fluxului
-Tema 14. Prelucrarea datelor în flux
-Subiect 15. Biblioteci terțe pentru utilizare cu Spark
-Tema 16. Streaming Spark
-Tema 17. Streaming structurat și continuu în Spark
-Tema 18. Cadre alternative de streaming
Stabilirea obiectivelor și analiza rezultatelor
-Tema 19. Determinarea scopului proiectului ML și analiza preliminară
-Tema 20. Obiective ML pe termen lung folosind exemplul sarcinii de reducere a pierderii
-Tema 21.Testări A/B
-Tema 22.Subiecte suplimentare
Producerea rezultatelor ML către producție
-Tema 23. Abordări pentru introducerea soluțiilor ML în producție
-Tema 24.Versionare, reproductibilitate și monitorizare
-Tema 25.Difuzarea online a modelelor
-Subiect 26. Modele pentru streaming asincron ML și ETL
-Tema 27. Dacă ai nevoie de Python
ML în Python în producție
-Subiectul 28.Codul de producție în Python. Cod de organizare și ambalare
-Tema 29.Arhitectura REST: API-ul Flask
-Tema 30.Docker: Structură, aplicație, implementare
-Tema 31.Kubernetes, orchestrare container
-Tema 32. Instrumente MLOPS pentru Kubernetes: KubeFlow, Seldon Core. Caracteristici ale funcționării sistemelor eterogene în industrie.
-Tema 33.Amazon Sagemaker
-Subiect 34.Serviciul AWS ML
Subiecte avansate
-Tema 35. Rețele neuronale
-Tema 36. Învățarea distribuită și inferența rețelelor neuronale
- Subiectul 37. Creșterea gradientului pe copaci
-Tema 38. Învățare prin întărire
Lucrul la proiect
-Tema 39. Selectarea temei și organizarea lucrărilor la proiect
-Tema 40. Consultare pe proiecte și teme
-Tema 41.Protecția lucrărilor de proiectare