Cadru Apache Spark pentru dezvoltatori: nivel avansat - curs 41.500 rub. de la IBS Training Center, antrenament 24 de ore, Data 26 noiembrie 2023.
Miscelaneu / / December 05, 2023
Instruirea oferă o înțelegere detaliată a structurii interne și a funcționării cadrului Apache Spark - atât Spark Core (RDD), Spark SQL, Spark Streaming, cât și Spark Structured Streaming. Sunt luate în considerare mecanismele de lansare a componentelor clusterului Spark sub controlul diferiților manageri de cluster, gestionarea alocării resurselor (în primul rând memorie) și mecanismele de lucru ale planificatorilor. Avantajele formatului de reprezentare internă Tungsten și funcționarea optimizatorului Catalyst sunt explorate în detaliu.
Subiecte acoperite:
Spark Internal Architecture, Spark Runtime Environment
Configurarea contextului Spark, SparkConf
Interne RDD, aspect logic
Cele mai bune practici pentru programarea cu RDD
Plan fizic: lucru, etape, sarcini
Planificatori și execuție a planului fizic
Reglarea memoriei, serializarea, stocarea în cache, colectarea gunoiului
Datasource API, reprezentare internă a datelor Tungsten, formate de fișiere
Optimizator de catalizator
Microbatch Spark Streaming: primirea și ieșirea datelor
Streaming structurat: primirea și distribuirea datelor