• news_banner

Сервис

Механизам за чистење на податоци Spark Streaming
(I) DSstream и RDD
Како што знаеме, пресметувањето на Spark Streaming се заснова на Spark Core, а јадрото на Spark Core е RDD, така што Spark Streaming мора да биде поврзано и со RDD.Сепак, Spark Streaming не им дозволува на корисниците директно да користат RDD, туку апстрахира збир од концепти DStream, DStream и RDD се инклузивни односи, можете да го разберете како шема за декорација во Java, односно DSstream е подобрување на RDD, но однесувањето е слично на RDD.
DStream и RDD имаат неколку услови.
(1) имаат слични дејства за трансформација, како што се map, reduceByKey, итн., но исто така и некои уникатни, како што се Window, mapWithStated итн.
(2) сите имаат дејства за акција, како што се foreachRDD, count, итн.
Програмскиот модел е конзистентен.
(Б) Воведување на DStream во Spark Streaming
DStream содржи неколку класи.
(1) Класи на извори на податоци, како што е InputDStream, специфични како DirectKafkaInputStream, итн.
(2) Класи на конверзија, обично MappedDStream, ShuffledDStream
(3) излезни класи, обично како ForEachDStream
Од горенаведеното, податоците од почеток (влез) до крај (излез) ги прави системот DStream, што значи дека корисникот нормално не може директно да генерира и манипулира со RDD, што значи дека DStream има можност и обврска да биде одговорни за животниот циклус на РДД.
Со други зборови, Spark Streaming имаавтоматско чистењефункција.
(iii) Процесот на генерирање на RDD во Spark Streaming
Животниот тек на RDD во Spark Streaming е груб како што следува.
(1) Во InputDStream, примените податоци се трансформираат во RDD, како што е DirectKafkaInputStream, кој генерира KafkaRDD.
(2) потоа преку MappedDStream и други конверзија на податоци, овој пат директно се нарекува RDD што одговара на методот на карта за конверзија
(3) Во операцијата класа на излез, само кога RDD е изложен, можете да му дозволите на корисникот да го изврши соодветното складирање, други пресметки и други операции.