• news_bner

Услуга

Механизам за чистење на податоци од Spark Streaming
(I) DStream и RDD
Како што знаеме, пресметката на Spark Streaming се базира на Spark Core, а јадрото на Spark Core е RDD, па затоа Spark Streaming мора да биде поврзан и со RDD. Сепак, Spark Streaming не им дозволува на корисниците директно да го користат RDD, туку апстрахира збир на концепти на DStream, DStream и RDD се инклузивни односи, можете да го разберете како шема на декорација во Java, односно DStream е подобрување на RDD, но однесувањето е слично на RDD.
DStream и RDD имаат неколку услови.
(1) имаат слични дејства за трансформација, како што се map, reduceByKey, итн., но исто така и некои уникатни, како што се Window, mapWithStated, итн.
(2) сите имаат Action акции, како што се foreachRDD, count, итн.
Моделот на програмирање е конзистентен.
(Б) Воведување на DStream во Spark Streaming
DStream содржи неколку класи.
(1) Класи на извори на податоци, како што се InputDStream, специфични како DirectKafkaInputStream, итн.
(2) Класи на конверзија, обично MappedDStream, ShuffledDStream
(3) излезни класи, обично како ForEachDStream
Од горенаведеното, податоците од почетокот (влез) до крајот (излез) ги прави системот DStream, што значи дека корисникот нормално не може директно да генерира и манипулира со RDD, што значи дека DStream има можност и обврска да биде одговорен за животниот циклус на RDD.
Со други зборови, Spark Streaming имаавтоматско чистењефункција.
(iii) Процесот на генерирање на RDD во Spark Streaming
Животниот тек на RDD во Spark Streaming е грубо на следниов начин.
(1) Во InputDStream, примените податоци се трансформираат во RDD, како што е DirectKafkaInputStream, кој генерира KafkaRDD.
(2) потоа преку MappedDStream и други конверзија на податоци, ова време директно се нарекува RDD што одговара на методот на мапирање за конверзија
(3) Во операцијата на излезната класа, само кога RDD е изложен, можете да му дозволите на корисникот да изврши соодветно складирање, други пресметки и други операции.