mapValues/reduceByKey 예시

티스토리 뷰

BigData/Spark

Sh.TK 2017. 3. 29. 12:45

sparkContext에 mapValues와 reduceByKey 예시.

val inputrdd = sc.parallelize(Seq(("arth",10), ("arth", 20), ("samuel", 60), ("jack", 65)))

val mapped = inputrdd.mapValues(x => 1);

mapped.collect.foreach(println)

val reduced = mapped.reduceByKey(_ + _)

reduced.collect.foreach(println)

mapValues는 map의 값을 1로 변경한다.

reduceByKey는 key의 값으로 키의 값이 동일한 개수를 얻는다 .

<결과>

inputrdd: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[275] at parallelize at <console>:56

mapped: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[276] at mapValues at <console>:58

(arth,1)

(arth,1)

(samuel,1)

(jack,1)

reduced: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[277] at reduceByKey at <console>:60

(arth,2)

(samuel,1)

(jack,1)

Spark Transformations & Actions (API) (0)	2017.03.29
데이터 스트리밍 개념 (0)	2017.03.28
Spark 기본 개념 및 정리 (RDD) (0)	2017.03.28

공유하기 링크

공지사항

최근에 올라온 글

링크

글 보관함