티스토리 뷰

BigData/Spark

mapValues/reduceByKey 예시

Sh.TK 2017. 3. 29. 12:45
출처: http://knight76.tistory.com/entry/spark%EC%9D%98-mapValuesreduceByKey-%EC%98%88%EC%8B%9C



sparkContext에 mapValues와 reduceByKey 예시.



val inputrdd = sc.parallelize(Seq(("arth",10), ("arth", 20), ("samuel", 60), ("jack", 65)))


val mapped = inputrdd.mapValues(x => 1);

mapped.collect.foreach(println)


val reduced = mapped.reduceByKey(_ + _)

reduced.collect.foreach(println)


mapValues는 map의 값을 1로 변경한다.

reduceByKey는 key의 값으로 키의 값이 동일한 개수를 얻는다 .


<결과>


inputrdd: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[275] at parallelize at <console>:56
mapped: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[276] at mapValues at <console>:58
(arth,1)
(arth,1)
(samuel,1)
(jack,1)
reduced: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[277] at reduceByKey at <console>:60
(arth,2)
(samuel,1)
(jack,1)


'BigData > Spark' 카테고리의 다른 글

Spark Transformations & Actions (API)  (0) 2017.03.29
데이터 스트리밍 개념  (0) 2017.03.28
Spark 기본 개념 및 정리 (RDD)  (0) 2017.03.28
댓글
공지사항
최근에 올라온 글
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함