티스토리 뷰

BigData

MapReduce란?

Sh.TK 2019. 3. 16. 19:29

참조: 


몽고DB에 대해서 알아보다 MapReduce 개념에 대해 다시 되짚고자 찾아서 정리한다.


맵리듀스: 대용량 데이터를 빠르고 안전하게 처리하기 위해 만들어짐.


맵리듀스 구성: 대용량 파일을 한번에 처리하기 어렵기 때문에, 적절한 크기로 잘라낸 후 처리한다. (하지만 스플릿의 크기가 너무 작을 경우, 오버헤드가 발생할 수 있기 때문에 하둡에서 권장하는 크기는 64MB 이상)

  • 맵(Map)
    • 분산 저장된 로컬 서버에서 일어나는 작업
    • Key/Value 상의 형태로 데이터를 읽습니다.
  • 리듀스(Reduce)

  1. 하둡에서 최초 입력 파일은 Split하여 HDFS에 분산 저장.
  2. Mapping
  3. Reduce 합치는 작업


역할

  • 파티셔너(partition): 맵 함수의 결과를 각 파티션으로 나누어 저장하는 역할
    • 기준은 키이고 키에 해쉬 함수를 적용하여 처리.
  • 컴바이너(combiner)
    • 네트워크 용량을 줄여준다.



댓글
공지사항
최근에 올라온 글
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함