BigData
MapReduce란?
Sh.TK
2019. 3. 16. 19:29
참조:
몽고DB에 대해서 알아보다 MapReduce 개념에 대해 다시 되짚고자 찾아서 정리한다.
맵리듀스: 대용량 데이터를 빠르고 안전하게 처리하기 위해 만들어짐.
맵리듀스 구성: 대용량 파일을 한번에 처리하기 어렵기 때문에, 적절한 크기로 잘라낸 후 처리한다. (하지만 스플릿의 크기가 너무 작을 경우, 오버헤드가 발생할 수 있기 때문에 하둡에서 권장하는 크기는 64MB 이상)
- 맵(Map)
- 분산 저장된 로컬 서버에서 일어나는 작업
- Key/Value 상의 형태로 데이터를 읽습니다.
- 리듀스(Reduce)
- 하둡에서 최초 입력 파일은 Split하여 HDFS에 분산 저장.
- Mapping
- Reduce 합치는 작업
역할
- 파티셔너(partition): 맵 함수의 결과를 각 파티션으로 나누어 저장하는 역할
- 기준은 키이고 키에 해쉬 함수를 적용하여 처리.
- 기준은 키이고 키에 해쉬 함수를 적용하여 처리.
- 컴바이너(combiner)
- 네트워크 용량을 줄여준다.
- 네트워크 용량을 줄여준다.