티스토리 뷰
참조:
몽고DB에 대해서 알아보다 MapReduce 개념에 대해 다시 되짚고자 찾아서 정리한다.
맵리듀스: 대용량 데이터를 빠르고 안전하게 처리하기 위해 만들어짐.
맵리듀스 구성: 대용량 파일을 한번에 처리하기 어렵기 때문에, 적절한 크기로 잘라낸 후 처리한다. (하지만 스플릿의 크기가 너무 작을 경우, 오버헤드가 발생할 수 있기 때문에 하둡에서 권장하는 크기는 64MB 이상)
- 맵(Map)
- 분산 저장된 로컬 서버에서 일어나는 작업
- Key/Value 상의 형태로 데이터를 읽습니다.
- 리듀스(Reduce)
- 하둡에서 최초 입력 파일은 Split하여 HDFS에 분산 저장.
- Mapping
- Reduce 합치는 작업
역할
- 파티셔너(partition): 맵 함수의 결과를 각 파티션으로 나누어 저장하는 역할
- 기준은 키이고 키에 해쉬 함수를 적용하여 처리.
- 기준은 키이고 키에 해쉬 함수를 적용하여 처리.
- 컴바이너(combiner)
- 네트워크 용량을 줄여준다.
- 네트워크 용량을 줄여준다.
'BigData' 카테고리의 다른 글
Kafka 소개 및 정리 (0) | 2018.08.09 |
---|---|
ELKR (ElasticSearch + Logstash + Kibana + Redis) 를 이용한 로그분석 환경 구축하기 (0) | 2017.04.12 |
댓글
공지사항
최근에 올라온 글
링크
TAG
- 텐서플로우
- 머신러닝
- web
- python
- tensorflow
- Docker
- 점프투파이썬
- Gradle
- javascript
- 파이썬
- 중앙정보처리학원
- memory
- Maven
- spark
- AWS
- spring
- executor
- Configuration
- BigData
- API
- ML
- Error
- serverless
- mysql
- TDD
- AI
- Java
- 모두의딥러닝
- NIO
- mybatis
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함