참조: http://blog.acronym.co.kr/312http://12bme.tistory.com/154 몽고DB에 대해서 알아보다 MapReduce 개념에 대해 다시 되짚고자 찾아서 정리한다. 맵리듀스: 대용량 데이터를 빠르고 안전하게 처리하기 위해 만들어짐. 맵리듀스 구성: 대용량 파일을 한번에 처리하기 어렵기 때문에, 적절한 크기로 잘라낸 후 처리한다. (하지만 스플릿의 크기가 너무 작을 경우, 오버헤드가 발생할 수 있기 때문에 하둡에서 권장하는 크기는 64MB 이상)맵(Map) 분산 저장된 로컬 서버에서 일어나는 작업Key/Value 상의 형태로 데이터를 읽습니다.리듀스(Reduce)하둡에서 최초 입력 파일은 Split하여 HDFS에 분산 저장.MappingReduce 합치는 작업 역할파티셔..
참조:http://epicdevs.com/17 위 참조 사이트의 내용을 간략하게 정리하였다. 구성Broker 는 Topic 기준으로 메세지를 관리.Producer 는 Topic의 메세지를 생성하고, Broker에 전달Consumer 는 Broker가 쌓아둔 Topic을 가져가서 처리하게 된다.Topic 은 업무 또는 메세지. 차이점(장점)다수의 메세지를 batch 형태로 처리 가능. (TCP/IP 라운드트립 횟수를 줄인다.)TCP 기반의 프로토콜 사용.(오버헤드 감소)분산 시스템으로 설계 (분산 및 복제가 다른 메시징 시스템에 비해 손쉽다)Transactions Per Second(TPS)가 우수하다.파일시스템에 저장데이터의 영속성이 보장파일시스템에 저장하여 메세지(데이터)가 많아도 성능이 크게 저하가 ..
우선 기본적인 하둡의 개념에 대해 아주 간략히 정리해보고자 한다. 하둡 소개: 빅데이터 에코시스템들의 대부분은 하둡을 위해 존재하고 하둡에 의존하여 발전하고 있다.기능:1. 대용랑 데이터를 분산 저장2. 분산 저장된 데이터를 분석공식 홈페이지: http://hadoop.apache.org주요 구성 요소:1. DataNode: 블록(64MB or 128MB) 단위로 분할된 대용량 파일들이 DataNode의 디스크에 저장 및 관리2. NameNode: DataNode에 저장된 파일들의 메타 정보를 메모리상에서 로드 관리3. EditsLog: 파일들의 변경(수정, 삭제 등) 이력 정보가 저장된 로그 파일4. FsImage: NameNode의 메모리상에 올리와 있는 메타 정보를 스냅샵 이미지로 만들어 생성한 파..
주키퍼 소개: 서버간의 정보를 안전하게 공유하기 위한 코디네이터 시스템(분산 코디네이터)공식 홈페이지: http://zookeeper.apache.org주요 구성 요소: 1. Client: 주키퍼 ZNode에 담긴 데이터의 쓰기, 읽기 삭제 등의 작업을 요청하는 클라이언트2. ZNode: 파일시스템의 디렉터리 개념으로, 클라이언트의 요청정보를 계층적으로 관리3. Ensemble: 3대 이상의 주키퍼 서버를 하나의 클러스터로 구성한 HA 아키텍쳐A. HA 아키텍쳐: 지리분할형 아키텍쳐로 Active-Stanby로 구성된 서버(참조: http://nyebo.net/2015/10/it-infra-architecture/) i. FailOver: 소프트웨어 재시작을 자동으로 하는 구조4. Leader Serve..
출처: https://medium.com/chequer/elkr-elasticsearch-logstash-kibana-redis-%EB%A5%BC-%EC%9D%B4%EC%9A%A9%ED%95%9C-%EB%A1%9C%EA%B7%B8%EB%B6%84%EC%84%9D-%ED%99%98%EA%B2%BD-%EA%B5%AC%EC%B6%95%ED%95%98%EA%B8%B0-f3dd9dfae622#.ohmzw9jlx ELKR (ElasticSearch + Logstash + Kibana + Redis) 를 이용한 로그분석 환경 구축하기 큰 서비스들을 운영하는 회사들은 자체적인 로그 수집, 정제, 분석 솔루션들을 가지고 있거나 자체적으로 대용량 ES Cluster, Hadoop Cluster 등을 운영합니다.하지만 초기..
참조: http://spark.apache.org/docs/latest/programming-guide.html | http://pubdata.tistory.com/38 Transformation 함수scala> val rdd1 = sc.parallelize(List("coffee","coffee","tea","milk"))rdd1: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[9] at parallelize at :27 scala> val rdd2 = sc.parallelize(List("coffee","cola","water"))rdd2: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[10..
출처: http://knight76.tistory.com/entry/spark%EC%9D%98-mapValuesreduceByKey-%EC%98%88%EC%8B%9C sparkContext에 mapValues와 reduceByKey 예시. val inputrdd = sc.parallelize(Seq(("arth",10), ("arth", 20), ("samuel", 60), ("jack", 65))) val mapped = inputrdd.mapValues(x => 1);mapped.collect.foreach(println) val reduced = mapped.reduceByKey(_ + _)reduced.collect.foreach(println) mapValues는 map의 값을 1로 변경한다.r..
참조: http://bcho.tistory.com/1119 Bounded Data: 데이터가 저장되고 변경이 없는 데이터. Unbounded Data: 데이터가 정해져 있지 않고 계속 추가되는 데이터. 처리방법 배치: 일정 시간 단위로 모은뒤 처리. 스트리밍 처리: 실시간으로 처리 에로사항: 데이터가 시스템에 도착하는 순서가 일정하지 않으므로, 처리하는 것이 배치에 비해 복잡함. 종류 Time agnostic: 들어오는 데로 처리하는 방식 Filtering: 특정데이터만 필터링 해서 저장하는 방식 Inner joins: 값을 서로 비교하여 매칭 시켜 값을 구하는 방식 Approximation algorithms: 근사치로 값을 구하는 방식. 사용하는 알고리즘 종류로는 K-means나 Approximate..
참조: http://bcho.tistory.com Spark의 기능 및 장점 분산 처리 실시간 스트리밍 머신러닝 다양한 언어 지원 Spark의 스택 구조 인프라 계층 Standalone Scheduler(기본) Yarn(하둡) Mesos(Docker 또는 가상화 플랫폼) 스파크 코어 메모리 기반의 분산 클러스터 컴퓨팅 스파크 라이브러리 빅데이터를 SQL로 핸들링하는 Spark SQL 실시간 스트리밍 Spark Streaming 머신러닝 MLlib 그래프 데이터 프로세싱 GraphX 스파크 기본 원리 및 API 실제로 파일이 읽혀지는 시기는 액션이 수행(count)되는 순간이다. (sc.textFile이 아니다) 이유는 메모리는 한정되어 있으므로 filter등의 동작에 의해, 데이터를 정재 후 올리는 경우..
- spring
- mybatis
- BigData
- AI
- 파이썬
- spark
- Gradle
- ML
- 머신러닝
- serverless
- Java
- TDD
- python
- memory
- Error
- 텐서플로우
- Maven
- NIO
- Docker
- javascript
- 모두의딥러닝
- API
- web
- 중앙정보처리학원
- mysql
- Configuration
- tensorflow
- AWS
- executor
- 점프투파이썬
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |