참조: http://spark.apache.org/docs/latest/programming-guide.html | http://pubdata.tistory.com/38 Transformation 함수scala> val rdd1 = sc.parallelize(List("coffee","coffee","tea","milk"))rdd1: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[9] at parallelize at :27 scala> val rdd2 = sc.parallelize(List("coffee","cola","water"))rdd2: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[10..
출처: http://knight76.tistory.com/entry/spark%EC%9D%98-mapValuesreduceByKey-%EC%98%88%EC%8B%9C sparkContext에 mapValues와 reduceByKey 예시. val inputrdd = sc.parallelize(Seq(("arth",10), ("arth", 20), ("samuel", 60), ("jack", 65))) val mapped = inputrdd.mapValues(x => 1);mapped.collect.foreach(println) val reduced = mapped.reduceByKey(_ + _)reduced.collect.foreach(println) mapValues는 map의 값을 1로 변경한다.r..
참조: http://bcho.tistory.com Spark의 기능 및 장점 분산 처리 실시간 스트리밍 머신러닝 다양한 언어 지원 Spark의 스택 구조 인프라 계층 Standalone Scheduler(기본) Yarn(하둡) Mesos(Docker 또는 가상화 플랫폼) 스파크 코어 메모리 기반의 분산 클러스터 컴퓨팅 스파크 라이브러리 빅데이터를 SQL로 핸들링하는 Spark SQL 실시간 스트리밍 Spark Streaming 머신러닝 MLlib 그래프 데이터 프로세싱 GraphX 스파크 기본 원리 및 API 실제로 파일이 읽혀지는 시기는 액션이 수행(count)되는 순간이다. (sc.textFile이 아니다) 이유는 메모리는 한정되어 있으므로 filter등의 동작에 의해, 데이터를 정재 후 올리는 경우..
- AI
- Docker
- Maven
- mybatis
- API
- 중앙정보처리학원
- 텐서플로우
- NIO
- spark
- ML
- spring
- web
- mysql
- memory
- Java
- TDD
- 모두의딥러닝
- serverless
- Configuration
- javascript
- BigData
- executor
- AWS
- 점프투파이썬
- Error
- Gradle
- python
- 머신러닝
- tensorflow
- 파이썬
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |