-
작업 관리 기술: Azkaban, Airflow(데이터의 흐름, 스케쥴링을 시각화 해줌. workflow framework임). 하둡에서는 Hive, 데이터베이스에서는 DBMS와 연동해서 사용할 수 있습니다.
-
데이터 직렬화: Avro(apache 하둡에 가보면), Thrift(Facebook에서 만든 것) (언어들이 짬뽕되어 있으면, 데이터 직렬화를 통해서 언어 상관없이 개발할 수 있는 것)
-
저장: 대용량 저장, 안정성 / 속도가 중요함. HDFS(Java로 만들어진 파일 시스템), AWS S3, MS Azure Data Lake
-
데이터 처리 기술: 스파크, Hive, HBase, 임팔라(C로 만들어져서 속도가 매우 빠름)
-
Apache Spark: MLib, SQL 기능 제공
-
Hive: Facebook에서 만듦. 하둡 기반의 데이터웨어 하우징 솔루션
- 데이터 웨어 하우스는 여러 DB에서 필요한 특성에 해당하는 DB들만 모아서 만든 것이 데이터 웨어 하우스 입니다.
-
HBase: 구글 개발. 하둡 기반의 DB
-
-
클러스터 관리: 클러스터 처리 효율적으로 할 수 있도록 클러스터를 관리하는 기술
- yarn: 데이터 처리를 할 때, 클러스터 자원관리, 스케쥴링을 해주는 도구
- 하둡의 버전은 yarn의 기준으로 버젼이 달라집니다. (현재는 3.0)
-
분산 서버 관리
- zookeeper: 어느 하나의 서버에만 부하가 몰리지 않도록 로드 밸런싱을 해주는 것. 서버 끼리 동기화도 해줘서 안정성을 보장해줌
-
시각화
- Zapplin: 시각화
-
모니터링
- Hue: 하둡 기반의 모니터링 도구
Frozen Lake
한 판의 게임이 끝날 때 까지를 에피소드라고 합니다.
랜덤으로 왔다갔다 반복하는 과정을 simulated annealing이라고 합니다.
Q(State, Action)
Q(S1, LEFT)
Q(S1, RIGHT)
Q(S1, RIGHT)
Q(S1, UP)
Q(S1, DOWN)