티스토리 뷰
[업데이트 2020.05.27 17:13]
빅데이터 분석 및 시각화를 위해 Zeppelin과 Spark를 연동하여 사용하는 것에 대해 간단히 정리하였습니다.
<참고>
- https://zeppelin.apache.org/docs/latest/quickstart/install.html
- http://zeppelin.apache.org/download.html
Zeppelin docker image를 사용하여 실행해보도록 하겠습니다. 아래와 같이 8080포트로 실행합니다.
docker run -p 8080:8080 --rm --name zeppelin apache/zeppelin:0.9.0
아래와 같이 docker volume 옵션을 사용하여 로그 및 노트북이 저장 가능합니다.
docker run -p 8080:8080 --rm -v $PWD/logs:/logs -v $PWD/notebook:/notebook -e ZEPPELIN_LOG_DIR='/logs' -e ZEPPELIN_NOTEBOOK_DIR='/notebook' --name zeppelin apache/zeppelin:0.9.0
정상적으로 서비스가 실행 되었다면 아래와 같이 접속된 화면을 확인할 수 있습니다.
아래와 같이 Notebook > Spark Tutorial > Spark Basic Features로 이동합니다.
아래와 같이 저장되어 있는 샘플 노트북을 볼 수 있으며, Spark context를 사용하여 aws s3로 부터 은행에 대한 데이터를 가져온 후 시각화를 할 수 있습니다.
이번 포스트에서는 Zeppelin과 Spark를 바로 실행할 수 있도록 docker image를 사용하여 서비스를 실행하는 방법에 대해 알아보았습니다.
향후 Zeppelin과 Spark를 하나의 MSA로 만든 후, Cloud-Native 애플리케이션 중 하나로 사용하여 빅데이터 분석 및 시각화가 가능할 것으로 생각됩니다.
* 팀블로그 : https://medium.com/aisland/zeppelin-spark-get-started-8a34e9b415ac
- Total
- Today
- Yesterday
- GOD
- Meow
- Jekyll and Hyde
- English
- ILoop Engine
- #ApacheSpark
- Memorize
- 2D Game
- Sea Bottom
- Physical Simulation
- project
- #REST API
- Ragdoll
- ate
- OST
- Mask R-CNN
- Library
- Game Engine
- Badge
- aws #cloudfront
- docker
- #ApacheZeppelin
- SSM
- Worry
- sentence test
- some time ago
- belief
- 도커
- #TensorFlow
- #ELK Stack
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |