티스토리 뷰

[업데이트 2020.05.27 17:13]

 

 

빅데이터 분석 및 시각화를 위해 Zeppelin과 Spark를 연동하여 사용하는 것에 대해 간단히 정리하였습니다.

 

<참고>
- https://zeppelin.apache.org/docs/latest/quickstart/install.html
- http://zeppelin.apache.org/download.html


Zeppelin docker image를 사용하여 실행해보도록 하겠습니다. 아래와 같이 8080포트로 실행합니다.

 

docker run -p 8080:8080 --rm --name zeppelin apache/zeppelin:0.9.0

 

아래와 같이 docker volume 옵션을 사용하여 로그 및 노트북이 저장 가능합니다.

 

docker run -p 8080:8080 --rm -v $PWD/logs:/logs -v $PWD/notebook:/notebook -e ZEPPELIN_LOG_DIR='/logs' -e ZEPPELIN_NOTEBOOK_DIR='/notebook' --name zeppelin apache/zeppelin:0.9.0

 

정상적으로 서비스가 실행 되었다면 아래와 같이 접속된 화면을 확인할 수 있습니다.

 

사이트 접속 후 첫 화면

 

아래와 같이 Notebook > Spark Tutorial > Spark Basic Features로 이동합니다.

아래와 같이 저장되어 있는 샘플 노트북을 볼 수 있으며, Spark context를 사용하여 aws s3로 부터 은행에 대한 데이터를 가져온 후 시각화를 할 수 있습니다.

 

은행 데이터의 시각화

 

이번 포스트에서는 Zeppelin과 Spark를 바로 실행할 수 있도록 docker image를 사용하여 서비스를 실행하는 방법에 대해 알아보았습니다.


향후 Zeppelin과 Spark를 하나의 MSA로 만든 후, Cloud-Native 애플리케이션 중 하나로 사용하여 빅데이터 분석 및 시각화가 가능할 것으로 생각됩니다.

 

* 팀블로그 : https://medium.com/aisland/zeppelin-spark-get-started-8a34e9b415ac

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함