[Zeppelin/Spark] Get Started

티스토리 뷰

Software/Data Analytics

[Zeppelin/Spark] Get Started

Arc Lab. 2020. 5. 27. 17:15

[업데이트 2020.05.27 17:13]

빅데이터 분석 및 시각화를 위해 Zeppelin과 Spark를 연동하여 사용하는 것에 대해 간단히 정리하였습니다.

<참고>
- https://zeppelin.apache.org/docs/latest/quickstart/install.html
- http://zeppelin.apache.org/download.html

Zeppelin docker image를 사용하여 실행해보도록 하겠습니다. 아래와 같이 8080포트로 실행합니다.

docker run -p 8080:8080 --rm --name zeppelin apache/zeppelin:0.9.0

아래와 같이 docker volume 옵션을 사용하여 로그 및 노트북이 저장 가능합니다.

docker run -p 8080:8080 --rm -v $PWD/logs:/logs -v $PWD/notebook:/notebook -e ZEPPELIN_LOG_DIR='/logs' -e ZEPPELIN_NOTEBOOK_DIR='/notebook' --name zeppelin apache/zeppelin:0.9.0

정상적으로 서비스가 실행 되었다면 아래와 같이 접속된 화면을 확인할 수 있습니다.

아래와 같이 Notebook > Spark Tutorial > Spark Basic Features로 이동합니다.

아래와 같이 저장되어 있는 샘플 노트북을 볼 수 있으며, Spark context를 사용하여 aws s3로 부터 은행에 대한 데이터를 가져온 후 시각화를 할 수 있습니다.

이번 포스트에서는 Zeppelin과 Spark를 바로 실행할 수 있도록 docker image를 사용하여 서비스를 실행하는 방법에 대해 알아보았습니다.

향후 Zeppelin과 Spark를 하나의 MSA로 만든 후, Cloud-Native 애플리케이션 중 하나로 사용하여 빅데이터 분석 및 시각화가 가능할 것으로 생각됩니다.

* 팀블로그 : https://medium.com/aisland/zeppelin-spark-get-started-8a34e9b415ac

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

글 보관함

Arc Lab.'s Blog

티스토리 뷰

[Zeppelin/Spark] Get Started

티스토리툴바