티스토리 뷰

[업데이트 2017.03.21 10:42]

 

Windows에서 Standalone Cluster 실행하는 방법에 대한 포스팅입니다.

 

1. Master Node 실행

C:\spark-2.1.0\bin>spark-class.cmd org.apache.spark.deploy.master.Master

 

다음과 같이 master node에 대한 web UI(기본적으로 http://localhost:8080으로 실행됩니다)를 접속하여 정상적으로 master node가 실행 되었는지 확인 할 수 있습니다. 또는 다음과 같이 특정 IP/Port를 지정하여 실행 할 수 있습니다.

 

C:\spark-2.1.0\bin>spark-class.cmd org.apache.spark.deploy.master.Master -i 192.168.0.1 -p 7077

 

2. Worker Node 실행

이제 다른 PC 또는 local PC에서 worker node를 실행합니다. 실행 시 master node url를 파라메터로 넘겨줍니다. (spark://{Host}/{Port})

C:\spark-2.1.0\bin>spark-class.cmd org.apache.spark.deploy.worker.Worker spark://192.168.56.1:7077

 

다음과 같이 worker node가 추가 되었음을 확인 할 수 있습니다.

 

3. Zeppelin과 Spark Standalone Cluster 연동

이제 Zeppelin > Interpreters > Spark의 master property 항목에 spark master node url을 설정합니다.

 

이제 Zeppelin notebook에서 Spark interpreter를 실행 시 다음과 같이 실행중인 application으로 zeppelin이 등록됨을 알 수 있습니다.

 

4. Spark Shell 실행

아래와 같이 master node를 지정하여 Spark Shell도 실행 할 수 있습니다.

 

C:\spark-2.1.0\bin>spark-shell.cmd --master spark://192.168.56.1:7077

 

* 추가 업데이트 : oracle db 연동 등을 위해 jar 파일을 SPARK_HOME\jars에 복사후 master/worker node 실행. Zeppelin과 연동시 Spark interpreter도 재시작.

 

* 참고: https://www.youtube.com/watch?v=bQuoDgz9UMw

* 참고: http://spark.apache.org/docs/latest/spark-standalone.html#starting-a-cluster-manually

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
글 보관함