[Apache Spark] Windows에서 Standalone Cluster 실행

티스토리 뷰

Software/Data Analytics

[Apache Spark] Windows에서 Standalone Cluster 실행

Arc Lab. 2017. 3. 21. 11:30

[업데이트 2017.03.21 10:42]

Windows에서 Standalone Cluster 실행하는 방법에 대한 포스팅입니다.

1. Master Node 실행

C:\spark-2.1.0\bin>spark-class.cmd org.apache.spark.deploy.master.Master

다음과 같이 master node에 대한 web UI(기본적으로 http://localhost:8080으로 실행됩니다)를 접속하여 정상적으로 master node가 실행 되었는지 확인 할 수 있습니다. 또는 다음과 같이 특정 IP/Port를 지정하여 실행 할 수 있습니다.

C:\spark-2.1.0\bin>spark-class.cmd org.apache.spark.deploy.master.Master -i 192.168.0.1 -p 7077

2. Worker Node 실행

이제 다른 PC 또는 local PC에서 worker node를 실행합니다. 실행 시 master node url를 파라메터로 넘겨줍니다. (spark://{Host}/{Port})

C:\spark-2.1.0\bin>spark-class.cmd org.apache.spark.deploy.worker.Worker spark://192.168.56.1:7077

다음과 같이 worker node가 추가 되었음을 확인 할 수 있습니다.

3. Zeppelin과 Spark Standalone Cluster 연동

이제 Zeppelin > Interpreters > Spark의 master property 항목에 spark master node url을 설정합니다.

이제 Zeppelin notebook에서 Spark interpreter를 실행 시 다음과 같이 실행중인 application으로 zeppelin이 등록됨을 알 수 있습니다.

4. Spark Shell 실행

아래와 같이 master node를 지정하여 Spark Shell도 실행 할 수 있습니다.

C:\spark-2.1.0\bin>spark-shell.cmd --master spark://192.168.56.1:7077

* 추가 업데이트 : oracle db 연동 등을 위해 jar 파일을 SPARK_HOME\jars에 복사후 master/worker node 실행. Zeppelin과 연동시 Spark interpreter도 재시작.

* 참고: https://www.youtube.com/watch?v=bQuoDgz9UMw

* 참고: http://spark.apache.org/docs/latest/spark-standalone.html#starting-a-cluster-manually

저작자표시 비영리 변경금지 (새창열림)

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/10 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

Arc Lab.'s Blog

티스토리 뷰

[Apache Spark] Windows에서 Standalone Cluster 실행

티스토리툴바