티스토리 뷰

[업데이트 2017.03.17 15:51]

 

Zeppelin Spark Interpreter(Scala/Python)를 이용한 Oracle DB 연동 테스트 입니다.

테스트 해본 결과 확실히 Scala가 더 빠른 응답속도를 보여주었습니다. Spark에서 Scala에 더 최적화가 되어 있음을 확인 할 수 있습니다.

 

* 참고: http://bcho.tistory.com/1031

 

** 추가 업데이트: 원문 도표를 보면 core 개수가 적을 때는 Scala가 빠르지만, core 개수가 많아지면 Python도 동등한 수준임을 알 수 있습니다.

 

제가 테스트한 DB table query 기준으로 퍼포먼스에 있어서 상당한 차이가 있었습니다.

아래는 제가 테스트 했을 때 확인한 응답 속도입니다.

 

[응답 속도]

Scala - 12 sec

Python -  1 min 19 sec

 

1. Scala

%spark

import org.apache.spark.sql.SparkSession

val spark = SparkSession
      .builder()
      .appName("Scala Spark SQL data sources example ")
      .config("spark.master", "local[2]")
      .getOrCreate()
      
val df = spark.read
      .format("jdbc")
      .option("url", "jdbc:oracle:thin:@localhost:1520/REST")
      .option("dbtable", "REST.USERS")
      .option("user", "admin")
      .option("password", "1234")
      .load()
      
df.show()      

spark.stop()  

 

2. Python

%pyspark

from pyspark.sql import SparkSession

spark2 = SparkSession \
        .builder \
        .appName("Python Spark SQL data source example") \
        .config("spark.master", "local[2]") \
        .getOrCreate()

df = spark2.read \
		.format("jdbc") \ 
		.option("url", "jdbc:oracle:thin:@localhost:1520/REST") \ 
		.option("dbtable", "REST.USERS") \ 
		.option("user", "admin") \ 
		.option("password", "1234") \ 
        .load()		
		
df.show()
		
spark.stop()     
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함