[Apache Zeppelin] Spark-Scala/Python Oracle DB 연동

티스토리 뷰

Software/Data Analytics

[Apache Zeppelin] Spark-Scala/Python Oracle DB 연동

Arc Lab. 2017. 3. 17. 15:57

[업데이트 2017.03.17 15:51]

Zeppelin Spark Interpreter(Scala/Python)를 이용한 Oracle DB 연동 테스트 입니다.

테스트 해본 결과 확실히 Scala가 더 빠른 응답속도를 보여주었습니다. Spark에서 Scala에 더 최적화가 되어 있음을 확인 할 수 있습니다.

* 참고: http://bcho.tistory.com/1031

** 추가 업데이트: 원문 도표를 보면 core 개수가 적을 때는 Scala가 빠르지만, core 개수가 많아지면 Python도 동등한 수준임을 알 수 있습니다.

제가 테스트한 DB table query 기준으로 퍼포먼스에 있어서 상당한 차이가 있었습니다.

아래는 제가 테스트 했을 때 확인한 응답 속도입니다.

[응답 속도]

Scala - 12 sec

Python - 1 min 19 sec

1. Scala

%spark

import org.apache.spark.sql.SparkSession

val spark = SparkSession
      .builder()
      .appName("Scala Spark SQL data sources example ")
      .config("spark.master", "local[2]")
      .getOrCreate()
      
val df = spark.read
      .format("jdbc")
      .option("url", "jdbc:oracle:thin:@localhost:1520/REST")
      .option("dbtable", "REST.USERS")
      .option("user", "admin")
      .option("password", "1234")
      .load()
      
df.show()      

spark.stop()

2. Python

%pyspark

from pyspark.sql import SparkSession

spark2 = SparkSession \
        .builder \
        .appName("Python Spark SQL data source example") \
        .config("spark.master", "local[2]") \
        .getOrCreate()

df = spark2.read \
		.format("jdbc") \ 
		.option("url", "jdbc:oracle:thin:@localhost:1520/REST") \ 
		.option("dbtable", "REST.USERS") \ 
		.option("user", "admin") \ 
		.option("password", "1234") \ 
        .load()		
		
df.show()
		
spark.stop()

저작자표시 비영리 변경금지 (새창열림)

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

글 보관함

Arc Lab.'s Blog

티스토리 뷰

[Apache Zeppelin] Spark-Scala/Python Oracle DB 연동

티스토리툴바