티스토리 뷰
Software/Data Analytics
[Apache Zeppelin] Spark-Scala/Python Oracle DB 연동
Arc Lab. 2017. 3. 17. 15:57[업데이트 2017.03.17 15:51]
Zeppelin Spark Interpreter(Scala/Python)를 이용한 Oracle DB 연동 테스트 입니다.
테스트 해본 결과 확실히 Scala가 더 빠른 응답속도를 보여주었습니다. Spark에서 Scala에 더 최적화가 되어 있음을 확인 할 수 있습니다.
* 참고: http://bcho.tistory.com/1031
** 추가 업데이트: 원문 도표를 보면 core 개수가 적을 때는 Scala가 빠르지만, core 개수가 많아지면 Python도 동등한 수준임을 알 수 있습니다.
제가 테스트한 DB table query 기준으로 퍼포먼스에 있어서 상당한 차이가 있었습니다.
아래는 제가 테스트 했을 때 확인한 응답 속도입니다.
[응답 속도]
Scala - 12 sec
Python - 1 min 19 sec
1. Scala
%spark
import org.apache.spark.sql.SparkSession
val spark = SparkSession
.builder()
.appName("Scala Spark SQL data sources example ")
.config("spark.master", "local[2]")
.getOrCreate()
val df = spark.read
.format("jdbc")
.option("url", "jdbc:oracle:thin:@localhost:1520/REST")
.option("dbtable", "REST.USERS")
.option("user", "admin")
.option("password", "1234")
.load()
df.show()
spark.stop()
2. Python
%pyspark
from pyspark.sql import SparkSession
spark2 = SparkSession \
.builder \
.appName("Python Spark SQL data source example") \
.config("spark.master", "local[2]") \
.getOrCreate()
df = spark2.read \
.format("jdbc") \
.option("url", "jdbc:oracle:thin:@localhost:1520/REST") \
.option("dbtable", "REST.USERS") \
.option("user", "admin") \
.option("password", "1234") \
.load()
df.show()
spark.stop()
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- Mask R-CNN
- SSM
- Game Engine
- Physical Simulation
- ILoop Engine
- #ELK Stack
- project
- docker
- some time ago
- OST
- #TensorFlow
- Jekyll and Hyde
- belief
- Library
- #ApacheZeppelin
- Badge
- Sea Bottom
- sentence test
- Memorize
- Worry
- GOD
- #ApacheSpark
- Meow
- aws #cloudfront
- 2D Game
- ate
- English
- #REST API
- 도커
- Ragdoll
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | ||||||
| 2 | 3 | 4 | 5 | 6 | 7 | 8 |
| 9 | 10 | 11 | 12 | 13 | 14 | 15 |
| 16 | 17 | 18 | 19 | 20 | 21 | 22 |
| 23 | 24 | 25 | 26 | 27 | 28 | 29 |
| 30 |
글 보관함