티스토리 뷰
Software/Data Analytics
[Apache Zeppelin] Spark-Scala/Python Oracle DB 연동
Arc Lab. 2017. 3. 17. 15:57[업데이트 2017.03.17 15:51]
Zeppelin Spark Interpreter(Scala/Python)를 이용한 Oracle DB 연동 테스트 입니다.
테스트 해본 결과 확실히 Scala가 더 빠른 응답속도를 보여주었습니다. Spark에서 Scala에 더 최적화가 되어 있음을 확인 할 수 있습니다.
* 참고: http://bcho.tistory.com/1031
** 추가 업데이트: 원문 도표를 보면 core 개수가 적을 때는 Scala가 빠르지만, core 개수가 많아지면 Python도 동등한 수준임을 알 수 있습니다.
제가 테스트한 DB table query 기준으로 퍼포먼스에 있어서 상당한 차이가 있었습니다.
아래는 제가 테스트 했을 때 확인한 응답 속도입니다.
[응답 속도]
Scala - 12 sec
Python - 1 min 19 sec
1. Scala
%spark import org.apache.spark.sql.SparkSession val spark = SparkSession .builder() .appName("Scala Spark SQL data sources example ") .config("spark.master", "local[2]") .getOrCreate() val df = spark.read .format("jdbc") .option("url", "jdbc:oracle:thin:@localhost:1520/REST") .option("dbtable", "REST.USERS") .option("user", "admin") .option("password", "1234") .load() df.show() spark.stop()
2. Python
%pyspark from pyspark.sql import SparkSession spark2 = SparkSession \ .builder \ .appName("Python Spark SQL data source example") \ .config("spark.master", "local[2]") \ .getOrCreate() df = spark2.read \ .format("jdbc") \ .option("url", "jdbc:oracle:thin:@localhost:1520/REST") \ .option("dbtable", "REST.USERS") \ .option("user", "admin") \ .option("password", "1234") \ .load() df.show() spark.stop()
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- Jekyll and Hyde
- Memorize
- SSM
- English
- Game Engine
- docker
- Badge
- ate
- 도커
- 2D Game
- ILoop Engine
- Worry
- Library
- GOD
- #ApacheSpark
- aws #cloudfront
- Mask R-CNN
- belief
- some time ago
- Sea Bottom
- Ragdoll
- Physical Simulation
- #TensorFlow
- #ApacheZeppelin
- Meow
- OST
- project
- sentence test
- #ELK Stack
- #REST API
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
글 보관함