티스토리 뷰

[업데이트 2017.03.13 20:16]

 

Spark에서 Oracle DB 접근에 대한 포스팅입니다. Windows 환경에서 Python을 가지고 테스트를 해보았습니다.

 

1. Oracle DB JDBC jar 파일 다운로드 및 spark-defaults.conf 설정하기

다운로드 받은 Oracle DB JDBC jar파일을 적절한 위치에 복사한 후, Spark home/conf 폴더의 spark-defaults.conf의 spark.driver.extraClassPath에 해당 jar 파일 경로를 추가 합니다.

spark.driver.extraClassPath C:\\oracle-jdbc-driver-11g\\ojdbc6.jar

 

2. Oracle JDBC test .py 파일 작성 및 실행

다음과 같이 Oracle JDBC test용 .py파일을 작성 후, Windows Command Prompt에서 spark-submit을 통해 해당 .py파일을 실행합니다.

from pyspark.sql import SparkSession

spark = SparkSession \
        .builder \
        .appName("Python Spark SQL data source example") \
        .getOrCreate()

df = spark.read \
        .format("jdbc") \
        .option("url", "jdbc:oracle:thin:@192.168.0.1:1520/SERVICE_NAME") \
        .option("dbtable", "SERVICE_NAME.USER_INFO") \
        .option("user", "admin") \
        .option("password", "1234") \
        .load()		
		
df.show()
		
spark.stop()
c:\spark-2.1.0>.\bin\spark-submit jdbc_test.py

 

실행 결과 Oracle DB의 table 정보를 가져오는 것을 확인 할 수 있습니다.

 

*참고: http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
글 보관함