[Apache Spark] Spark Oracle DB 연동

티스토리 뷰

Software/Data Analytics

[Apache Spark] Spark Oracle DB 연동

Arc Lab. 2017. 3. 13. 20:10

[업데이트 2017.03.13 20:16]

Spark에서 Oracle DB 접근에 대한 포스팅입니다. Windows 환경에서 Python을 가지고 테스트를 해보았습니다.

1. Oracle DB JDBC jar 파일 다운로드 및 spark-defaults.conf 설정하기

다운로드 받은 Oracle DB JDBC jar파일을 적절한 위치에 복사한 후, Spark home/conf 폴더의 spark-defaults.conf의 spark.driver.extraClassPath에 해당 jar 파일 경로를 추가 합니다.

spark.driver.extraClassPath C:\\oracle-jdbc-driver-11g\\ojdbc6.jar

2. Oracle JDBC test .py 파일 작성 및 실행

다음과 같이 Oracle JDBC test용 .py파일을 작성 후, Windows Command Prompt에서 spark-submit을 통해 해당 .py파일을 실행합니다.

from pyspark.sql import SparkSession

spark = SparkSession \
        .builder \
        .appName("Python Spark SQL data source example") \
        .getOrCreate()

df = spark.read \
        .format("jdbc") \
        .option("url", "jdbc:oracle:thin:@192.168.0.1:1520/SERVICE_NAME") \
        .option("dbtable", "SERVICE_NAME.USER_INFO") \
        .option("user", "admin") \
        .option("password", "1234") \
        .load()		
		
df.show()
		
spark.stop()

c:\spark-2.1.0>.\bin\spark-submit jdbc_test.py

실행 결과 Oracle DB의 table 정보를 가져오는 것을 확인 할 수 있습니다.

*참고: http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases

저작자표시 비영리 변경금지 (새창열림)

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

글 보관함

Arc Lab.'s Blog

티스토리 뷰

[Apache Spark] Spark Oracle DB 연동

티스토리툴바