[업데이트 2017.10.31 11:11] 이제 Training/Test Data에 대해 Pre-Processing 및 Feature Selection/Extraction을 통해 성능 향상에 도움을 줄 것으로 예상되는 Feature만 선별하는 작업을 해보도록 하겠습니다. 먼저 Kaggle에서 제공하는 Feature 정보는 다음과 같습니다. 이중에서 실제로 성능을 올리는데 중요한 Feature가 어떤 것인지 선택하기 위해 각 Feature별 데이터 분포를 확인해보았습니다. import asyncml as ml import csv import matplotlib.pyplot as plt from collections import Counter from pandas import Series def line_p..
[업데이트 2017.10.25 11:47] Kaggle에 있는 Machine Learning 기본 문제로 Titanic호에 승선한 사람들의 데이터가 주어지고, 생존 여부를 예측하는 문제입니다. Binary classification을 사용하여 해결하면 되는 문제입니다. (정답 Label이 0, 1 생존 여부로 주어짐) 자세한 내용은 아래의 링크를 참고 하시기 바랍니다. https://www.kaggle.com/c/titanic 먼저 ML(이하 Machine Learning) 문제를 풀기 위해서는 ML System의 Process에 대해 살펴보아야 합니다. 실제 환경에서는 세부적으로 구체화 시키면 Training Data Sensing부터 Post-Processiong 등 여러 단계가 있겠지만, 해당 문제..
[업데이트 2017.10.24 18:14] 머신러닝에서 성능을 높이기 위한 Feature Selection, Feature Extraction에 대한 링크입니다. * 참고 : http://terryum.io/korean/2016/05/05/FeatureSelection_KOR * 참고 : http://featureselection.asu.edu/tutorial.php
[업데이트 2017.10.18 18:32] Tensorflow GPU 버전 설치를 하면서 발생한 이슈에 대해 해결하는 방법입니다. Tensorflow 1.3.0, Windows 10 x64, Python 3.6.3 버전 기준으로 작성한 내용입니다. Tensorflow GPU버전 설치 및 실행을 위해 크게 5가지를 설치해야 합니다. 포럼을 확인한 결과 아래의 버전 기준으로 설치해야 정상 동작함을 확인했습니다. 1. TensorFlow with GPU support v1.3.0 2. NVIDIA CUDA Toolkit 8.0 - Feb 2017 > Installers for Windows 10 x86_64 https://developer.nvidia.com/cuda-80-ga2-download-archive..
[2017.09.06 17:44] Tensorflow와 Numpy 기반으로 Machine Learning Python 패키지 및 모듈을 구성해보는 중입니다. 입력된 데이터에 대해 아래의 머신러닝 파이프라인에 따라 테스트하고 검증할 수 있도록 구현해보고 있습니다. 자주 사용되는 부분에 대해서 재사용성을 높일 수 있도록 구성해보는중입니다. - Package Name: asyncml Raw Data -> Pre-Processing -> Training -> Prediction | | Diagnostic(Hyper Parameter Tuning, Learning Curve, Error Metrics 등) 1. Pre-Processing - Adding bias term - Feature Scaling(Mean ..
[업데이트 2017.08.30 12:45] Supervised Learning중 output이 discrete한 classification 문제에 대해 Tensorflow로 작성해본 코드입니다. 여러개의 레이블에 대하여 분류하는 multinomial classification입니다. 참고로 Linear Regression으로는 class를 구별하는 문제에 대해서 입력 데이터에 따라 잘못된 결과가 나올 수 있는데, Logistic Regression을 사용하면 올바른 결과를 도출할 수 있습니다. sigmoid 함수(값이 0-1사이로 수렴) 또는 여러개의 class 분류에 특화된 softmax 함수를 Hypothesis에 적용 및 Cost 함수로 Cross-Entropy를 사용하여 성능을 끌어올릴 수 있습니..
[업데이트 2017.06.29 13:58] TensorFlow를 통해 Linear Regression을 구현해보고자 합니다. Machine Learning은 크게 Supervised Learning, Unsupervised Learning으로 나뉘며, 그 외에 Reinforcement Learning, Recommender System등이 있습니다. Supervised Learning과 Unsupervised Learning의 차이는 주어진 데이터의 정답(Labeling)이 존재하느냐 하지 않느냐에 따라 구분됩니다. ex) e-mail spam 여부 검출, 부동산 가격 예측 등 => Supervised Learning 유전자 패턴 군집화, 비슷한 주제의 뉴스 기사 검색 등 => Unsupervised L..
[업데이트 2016.11.17 23:22] 2015년부터 Machine Learning의 한 분야인 Deep Learning이 주목을 받으면서, 다양한 Deep Learning Open Source Project들이 발표되고 있습니다. 프로그래밍 언어별로 다양한 Deep Learning 라이브러리가 존재합니다. ** 발췌: http://aikorea.org/blog/dl-libraries/ 그 중에서 최근에 세미나를 통해 알게 된 Python기반의 Scikit-learn 및 Google의 TensorFlow에 대해 공부를 해보려고 합니다. 먼저 Scikit-learn을 설치하여 Deep Learning의 기본적인 개념인 인공 신경망 이론을 토대로 공부하려고 합니다. 최종 목표는 빅데이터 분석, 게임 인공..
- Total
- Today
- Yesterday
- docker
- Badge
- aws #cloudfront
- Meow
- some time ago
- ILoop Engine
- belief
- #ApacheZeppelin
- #TensorFlow
- ate
- #ApacheSpark
- Game Engine
- Memorize
- sentence test
- Physical Simulation
- #REST API
- Mask R-CNN
- SSM
- Library
- 도커
- #ELK Stack
- 2D Game
- OST
- GOD
- Sea Bottom
- Jekyll and Hyde
- Worry
- Ragdoll
- project
- English
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |