머신러닝 알고리즘 cheet sheet
·
Artificial Intelligence/Machine Learning
몇몇 데이터 과학자들은 “최고의 알고리즘을 찾는 단 하나의 확실한 방법은 모든 알고리즘을 시도해보는 것”이라고 말한다. 알고리즘을 선택할 때에는 언제나 정확성, 학습 시간, 사용 편의성을 고려해야 한다. 많은 경우 정확성을 최우선으로 둔다. 반면 초급자는 가장 잘 알고 있는 알고리즘에 초점을 맞추는 경향이 있다. 데이터 세트가 제공됐을 때 가장 먼저 고려해야 할 것은 ‘어떤 결과가 나올 것인지에 상관없이 어떻게 결과를 얻을 것인가’이다. 초급자일수록 실행하기 쉽고 결과를 빨리 얻을 수 있는 알고리즘을 선택하기 쉽다. 프로세스의 첫 단계에서는 괜찮을 수 있겠지만 일부 결과를 얻었고 데이터에 익숙해진 후라면 정교한 알고리즘을 사용하는 데 시간을 더 많이 할애해야 한다. 그래야만 데이터를 더욱 잘 이해하고, ..
머신러닝과 딥러닝의 주요한 차이
·
Artificial Intelligence/Machine Learning
머신러닝과 딥러닝의 주요한 차이는 도메인 knowledge의 필요 유무다. 머신러닝의 경우엔 도메인 지식이 필요한데, 이는 feature를 사람이 직접 설정해주어야 하기 때문이다.
머신러닝(Machine Learning) 알고리즘 장단점 비교
·
Artificial Intelligence/Machine Learning
장점 단점 k-NN 이해하기 매우 쉬운 모델이다. 그리고 많이 조정하지 않아도 자주 좋은 성능을 발휘한다. 훈련 세트가 매우 크면 (특성의 수나 샘플의 수가 클 경우) 예측이 느려진다. 이해하긴 쉽지만, 예측이 느리고 많은 특성을 처리하는 능력이 부족해 현업에서는 잘 쓰지 않는다. 따라서 주로 k-NN의 이러한 단점을 없앤 선형 모델을 사용하곤 한다. 선형 모델 학습 속도가 빠르고 예측도 빠르다. 매우 큰 데이터셋과 희소한 데이터셋에도 잘 작동한다. 또한 예측이 어떻게 만들어 지는지 수식 등을 통해 비교적 쉽게 이해할 수 있다. 하지만 계수의 값들이 왜 그런지 명확하지 않을 때가 종종 있다. 특히 데이터셋의 특성들이 서로 깊게 연관되어 있을 때 그러하다. 분류에도 널리 사용된다. 가장 널리 알려진 두 개..