본문 바로가기

Artificial Intelligence/Machine Learning7

머신러닝 알고리즘 cheet sheet 몇몇 데이터 과학자들은 “최고의 알고리즘을 찾는 단 하나의 확실한 방법은 모든 알고리즘을 시도해보는 것”이라고 말한다. 알고리즘을 선택할 때에는 언제나 정확성, 학습 시간, 사용 편의성을 고려해야 한다. 많은 경우 정확성을 최우선으로 둔다. 반면 초급자는 가장 잘 알고 있는 알고리즘에 초점을 맞추는 경향이 있다. 데이터 세트가 제공됐을 때 가장 먼저 고려해야 할 것은 ‘어떤 결과가 나올 것인지에 상관없이 어떻게 결과를 얻을 것인가’이다. 초급자일수록 실행하기 쉽고 결과를 빨리 얻을 수 있는 알고리즘을 선택하기 쉽다. 프로세스의 첫 단계에서는 괜찮을 수 있겠지만 일부 결과를 얻었고 데이터에 익숙해진 후라면 정교한 알고리즘을 사용하는 데 시간을 더 많이 할애해야 한다. 그래야만 데이터를 더욱 잘 이해하고, .. 2018. 12. 23.
머신러닝과 딥러닝의 주요한 차이 머신러닝과 딥러닝의 주요한 차이는 도메인 knowledge의 필요 유무다. 머신러닝의 경우엔 도메인 지식이 필요한데, 이는 feature를 사람이 직접 설정해주어야 하기 때문이다. 2018. 12. 23.
머신러닝(Machine Learning) 알고리즘 장단점 비교 장점 단점 k-NN 이해하기 매우 쉬운 모델이다. 그리고 많이 조정하지 않아도 자주 좋은 성능을 발휘한다. 훈련 세트가 매우 크면 (특성의 수나 샘플의 수가 클 경우) 예측이 느려진다. 이해하긴 쉽지만, 예측이 느리고 많은 특성을 처리하는 능력이 부족해 현업에서는 잘 쓰지 않는다. 따라서 주로 k-NN의 이러한 단점을 없앤 선형 모델을 사용하곤 한다. 선형 모델 학습 속도가 빠르고 예측도 빠르다. 매우 큰 데이터셋과 희소한 데이터셋에도 잘 작동한다. 또한 예측이 어떻게 만들어 지는지 수식 등을 통해 비교적 쉽게 이해할 수 있다. 하지만 계수의 값들이 왜 그런지 명확하지 않을 때가 종종 있다. 특히 데이터셋의 특성들이 서로 깊게 연관되어 있을 때 그러하다. 분류에도 널리 사용된다. 가장 널리 알려진 두 개.. 2018. 12. 20.