본문 바로가기

SVM2

time series data를 predict하는 모델을 만들 때, xgboost가 적합하지 않은 이유 xgboost는 기본적으로 tree-based 모델이다. tree-based 모델들이 가진 단점은 training dataset에서 발견된 값 중 최대값 이상의 값(또는 최소값 이하의 값)을 extrapolate(추론)/predict(예측)할 수 없다는 점이다. 구글 검색 결과, 해결책으로 제시되는 방법은, 먼저 trend를 remove하거나(즉 detrend화 하거나), series를 stationary하도록 만든 다음 xgboost를 활용해야 한다. xgboost 외에 고려할만한 머신러닝 모델은 무엇이 있을까? 김영송, 양성민, 조서형, 최재혁, "시계열 데이터 분류를 위한 기계 학습 모델 설계 및 성능 비교, “ 2017년 한국통신학회 하계종합학술발표회에 따르면, 시계열 데이터의 처리 및 예측을 위.. 2018. 12. 23.
머신러닝(Machine Learning) 알고리즘 장단점 비교 장점 단점 k-NN 이해하기 매우 쉬운 모델이다. 그리고 많이 조정하지 않아도 자주 좋은 성능을 발휘한다. 훈련 세트가 매우 크면 (특성의 수나 샘플의 수가 클 경우) 예측이 느려진다. 이해하긴 쉽지만, 예측이 느리고 많은 특성을 처리하는 능력이 부족해 현업에서는 잘 쓰지 않는다. 따라서 주로 k-NN의 이러한 단점을 없앤 선형 모델을 사용하곤 한다. 선형 모델 학습 속도가 빠르고 예측도 빠르다. 매우 큰 데이터셋과 희소한 데이터셋에도 잘 작동한다. 또한 예측이 어떻게 만들어 지는지 수식 등을 통해 비교적 쉽게 이해할 수 있다. 하지만 계수의 값들이 왜 그런지 명확하지 않을 때가 종종 있다. 특히 데이터셋의 특성들이 서로 깊게 연관되어 있을 때 그러하다. 분류에도 널리 사용된다. 가장 널리 알려진 두 개.. 2018. 12. 20.