Kaggle 처음 해보기
Updated:
- 데이터 : 타이타닉
타이타닉은 데이터 분석할 때 가장 널리 알려져있고 이전에 POSCO 빅데이터 교육을 들으며 다뤄봤던 데이터였다.
처음 Competition이라서 가볍게 제출해봤다.
데이터 전처리는 Embarked 결측치는 2개 정도 있었기 때문에 값을 대체하였고, Cabin같은 경우는 결측치가 너무 많아서 삭제하였다. Age변수 같은 경우가 애매해서 삭제해버렸는데 분석을 통해 대체했으면 Accuracy 가 좀 더 많이 올라갔을 것 같다.
모델링은 그레디언트 부스팅으로 했고 Accuracy 는 아래 그림과 같이 0.7 정도 나왔다.
- 첫 등수