[Data생각] Data Science Lifecycle
1. Business Understanding
위 그림에서 보듯이 데이터 분석에 있어서 Start는 비즈니스 이해이다. "왜 데이터 분석을 하는가?"에 대한 고민 없이는 시작도, 동기부여도 없기 쉽상이다. 특히 마지막으로 무슨 산출물을 낼 것인가에 대해 고민이 매우 중요하다. 그리고 이것은 첫 단추인 비즈니스 이해에서부터 시작된다.
2. Data Acquisition & Understanding
Data를 어디에서 얻고, 또 이를 어디에 저장할 것인가. 평소 내부 데이터를 로컬에 저장하는지, 클라우드에 저장하는지 등에 따라 비용 및 데이터 어프로치 용이성이 달라진다. 그리고 이것은 정형/비정형 데이터에 따라서도 다양한 방법이 존재한다. 아직까지는 AWS에 대한 니즈가 많아 보이지만, 구글, MS 등 전세계 기업이 클라우드에 많은 투자를 하고 있다. 흔히 말하는 ABC 비즈니스에서 C가 클라우드이므로 A(AI), B(Bigdata)와의 연계성을 고려해 데이터 인프라 설계에 신경을 써야 한다.
3. Modeling
얻은 데이터를 모델링하기 위해서는 Feature Engineering이 필요하다. 어떤 변수를 어떻게 모델 최적화할 것인가. 이는 다음의 모델 학습에 영향을 미친다. 최종적으로는 모델 평가가 이뤄진다. 모델링은 하도 여러가지가 있어서 이에 대해서는 따로 정리를 할 예정이다.
4. Deployment
많은 이들이 이 부분에 대해 간과한다. 데이터를 열심히 분석했는데 "So what?". 1번인 Business Understanding이 중요한 이유도 바로 이 때문이다. 최종 산출물이 무엇인지 알기 위해서는 최초 Input에 대한 고민이 확실하게 있어야 한다. 그래서 최종적으로는 "Cusomer Acceptance"로 마무리되어야 한다. 최고의 재료를 모아서 맛있는 요리를 만들어봤자 고객이 먹지 않으면 무슨 의미가 있을까. UI, UX, User friendly. 아마존 제프 베조스가 회의실 한자리를 비워놓고 Customer Seat라고 했듯이.
물론 데이터분석 과정이 항상 위의 1번~4번 대로 진행된다는 법은 없고, 수많은 난관들이 존재할 것이다. 하지만 위 프로세스 각각을 데이터 분석의 Milestone으로 활용하면 최소한 "내가 누구고 여긴 어딘지" 쉽게 잃어버리지는 않을듯 하다.