<대형 과일 타르트> 타르트 위에 다양한 과일 분포가 화장품 브랜드 원형 차트와 닮았다.
이제 화장품 소비자들에 대한 데이터를 가지고,
탐색적 데이터 분석(Exploratory Data Analysis)를 해보자.
총 데이터는 8,828건이며, 변수는 15개이다.
가장 많은 평점은 4점이다. 그다음은 미세하게 3점이 많으며 5점이 3등을 차지했다.
소비자들은 웬만해서는 1, 2점을 주지 않았다. 따라서 3점이면 그닥 좋지 않은 평점인 것을 알 수 있다.
나중에 CF 추천시스템 모델을 적용할 때 평점 기반으로 리뷰의 긍정, 부정을 라벨링해주어야 하는데 지금 데이터상으로는 1,2점이 너무 적으므로 3점 이하부터 부정으로 라벨링을 해주야 겠다. 그래야 긍정, 부정 각각 데이터의 밸런스가 맞을 것 같다는 생각이 든다.
나이 분포는 20대가 가장 많았고, 그 다음으로는 10대가 많았다. 즉, 이 사이트는 10~20대가 주 고객인 것을 알 수 있다.
그리고 실제 데이터에 120살의 고객 데이터가 있었는데 이것은 이상치로 간주해서 제거해 주었다.
성별을 나누어서 데이터를 살펴보면 여자는 20대 초반, 남자는 20대 중반이 가장 많다. 남자가 여자보다 약간 더 나이가 많은 것으로 나타난다. 남성들은 상당수가 군대에서 화장품에 처음 관심을 갖게 되는 경향이 있는데 그 부분이 나타난 것이 아닌가 싶다.
피부타입은 복합성이라 생각하는 고객이 가장 많은 것으로 나타났다(40%). 2위인 건성(23%)보다 훨씬 높은 수치인데, 사람의 피부는 얼굴 부위별로 다르기도 하고, 나이가 들면서 변하기도 하는 것이 반영된 것 같다.
생각보다 민감성이 적게 나타난 것은 의외이다(14%).
화장품 브랜드 점유율을 살펴보면 스킨푸드가 8%로 1위를 차지했다.
그 뒤로 에뛰드하우스, 이니스프리, 아이오페 등 아모레퍼시픽 그룹 계열사의 화장품 브랜드들이 2~4위를 차지했다.
5위로는 더페이스샵으로 나와서 LG생활건강 브랜드에서는 가장 높은 점유율을 차지했다. LG생활건강의 2위 브랜드는 빌리프로 13등이다.
총 브랜드가 46개로 집계되었고, 1위인 스킨푸드의 점유율이 8%밖에 되지 않는다. 역시, 화장품 브랜드 시장은 상당히 치열하다.
상관관계를 본 이유는 이후 추천시스템을 만들 때 rating에 영향을 미치는 요소들이 무엇인지 파악해보기 위해서였는데,
크게 유의미한 관계를 찾기는 어려웠다. 추가적으로 소비자들의 리뷰에서 context를 찾는 것이 필요할 것으로 보인다.
데이터 분석을 해보니 화장품 시장만큼 브랜드가 많고 소비자들의 분포나 니즈가 다양한 시장도 없을듯 싶다.
이렇게 정형 데이터(소비자 정보, 제품 정보, 평점 등)에 대해서 살펴보았다.
다음에는 비정형 데이터인 소비자 리뷰를 살펴보고, context에 담긴 의미를 파악해볼 예정.
그래서 화장품 리뷰의 긍정,부정 예측 모델을 만들어봐야 겠다.