<미니 과일 타르트> 다양한 과일들로 만든 타르트 모음.
1. 포스트맨 사용
데이터 크롤링을 위해서는 Postman이라는 프로그램이 필요하다.
[Postman] REST API 나 URL요청 또는 http 프로토콜 등을 쉽게 테스트 할 수 있도록 만들어진 도구이다.
Postman을 쉽게 얘기하면 Rest API를 쉽게 사용할 수 있게 도와주는 도구이다.
우리는 API를 이용해서 데이터를 수집할 것이기 때문에 매우 유용한 도구라 할 수 있다.
아래 번호 순서대로 차근차근 진행하면 딕셔너리 형태로 데이터 크롤링이 된다.
1. Post로 선택
2. Request URL을 입력
3. Header에 Referer, Method, Query 값 입력
4. Token값 입력
5. Send버튼 클릭
(수행시간은 데이터 양에 따라 다르지만, 2,500건 정도의 데이터를 수집할 때 10초 정도 소요되었다.)
* Header에 들어갈 KEY, VALUE값을 확인하려면 사이트에서 F12(개발자도구)를 누르면 된다.(크롬 브라우저 기준)
-> 최종적으로 수집된 데이터를 살펴보면 JSON 형태로 나온다.
이제 이 JSON 데이터를 CSV파일이나 엑셀로 바꿔야 한다.
2. JSON -> CSV파일
이 작업을 위해서는 다음 사이트를 이용하면 좋다. -> http://www.convertcsv.com/json-to-csv.htm
이 사이트는 다양한 파일 형태간 변환을 해주는 사이트이다.(JSON, CSV, HTML, KML, SQL 등)
Input 창에 JSON 내용을 복사 후 붙여넣기 하면 아래 Output 창에 CSV 형태로 데이터가 나온다.
이 파일을 JSON to CSV, JSON to Excel 버튼을 클릭하면 CSV 또는 Excel로 변환할 수 있다.
3. 최종 데이터
이렇게 수집한 데이터를 Excel 형태로 보면 다음과 같다.
그리고 지난 편에서 살펴본대로 데이터는 크게 2가지 종류로 나눌 수 있다.
(1) 협업필터링(CF) 추천시스템에 활용 가능한 데이터 : content, rating
(2) 콘텐츠기반(CBF) 추천시스템에 활용 가능한 데이터 : age, skin_type, brand_name, gender
자 이제 데이터는 마련되었고,
탐색적 데이터 분석(Exploratory Data Analysis)을 해봐야겠다.
과연 소비자들은 누구, 몇살, 피부타입은 어떻게 분포 되어있으며 리뷰에 어떤 단어들을 많이 사용했을까.