종종 한국어 데이터셋을 활용해서 llm 파인튜닝을 할 때가 있다.
허깅페이스에서 사용 가능한 상황 별 주요 한국어 데이터셋을 정리해보았다.
주요 한국어 파인튜닝 데이터셋 종류
- KLUE-MRC는 한국어 자연어 이해 벤치마크(KLUE) 과업 중 하나로, 주어진 문단과 질문에 대해 정답 구간을 예측하는 한국어 기계독해(MRC) 데이터셋입니다.
- KoAlpaca-RealQA: 실제 한국어 사용자 질문에 기반한 고품질 Q&A 데이터셋으로, 실사용 시나리오와 현대적 언어 패턴을 반영합니다.
- kowikitext-qa-ref-detail-preview: 한국어 위키피디아 기반의 질의응답(reasoning) 데이터셋으로, 자연스러운 QA 파인튜닝에 적합합니다.
- korean_textbooks: 대규모 합성 한국어 데이터로, 다양한 주제와 형태에 대한 파인튜닝에 사용할 수 있습니다.
- Korean-llm-finetune/kor-orca-platypus 등: 실제 변환·번역된 질의응답, 설명, 요약 등 다양한 태스크별 데이터셋도 활발히 업로드되고 있습니다.
- 한국어 악성/욕설/혐오 발언 데이터: K-HATERS, kmhas-korean-hate-speech 등 사회적 이슈와 관련된 분류 작업에 특화된 데이터셋도 다수 공유되고 있습니다.
'LLM 파인튜닝' 카테고리의 다른 글
[ai100-6T] [RAG 모델 평가1] LLM 기반 모델 평가(evaluation) (1) | 2025.08.26 |
---|---|
[ai100-5T] [RAG 파인 튜닝] klue mrc 데이터 파인튜닝 후 RAG QA 테스트 (2) | 2025.08.25 |
[ai100-4T] [RAG 학습 데이터 생성2] no aswer 질문 데이터 만들기 (0) | 2025.08.25 |
[ai100-3T] [RAG 학습 데이터 생성1] 다수의 문서를 인용하는 질문 데이터 만들기 (0) | 2025.08.24 |
[ai100-2T] [경제 뉴스 예측 파인튜닝 모델 만들기2] 허깅페이스 trl로 경제 뉴스 llama3 파인튜닝 (3) | 2025.08.15 |