종종 한국어 데이터셋을 활용해서 llm 파인튜닝을 할 때가 있다.

허깅페이스에서 사용 가능한 상황 별 주요 한국어 데이터셋을 정리해보았다.

 

주요 한국어 파인튜닝 데이터셋 종류

    • KLUE-MRC는 한국어 자연어 이해 벤치마크(KLUE) 과업 중 하나로, 주어진 문단과 질문에 대해 정답 구간을 예측하는 한국어 기계독해(MRC) 데이터셋입니다.
    • KoAlpaca-RealQA: 실제 한국어 사용자 질문에 기반한 고품질 Q&A 데이터셋으로, 실사용 시나리오와 현대적 언어 패턴을 반영합니다.
    • kowikitext-qa-ref-detail-preview: 한국어 위키피디아 기반의 질의응답(reasoning) 데이터셋으로, 자연스러운 QA 파인튜닝에 적합합니다.
    • korean_textbooks: 대규모 합성 한국어 데이터로, 다양한 주제와 형태에 대한 파인튜닝에 사용할 수 있습니다.
    • Korean-llm-finetune/kor-orca-platypus 등: 실제 변환·번역된 질의응답, 설명, 요약 등 다양한 태스크별 데이터셋도 활발히 업로드되고 있습니다.
    • 한국어 악성/욕설/혐오 발언 데이터: K-HATERS, kmhas-korean-hate-speech 등 사회적 이슈와 관련된 분류 작업에 특화된 데이터셋도 다수 공유되고 있습니다.

 

 

 

 

+ Recent posts