@ 상황 설명 : RAG 챗봇은 정답이 없는 질문들에 대해서는 할루시네이션이 발생할 수 있다. 이를 방지하기 위해 RAG 학습용 정답이 없는 질문 데이터를 생성하고자 한다.
@ 사용 데이터 및 실행 환경
# 실행 환경 : 로컬 쥬피터노트북
# 사용 데이터 : 허깅페이스 "runiarang/klue-mrc-bge-m3" 중 500개 샘플링

@ 시스템 프롬프트 : "당신은 주어진 5개의 검색 문서로부터 답변이 불가능한 질문(no answer question) 5개를 생성해야 합니다."

@ 생성된 "no_answer_question"

@ "no_answer_question" 에 대한 답변 생성


@ 답이 없기를 기대했지만, 답이 추출된 경우는 삭제.


@ 테스트 및 검증

@ 허깅페이스에 생성된 no_answer_question 데이터셋 업로드 : "klue-mrc-no-answer-question"



-> extracted_ref_numbers(답변하는데 인용한 문서번호)는 전부 빈칸 [] 인 것을 볼 수 있다.
'LLM 파인튜닝' 카테고리의 다른 글
| [한국어 데이터셋] 허깅페이스 주요 한국어 파인튜닝 데이터셋 종류 (0) | 2025.08.26 |
|---|---|
| [ai100-5T] [RAG 파인 튜닝] klue mrc 데이터 파인튜닝 후 RAG QA 테스트 (2) | 2025.08.25 |
| [ai100-3T] [RAG 학습 데이터 생성1] 다수의 문서를 인용하는 질문 데이터 만들기 (0) | 2025.08.24 |
| [ai100-2T] [경제 뉴스 예측 파인튜닝 모델 만들기2] 허깅페이스 trl로 경제 뉴스 llama3 파인튜닝 (3) | 2025.08.15 |
| [ai100-1T] [경제 뉴스 예측 파인튜닝 모델 만들기1] 라마팩토리로 경제 뉴스 llama3 파인튜닝 (2) | 2025.08.13 |