#llama3 # multi GPU #lora finetuning #huggingface #runpod #economic news #labeling with gpt4o
#라마팩토리
<목차>
@ 상황 설명 : 경제 뉴스를 기반으로 llama3 파인튜닝해서 뉴스를 넣었을 때 주식에 긍정/부정 판단하는 모델이 필요하다.
@ 데이터 수집 : 허깅페이스 "dekeun-ml/naver-news-summarization-ko"
@ 개발 환경 : 파인튜닝 : 런팟 A100x2 / 모델 추론 : 런팟 A6000x1
@ 데이터 전처리 : gpt4o api를 이용해서 긍정/부정 labeling 데이터셋 만들기 -> 허깅페이스에 데이터셋 업로드 -> data 폴더에 fine-tuning 용 json 데이터 세팅 -> dataset_info.json 에 파인튜닝용 데이터 등록
@ 모델 파인튜닝 : 런팟 (A100x2 RAM 70GB) 이용해서 15분간 lora 파인튜닝 학습(비용 17달러)
학습 파라미터 설정 -> 학습 실행 -> model merge하고 허깅페이스에 업로드
@ 모델 추론 : 런팟 (A6000x1 RAM 50GB) 이용해서 추론.
@ 결과 및 의의 :
- 짧은 시간과 저렴한 비용으로 (15분, 약 17 USD) Llama-3 기반의 뉴스 감성 예측 모델을 성공적으로 훈련 및 배포함
- GPT-4o를 통한 자동 라벨링과 Runpod 환경을 활용한 효율적인 작업 파이프라인 구성
요약하자면, 이 프로젝트는 경량 파인튜닝(light-weight fine-tuning)을 통해 짧은 시간, 적은 비용, 효율적인 라벨링으로 감성 예측 모델을 성공적으로 구축했다는 점에서 의미가 큽니다. 특히 실시간 뉴스 해석이나 자동화된 투자 분석 등 현업 적용 가능성이 높다는 점도 주목할 만합니다.
----------------------------------------------------------------------------------------------------------------------------------------------------------------
@ 상황 설명 :
경제 뉴스를 기반으로 llama3 파인튜닝해서 뉴스를 넣었을 때 주식에 긍정/부정 판단하는 모델이 필요하다.
@ 데이터 수집 :
# 허깅페이스 "dekeun-ml/naver-news-summarization-ko" (27,400 rows, 81.9 MB)
# 파인튜닝 비용 이슈로 학습에 1,000개만 사용
# train:test = 8:2
@ 개발 환경 :
# 전처리 : colab pro(A100)
# 파인튜닝 : 런팟 A100x2 15분간 학습 (발생 비용 : 17달러)
# 모델 추론 : 런팟 A6000x1 사용
@ 데이터 전처리 :
gpt4o api를 이용해서 긍정/부정 labeling 데이터셋 만들기 -> 허깅페이스에 데이터셋 업로드 -> data 폴더에 fine-tuning 용 json 데이터 세팅 -> dataset_info.json 에 파인튜닝용 데이터 등록
# gpt4o api를 이용해서 긍정/부정 labeling 데이터셋 만들기(1,000개 데이터, 1시간 정도 소요)
# 허깅페이스에 데이터셋 업로드(https://huggingface.co/datasets/runiarang/finance_news_summarizer)
# 허깅페이스에 데이터셋이 업로드된 모습
# data 폴더에 fine-tuning 용 json 데이터 세팅
- train.json 데이터 & test.json 데이터 8:2 로 세팅
# dataset_info.json 에 파인튜닝용 데이터 등록
@ 모델 파인튜닝 : 런팟 (A100x2 RAM 70GB) 이용해서 15분간 lora 파인튜닝 학습(비용 17달러)
학습 파라미터 설정 -> 학습 실행 -> model merge하고 허깅페이스에 업로드
# 학습 파라미터 설정
# 학습 실행
# 모델 merge하고 허깅페이스에 업로드
@ 모델 추론 : 런팟 (A6000x1 RAM 50GB) 이용해서 추론.
# 허깅페이스에 업로드된 모델 불러와서 테스트 데이터 예측해보기
'LLM 파인튜닝' 카테고리의 다른 글
[한국어 데이터셋] 허깅페이스 주요 한국어 파인튜닝 데이터셋 종류 (0) | 2025.08.26 |
---|---|
[ai100-5T] [RAG 파인 튜닝] klue mrc 데이터 파인튜닝 후 RAG QA 테스트 (2) | 2025.08.25 |
[ai100-4T] [RAG 학습 데이터 생성2] no aswer 질문 데이터 만들기 (0) | 2025.08.25 |
[ai100-3T] [RAG 학습 데이터 생성1] 다수의 문서를 인용하는 질문 데이터 만들기 (0) | 2025.08.24 |
[ai100-2T] [경제 뉴스 예측 파인튜닝 모델 만들기2] 허깅페이스 trl로 경제 뉴스 llama3 파인튜닝 (3) | 2025.08.15 |