[ai100-1T] [경제 뉴스 예측 파인튜닝 모델 만들기1] 라마팩토리로 경제 뉴스 llama3 파인튜닝

2025. 8. 13. 20:57

#llama3 # multi GPU #lora finetuning #huggingface #runpod #economic news #labeling with gpt4o

#라마팩토리

<목차>

@ 상황 설명 : 경제 뉴스를 기반으로 llama3 파인튜닝해서 뉴스를 넣었을 때 주식에 긍정/부정 판단하는 모델이 필요하다.

@ 데이터 수집 : 허깅페이스 "dekeun-ml/naver-news-summarization-ko"

@ 개발 환경 : 파인튜닝 : 런팟 A100x2 / 모델 추론 : 런팟 A6000x1

@ 데이터 전처리 : gpt4o api를 이용해서 긍정/부정 labeling 데이터셋 만들기 -> 허깅페이스에 데이터셋 업로드 -> data 폴더에 fine-tuning 용 json 데이터 세팅 -> dataset_info.json 에 파인튜닝용 데이터 등록

@ 모델 파인튜닝 : 런팟 (A100x2 RAM 70GB) 이용해서 15분간 lora 파인튜닝 학습(비용 17달러)

학습 파라미터 설정 -> 학습 실행 -> model merge하고 허깅페이스에 업로드

@ 모델 추론 : 런팟 (A6000x1 RAM 50GB) 이용해서 추론.

@ 결과 및 의의 :

- 짧은 시간과 저렴한 비용으로 (15분, 약 17 USD) Llama-3 기반의 뉴스 감성 예측 모델을 성공적으로 훈련 및 배포함

- GPT-4o를 통한 자동 라벨링과 Runpod 환경을 활용한 효율적인 작업 파이프라인 구성

요약하자면, 이 프로젝트는 경량 파인튜닝(light-weight fine-tuning)을 통해 짧은 시간, 적은 비용, 효율적인 라벨링으로 감성 예측 모델을 성공적으로 구축했다는 점에서 의미가 큽니다. 특히 실시간 뉴스 해석이나 자동화된 투자 분석 등 현업 적용 가능성이 높다는 점도 주목할 만합니다.

----------------------------------------------------------------------------------------------------------------------------------------------------------------

@ 상황 설명 :

경제 뉴스를 기반으로 llama3 파인튜닝해서 뉴스를 넣었을 때 주식에 긍정/부정 판단하는 모델이 필요하다.

@ 데이터 수집 :

# 허깅페이스 "dekeun-ml/naver-news-summarization-ko" (27,400 rows, 81.9 MB)

# 파인튜닝 비용 이슈로 학습에 1,000개만 사용

# train:test = 8:2

@ 개발 환경 :

# 전처리 : colab pro(A100)

# 파인튜닝 : 런팟 A100x2 15분간 학습 (발생 비용 : 17달러)

# 모델 추론 : 런팟 A6000x1 사용

@ 데이터 전처리 :

gpt4o api를 이용해서 긍정/부정 labeling 데이터셋 만들기 -> 허깅페이스에 데이터셋 업로드 -> data 폴더에 fine-tuning 용 json 데이터 세팅 -> dataset_info.json 에 파인튜닝용 데이터 등록

# gpt4o api를 이용해서 긍정/부정 labeling 데이터셋 만들기(1,000개 데이터, 1시간 정도 소요)

# 허깅페이스에 데이터셋 업로드(https://huggingface.co/datasets/runiarang/finance_news_summarizer)

# 허깅페이스에 데이터셋이 업로드된 모습

# data 폴더에 fine-tuning 용 json 데이터 세팅

- train.json 데이터 & test.json 데이터 8:2 로 세팅

# dataset_info.json 에 파인튜닝용 데이터 등록

@ 모델 파인튜닝 : 런팟 (A100x2 RAM 70GB) 이용해서 15분간 lora 파인튜닝 학습(비용 17달러)

학습 파라미터 설정 -> 학습 실행 -> model merge하고 허깅페이스에 업로드

# 학습 파라미터 설정

# 학습 실행

# 모델 merge하고 허깅페이스에 업로드

@ 모델 추론 : 런팟 (A6000x1 RAM 50GB) 이용해서 추론.

# 허깅페이스에 업로드된 모델 불러와서 테스트 데이터 예측해보기

'LLM 파인튜닝' 카테고리의 다른 글

[한국어 데이터셋] 허깅페이스 주요 한국어 파인튜닝 데이터셋 종류 (0)	2025.08.26
[ai100-5T] [RAG 파인 튜닝] klue mrc 데이터 파인튜닝 후 RAG QA 테스트 (2)	2025.08.25
[ai100-4T] [RAG 학습 데이터 생성2] no aswer 질문 데이터 만들기 (0)	2025.08.25
[ai100-3T] [RAG 학습 데이터 생성1] 다수의 문서를 인용하는 질문 데이터 만들기 (0)	2025.08.24
[ai100-2T] [경제 뉴스 예측 파인튜닝 모델 만들기2] 허깅페이스 trl로 경제 뉴스 llama3 파인튜닝 (3)	2025.08.15

datart