IT

Hugging Face의 transformers

esmile1 2024. 11. 11. 13:27

 

Mac Mini에서 Hugging Face의 transformers 라이브러리를 사용하고 설정하는 방법을 안내하기 위해, 30단계로 구성된 종합적인 DIY 가이드를 검색요약 하였습니다.

 

1–10단계: 환경 설정 및 설치

 

  • Python 설치: Python 3.8 이상이 설치되어 있는지 확인하세요. python3 --version을 실행해 확인하고, 설치되지 않았다면 Homebrew로 brew install python을 사용하세요.
  • Homebrew 설치: 설치되지 않았다면 /bin/bash -c "$(curl -fsSL <https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh>)"를 실행하세요.
  • Git 설치: git --version으로 Git이 설치되었는지 확인하고, 필요시 brew install git을 실행하세요.
  • 가상 환경 설정: python3 -m venv env로 가상 환경을 만들고 source env/bin/activate로 활성화하세요.
  • pip 업그레이드: pip install --upgrade pip을 실행해 최신 버전으로 업데이트하세요.
  • transformers 라이브러리 설치: pip install transformers로 Hugging Face의 라이브러리를 설치하세요.
  • PyTorch 설치: Mac Mini 버전에 따라 pip install torch로 설치하거나 PyTorch 웹사이트의 지침을 따르세요.
  • GPU 지원 옵션: M1/M2 칩을 사용하는 경우 성능 향상을 위해 Metal Performance Shaders를 탐색해보세요.
  • datasets 라이브러리 설치: pip install datasets를 실행해 데이터셋을 쉽게 로드하세요.
  • 설치 확인: python -c "import transformers; print(transformers.__version__)"으로 설치를 확인하세요.

 

11–20단계: 기본 사용법 및 모델 로드

 

  • 필수 라이브러리 임포트:
  • from transformers import pipeline, AutoModelForSequenceClassification, AutoTokenizer
  • 사전 학습된 모델 로드:
  • classifier = pipeline("sentiment-analysis")
  • 간단한 추론 실행:
  • result = classifier("Hugging Face is amazing!") print(result)
  • 커스텀 모델 로드:
  • model_name = "bert-base-uncased" model = AutoModelForSequenceClassification.from_pretrained(model_name) tokenizer = AutoTokenizer.from_pretrained(model_name)
  • 입력 데이터 토크나이즈:
  • inputs = tokenizer("Hugging Face transforms the AI landscape!", return_tensors="pt")
  • 모델 추론 실행:
  • outputs = model(**inputs) print(outputs.logits)
  • 특정 작업 파이프라인 사용:
  • summarizer = pipeline("summarization") summary = summarizer("Long text here...", max_length=130, min_length=30, do_sample=False) print(summary)
  • 추론 설정 커스터마이즈: batch_size, top_k 등의 설정을 조정하여 효율성을 높이세요.
  • 데이터셋 사용:
  • from datasets import load_dataset dataset = load_dataset("imdb")
  • 훈련 데이터 처리:
  • train_texts = dataset['train']['text'] train_labels = dataset['train']['label']

 

21–30단계: 고급 모델 커스터마이징 및 사용법

 

  • 사전 학습된 모델 미세 조정: Hugging Face의 Trainer API로 맞춤 훈련을 진행하세요.
  • from transformers import Trainer, TrainingArguments training_args = TrainingArguments("test_trainer")
  • 데이터 보정기 설정:
  • from transformers import DataCollatorWithPadding data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
  • 훈련 데이터 준비:
  • def tokenize_function(examples): return tokenizer(examples["text"], padding="max_length", truncation=True) tokenized_datasets = dataset.map(tokenize_function, batched=True)
  • 모델 구성 정의:
  • from transformers import AutoConfig config = AutoConfig.from_pretrained(model_name, num_labels=2)
  • Trainer 초기화:
  • trainer = Trainer( model=model, args=training_args, train_dataset=tokenized_datasets['train'], eval_dataset=tokenized_datasets['test'], tokenizer=tokenizer, data_collator=data_collator )
  • 모델 훈련:
  • trainer.train()
  • 모델 평가:
  • eval_results = trainer.evaluate() print(f"Evaluation results: {eval_results}")
  • 모델 저장:
  • model.save_pretrained("my_fine_tuned_model") tokenizer.save_pretrained("my_fine_tuned_model")
  • 커스텀 모델 로드 및 추론:
  • custom_model = AutoModelForSequenceClassification.from_pretrained("my_fine_tuned_model") custom_pipeline = pipeline("sentiment-analysis", model=custom_model, tokenizer=tokenizer)
  • 실제 데이터 테스트:
  • test_result = custom_pipeline("This is a great test!") print(test_result)

 

이 30단계 가이드를 통해 Mac Mini에서 Hugging Face의 transformers 라이브러리를 설치하고 다양한 NLP 모델을 효과적으로 사용할 수 있습니다.

 

'IT' 카테고리의 다른 글

GenSpark Autopilot Agent  (3) 2024.11.11
GitHub 모델 단계별 사용방법  (4) 2024.11.11
Imagen 3  (1) 2024.11.11
NotebookLM 사용 10단계  (2) 2024.11.11
NotebookLM과 Microsoft Copilot  (2) 2024.11.11