파이토치 튜토리얼의 quickstart를 번역했습니다.2024. 10. 21 최초작성2024. 10. 26 다음 문서를 기반으로 작성되었습니다.https://pytorch.org/tutorials/beginner/basics/quickstart_tutorial.html https://pytorch.org/tutorials/beginner/basics/transforms_tutorial.html https://pytorch.org/tutorials/beginner/basics/optimization_tutorial.html 데이터와 함께 작업하기파이토치(PyTorch)에는 데이터 작업을 위한 두 가지 핵심 요소가 있습니다. torch.utils.data.DataLoader와 torch.utils.dat..
크롬 확장 프로그램을 사용하여 이미지 검색에서 이미지를 수집(다운로드)하는 방법을 다룹니다. 2024. 10. 25 최초작성 https://youtu.be/nUzA-O0ix-E
코랩을 사용해본 후기입니다. 2022. 11. 10 최초작성2024. 2. 172024. 6. 19 변경된 하드웨어 반영. 일부 사용률도 변경됨2024. 10. 5 런팟 포스트 링크 추가글 작성 시점에서(2024. 6. 18) Colab 요금제 입니다. Colab Pro를 구독하지 않고 필요할때마다 충전해서 사용하는 Pay As You Go를 사용하고 있습니다. 이 글을 처음 작성할때에는(2022. 11. 10) Colab Pro를 구독했었습니다. 코랩 프로의 경우엔 매달 9.99달러가 지불되며 컴퓨팅 단위 100개를 받습니다. 신용카드를 등록한 후, 컴퓨팅 단위 100개를 구입할 수 있습니다. 사용가능한 하드웨어 가속기 종류는 다음과 같습니다. 성능은 A100 GPU > L4 GPU > T4..
Llama 3.2 3B를 파인튜닝 해보는 과정을 다루고 있습니다. 최초작성 2024. 10. 3 1. 허깅페이스 사이트에 회원가입을 해야 합니다. https://huggingface.co/ 2. 다음 링크에 접속하여 Llama 3.2 3B 모델 접근 권한을 얻어야 합니다. https://huggingface.co/meta-llama/Llama-3.2-3B 버튼을 클릭합니다. 다음 정보를 입력하고 Submit 버튼을 클릭합니다. 이제 모델 접근을 허용한다는 메일이 오기를 기다려야 합니다. 3. 공개 모델이 아닌 경우엔 허깅페이스 액세스 토큰을 얻어야 합니다. 오른쪽 위에 있는 프로필 아이콘을 클릭 후, 메뉴에서 Settings를 선택합니다. 왼쪽 메뉴에서 Access Tokens를 선택합니다. Create..
구글 코랩을 사용하다가 비용 부담이 되어 좀 더 저렴한 런팟을 사용해본 과정을 기록했습니다. 추후 더 사용해보며 글을 업데이트할 예정입니다.2024. 9. 16 최초작성2024. 9. 16 SSH를 사용한 접속2024. 9. 17 Visual Studio Code를 사용한 접속런팟 간단히 사용해보기SSH를 사용한 접속Visual Studio Code를 사용한 접속영상이 편하신분은 유튜브 영상을 보세요. SSH를 사용한 접속과 Visual Studio Code를 사용한 접속은 포스트를 참고하셔야 합니다. https://youtu.be/usSzB7oST3M 런팟 간단히 사용해보기 1. 회원 가입을 먼저 해야 합니다. 다음 주소에 접속하여 화면 중앙에 보이는 Get started를 클릭하거나 화면 오른쪽..
XGBoost와 표준화(standardization)를 하나의 파이프라인으로 생성하여 학습을 진행하면 나중에 파이프라인으로 추론시 표준화까지 처리됩니다. 포스트에서 사용하고 있는 스케일러인 StandardScaler 외에 RobustScaler, MinMaxScaler, Normalizer, QuantileTransformer, PowerTransformer 도 테스트를 통해 사용해보세요. 데이터셋에 따라 잘 동작하는 스케일러가 다릅니다. 테스트를 통해 스케일러를 적용 전후 또는 서로다른 스케일러 적용시 Optuna의 최적 파라미터값이 같을 수 있다는 것을 확인했습니다. 하지만 모델 추론시 차이가 발견되었습니다. 주의할 점은 데이터에 따라서는 이마저도 별차이가 없는 경우도 있습니다.2024. 7. 4..
Optuna를 사용하여 XGBoost의 최적 하이퍼 파라미터 구하는 예제코드입니다.2022. 03. 12 최초작성2024. 5. 292024. 7. 4import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scorefrom xgboost import XGBClassifierimport optunafrom sklearn.datasets import load_irisRANDOM_SEED = 42# Iris 데이터셋 로드iris = load_iris()df = pd.DataFrame(data=iris.data, columns=iris.feature_names)df['la..
XGBoost에서 GPU(cuda)를 사용하기 위해 테스트한 과정을 기록해놓았습니다. 선택적으로 필요한 부분만 확인하여 활용하세요.글 작성에 사용한 XGBoost 버전은 2.0.3입니다. 최초작성 2024. 6. 13결론부터 적어보면 큰 데이터를 학습/추론할때에는 GPU를 사용시 성능이 개선되었지만 작은 데이터를 학습/추론시에는 GPU를 사용해서 성능이 개선되기는 겨녕 오히려 CPU를 사용할때보다 안좋은 성능을 보였습니다. 우분투의 경우엔 XGBoost에서 GPU 사용 테스트시 문제가 없었지만 윈도우에서는 XGBoost에서 GPU를 제대로 사용못하는 현상이 있었습니다. CUDA가 설치되어 있는 우분투와 윈도우에서 테스트를 진행했습니다. CUDA 설치 과정은 다음 포스트를 참고하세요. 포스트에선 CUD..
혼동행렬(confusion matrix)과 모델을 평가하는 방법인 특이도, 민감도, 재현율, 정확도, 정밀도를 정리했습니다. 2021. 12. 9 최초작성2022. 2. 3 2024. 3. 10 혼동행렬(confusion matrix) 내용 추가2024. 3. 112024. 3. 132024. 3. 20본 포스팅에서 다루는 모델 평가 방법을 계산하려면 우선 아래 표에 있는 TP, FP, TN, FN - 4가지에 해당되는 개수를 각각 구해야 합니다. 4가지 경우는 다음 두가지를 기준으로 합니다. Positive는 양성으로 판정을 의미, Negative는 음성으로 판정을 의미. True는 판정이 옳았음을 의미, False는 판정이 틀렸음을 의미.혼동행렬에서 표시하는 다음 구조에 맞도록 표를 ..
RandomizedSearchCV를 사용하여 XGBoost의 최적 하이퍼 파라미터 구하는 예제코드입니다.최초작성 2024. 5. 30 import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_split, RandomizedSearchCVfrom sklearn.metrics import accuracy_scorefrom xgboost import XGBClassifierfrom sklearn.datasets import load_irisRANDOM_SEED=42# Iris 데이터셋 로드iris = load_iris()df = pd.DataFrame(data=iris.data, columns=iris.feature..