csv 파일을 일정 크기로 나누어 여러 파일로 분리하는 파이썬 예제 코드입니다.
최초작성 2023. 9. 28
다음 링크에 있는 iris 데이터셋을 가지고 진행했습니다.
https://www.kaggle.com/datasets/arshid/iris-flower-dataset/
전체 소스코드입니다.
import pandas as pd import numpy as np file = 'IRIS.csv' filename = file.split('.')[0] df = pd.read_csv(file) print(df.shape) print() print(df.head()) print() n = 50 for idx,(_, sub_df) in enumerate(df.groupby(np.arange(len(df)) // n)): print('save to csv', sub_df.shape) print() sub_df.to_csv(filename+str(idx) + ".csv", index=False) print("-" * 50) # 구분선 |
실행결과입니다.
(150, 5) # iris 데이터셋은 데이터 150개가 5개의 컬럼으로 구성되어 있는 데이터셋입니다.
# 다음처럼 5개의 특성으로 구성되어 있습니다.
sepal_length sepal_width petal_length petal_width species
0 5.1 3.5 1.4 0.2 Iris-setosa
1 4.9 3.0 1.4 0.2 Iris-setosa
2 4.7 3.2 1.3 0.2 Iris-setosa
3 4.6 3.1 1.5 0.2 Iris-setosa
4 5.0 3.6 1.4 0.2 Iris-setosa
# 50개씩 나누어 csv 파일로 저장합니다.
save to csv (50, 5)
--------------------------------------------------
save to csv (50, 5)
--------------------------------------------------
save to csv (50, 5)
--------------------------------------------------
실행결과 다음처럼 3개의 파일이 생성됩니다.
파일을 확인해보면 3가지 클래스가 50개씩 저장됩니다. 스크린샷에는 일부만 보입니다.
'Python > Python 예제 코드' 카테고리의 다른 글
파이썬에서 실행중인 프로세스 pid와 이름 출력하기 (0) | 2023.10.10 |
---|---|
Python에서 Ctrl+C 감지하기 (0) | 2023.10.08 |
리스트를 정해진 개수로 분할하여 딕셔너리에 저장하는 Python 예제 (0) | 2023.01.21 |
Python에서 getch 함수 사용하기 (0) | 2022.12.14 |
logging을 사용하여 stdout, stderr을 파일에 저장하는 Python 예제 (0) | 2022.11.14 |
시간날때마다 틈틈이 이것저것 해보며 블로그에 글을 남깁니다.
블로그의 문서는 종종 최신 버전으로 업데이트됩니다.
여유 시간이 날때 진행하는 거라 언제 진행될지는 알 수 없습니다.
영화,책, 생각등을 올리는 블로그도 운영하고 있습니다.
https://freewriting2024.tistory.com
제가 쓴 책도 한번 검토해보세요 ^^
그렇게 천천히 걸으면서도 그렇게 빨리 앞으로 나갈 수 있다는 건.
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!