반응형
Python/Pandas2023. 10. 9. 11:06pandas의 read_csv 함수에 사용되는 경로 문자열 앞에 r을 붙이는 이유

pandas의 read_csv 함수에 사용되는 경로 문자열 앞에 r을 붙이는 이유를 다룹니다. 2022. 12. 5 최초작성 read_csv 함수에 경로 문자열을 추가시 디렉토리 구분자로 \를 사용할 경우에 문제가 생길 수 있습니다. 디렉토리 이름이 n으로 시작하면 \n이 이스케이프 문자로 인식되어 문제가 되어 다음처럼 에러가 발생합니다. import pandas as pd df = pd.read_csv('.\new\test.csv') Traceback (most recent call last): File "d:\code\Python\pandas_read_csv.py", line 4, in df = pd.read_csv('.\new\test.csv') File "C:\Users\webnautes\mini..

Python/Pandas2023. 10. 7. 06:36Pandas의 read_csv 함수 느린 속도 개선하기

Pandas의 read_csv 함수의 느린 속도를 개선하는 방법을 다룹니다. 2022. 03. 11 최초작성 csv 파일을 하나 읽어서 작업할 때에는 Pandas의 read_csv 함수가 느리다는 것을 알지 못했는데 대량의 csv 파일을(정확히는 196,032개) 로드해보니 느리다는 것을 알 수 있었습니다. 개선할 방법을 찾아보니 read_csv의 engine 아규먼트에 pyarrow를 지정하는 방법이 있었습니다. 앞에서 했던 196,032개의 csv 파일을 로드하는 시간이 3분에 1로 감소했습니다. df = pd.read_csv("large.csv", engine="pyarrow") 속도는 빨라지지만 단점이 있다면 기존 read_csv와 완벽히 호환이 안되서 nrows 같은 아규먼트를 사용할 수 없습니..

Python/Python 예제 코드2021. 10. 4. 17:45Python - CSV 파일을 순서 유지한채 무작위로 샘플링하여 두 개의 CSV 파일로 분할하기

CSV 파일을 읽어 순서 유지한채 무작위 샘플링하여 2개의 CSV 파일로 저장하는 예제입니다. Pandas를 사용하여 구현하였습니다. 테스트에 사용한 CSV 파일입니다. 주의할점은 csv 파일에 필드를 설명하는 헤더가 꼭 있어야 합니다. 여기에선 typeA, typeB입니다. typeA, typeB AA1,BB1 AA2,BB2 AA3,BB3 AA4,BB4 AA5,BB5 AA6,BB6 AA7,BB7 AA8,BB8 AA9,BB9 AA10,BB10 AA11,BB11 AA12,BB12 AA13,BB13 AA14,BB14 AA15,BB15 AA16,BB16 AA17,BB17 AA18,BB18 AA19,BB19 AA20,BB20 AA21,BB21 AA22,BB22 AA23,BB23 AA24,BB24 AA25,BB2..

반응형
image