“10 minutes to pandas” 문서를 따라해보며 작성했습니다.
https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html
2022. 01. 30 최초작성
2022. 12. 06
값이 저장되어 있는 리스트를 전달하여 Series 객체를 생성합니다.
import numpy as np import pandas as pd series = pd.Series([1, 3, 5, np.nan, 6, 8]) print(series) |
왼쪽 첫번째 열이 0부터 시작하는 인덱스 열이고 두번째 열이 리스트에 저장되어 있던 값입니다.
마지막 줄에 있는 dtype은 Series 객체에 저장되어 있는 값의 데이터 타입을 의미합니다. float64는 64비트 float을 의미합니다.
2차원 리스트를 전달하여 Series 객체를 생성할 수 도 있습니다.
import numpy as np import pandas as pd series2 = pd.Series([[1, 3, 5], [np.nan, 6, 8]]) print(series2) |
1차원 리스트를 사용하여 DataFrame 객체를 생성합니다.
import pandas as pd df1 = pd.DataFrame([1, 2, 3, 4, 5]) print(df1) |
첫번째 열은 0부터 시작하는 인덱스 열이며, 두번째 열이 1차원 리스트에 저장되어 있던 값입니다.
두번째 열의 첫번째 행은 열 이름을 의미하며 디폴트로 0부터 시작하는 정수가 부여됩니다.
2차원 리스트를 사용하여 DataFrame 객체를 생성합니다.
import pandas as pd df2 = pd.DataFrame([[1, 2, 3], [4, 5, 6]]) print(df2) |
첫번째 열은 0부터 시작하는 인덱스 열이며, 2번째 열부터 4번째 열이 2차원 리스트에 저장되어 있던 값입니다.
예제코드에서 사용한 2차원 리스트는 2행 3열로 구성되어 있습니다.
2번째 열부터 4번째 열까지에 있는 첫번째 행은 열 이름을 의미하며 디폴트로 0부터 시작하는 정수가 부여됩니다.
columns 아규먼트를 사용하여 컬럼 이름을 문자열로 지정할 수 있습니다.
1차원 리스트를 사용하여 DataFrame 객체를 생성하며 열 이름으로 ‘A’ 를 지정하고 있습니다.
import pandas as pd df1 = pd.DataFrame([1, 2, 3], columns=['A']) print(df1) |
두번째 열의 첫번째 행에 열 이름으로 ‘A’가 출력됩니다.
2차원 리스트를 사용하여 DataFrame 객체를 생성하며 열 이름으로 ‘A’, ‘B’, ‘C’ 를 지정하고 있습니다.
import pandas as pd df2 = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['A', 'B', 'C']) print(df2) |
두번째 열부터 네번째 열까지 첫번째 행에 열 이름으로 ‘A’, ‘B’, ‘C’가 출력됩니다.
2차원 Numpy 배열을 전달하여 DataFrame 객체를 생성합니다. 열 이름으로 문자열을 사용하는 방법을 주의해서 보세요.
import numpy as np import pandas as pd print(list("ABCD")) df = pd.DataFrame(np.random.randn(6, 4), columns=list("ABCD")) print(df) |
DataFrame 객체의 인덱스 열로 날짜와 시간으로 구성된 타입인 Datetime을 사용할 수 있습니다.
import numpy as np import pandas as pd # 20220101부터 시작하는 6개의 윈소로 구성된 DatatimeIndex 객체를 생성합니다. dates = pd.date_range("20220101", periods=6) print(dates) print(type(dates)) # DataFrame의 인덱스로 앞에서 생성한 DatatimeIndex 객체를 사용합니다. df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD")) print(df) |
Series 객체의 인덱스 열로 날짜와 시간으로 구성된 타입인 Datetime을 사용할 수 있습니다.
import numpy as np import pandas as pd # 20220101부터 시작하는 6개의 윈소로 구성된 DatatimeIndex 객체를 생성합니다. dates = pd.date_range("20220101", periods=6) print(dates) print(type(dates)) # Series의 인덱스로 앞에서 생성한 DatetimeIndex 객체를 사용합니다. df = pd.Series(np.arange(6), index=dates) print(df) |
딕셔너리를 전달하여 DataFrame을 생성합니다. 열 별로 다른 데이터 타입을 가지고 있습니다.
import numpy as np import pandas as pd df2 = pd.DataFrame( { "A": 1.0, "B": pd.Timestamp("20130102"), "C": pd.Series(1, index=list(range(4)), dtype="float32"), "D": np.array([3] * 4, dtype="int32"), "E": pd.Categorical(["test", "train", "test", "train"]), "F": "foo", } ) print(df2) print() print(df2.dtypes) |
Pandas 강좌 1 - Pandas 객체 생성
https://webnautes.tistory.com/1957
Pandas 강좌 2 - 데이터 보는 방법
https://webnautes.tistory.com/1958
Pandas 강좌 3 - 데이터 선택하는 방법
https://webnautes.tistory.com/1959
Pandas 강좌 4 - 연산(Operations)
https://webnautes.tistory.com/1960
Pandas 강좌 5 - 연결 및 그룹핑
https://webnautes.tistory.com/1961
Pandas 강좌 6 - 시계열(Time series)
https://webnautes.tistory.com/1962
Pandas 강좌 7 - 그래프 그리기(Plotting)
https://webnautes.tistory.com/1963
Pandas 강좌 8 - Pandas에서 CSV, HDF5, Excel로 저장 및 읽기
https://webnautes.tistory.com/1964
Pandas 강좌 9 - 결측치(Missing data)
https://webnautes.tistory.com/1965
'Python > Pandas' 카테고리의 다른 글
Pandas 강좌 4 - 연산(Operations) (0) | 2023.10.12 |
---|---|
Pandas 강좌 2 - 데이터 보는 방법 (0) | 2023.10.12 |
pandas의 read_csv 함수에 사용되는 경로 문자열 앞에 r을 붙이는 이유 (0) | 2023.10.09 |
Pandas DataFrame 숫자 아닌 값을 0으로 처리하기 (0) | 2023.10.09 |
Pandas – groupby를 사용하여 특정열 기준으로 DataFrame의 데이터 그룹 나누기 (0) | 2023.10.09 |
시간날때마다 틈틈이 이것저것 해보며 블로그에 글을 남깁니다.
블로그의 문서는 종종 최신 버전으로 업데이트됩니다.
여유 시간이 날때 진행하는 거라 언제 진행될지는 알 수 없습니다.
영화,책, 생각등을 올리는 블로그도 운영하고 있습니다.
https://freewriting2024.tistory.com
제가 쓴 책도 한번 검토해보세요 ^^
그렇게 천천히 걸으면서도 그렇게 빨리 앞으로 나갈 수 있다는 건.
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!