반응형

“10 minutes to pandas” 문서를 따라해보며 작성했습니다.

https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html

 

2022. 01. 30  최초작성

2022. 12. 06



값이 저장되어 있는 리스트를 전달하여 Series 객체를 생성합니다.  

import numpy as np
import pandas as pd


series = pd.Series([1, 3, 5, np.nan, 6, 8])

print(series)

 

왼쪽 첫번째 열이 0부터 시작하는 인덱스 열이고 두번째 열이 리스트에 저장되어 있던 값입니다.  

마지막 줄에 있는 dtype은 Series 객체에 저장되어 있는 값의  데이터 타입을 의미합니다. float64는 64비트 float을 의미합니다.  

 

2차원 리스트를 전달하여 Series 객체를 생성할 수 도 있습니다. 

import numpy as np
import pandas as pd


series2 = pd.Series([[1, 3, 5], [np.nan, 6, 8]])

print(series2)

 

 

1차원 리스트를 사용하여 DataFrame 객체를 생성합니다.

import pandas as pd


df1 = pd.DataFrame([1, 2, 3, 4, 5])
print(df1)

 

첫번째 열은 0부터 시작하는 인덱스 열이며, 두번째 열이 1차원 리스트에 저장되어 있던 값입니다. 

두번째 열의 첫번째 행은 열 이름을 의미하며 디폴트로 0부터 시작하는 정수가 부여됩니다. 

 

2차원 리스트를 사용하여 DataFrame 객체를 생성합니다.

import pandas as pd

df2 = pd.DataFrame([[1, 2, 3], [4, 5, 6]])
print(df2)

 

첫번째 열은 0부터 시작하는 인덱스 열이며, 2번째 열부터 4번째 열이 2차원 리스트에 저장되어 있던 값입니다. 

예제코드에서 사용한 2차원 리스트는  2행 3열로 구성되어 있습니다.  

2번째 열부터 4번째 열까지에 있는 첫번째 행은 열 이름을 의미하며 디폴트로 0부터 시작하는 정수가 부여됩니다. 

 

columns 아규먼트를 사용하여 컬럼 이름을 문자열로 지정할 수 있습니다.

1차원 리스트를 사용하여 DataFrame 객체를 생성하며 열 이름으로 ‘A’ 를 지정하고 있습니다. 

import pandas as pd


df1 = pd.DataFrame([1, 2, 3], columns=['A'])
print(df1)

 

두번째 열의 첫번째 행에 열 이름으로 ‘A’가 출력됩니다. 

 

2차원 리스트를 사용하여 DataFrame 객체를 생성하며 열 이름으로 ‘A’, ‘B’, ‘C’  를 지정하고 있습니다. 

import pandas as pd


df2 = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['A', 'B', 'C'])
print(df2)

 

두번째 열부터 네번째 열까지 첫번째 행에 열 이름으로 ‘A’, ‘B’, ‘C’가 출력됩니다. 

 

2차원 Numpy 배열을 전달하여 DataFrame 객체를 생성합니다. 열 이름으로 문자열을 사용하는 방법을 주의해서 보세요.  

import numpy as np
import pandas as pd

print(list("ABCD"))

df = pd.DataFrame(np.random.randn(6, 4), columns=list("ABCD"))

print(df)

 

 

DataFrame 객체의 인덱스 열로 날짜와 시간으로 구성된 타입인 Datetime을 사용할 수 있습니다.

import numpy as np
import pandas as pd


# 20220101부터 시작하는 6개의 윈소로 구성된 DatatimeIndex 객체를 생성합니다.
dates = pd.date_range("20220101", periods=6)
print(dates)
print(type(dates))


# DataFrame의 인덱스로 앞에서 생성한 DatatimeIndex 객체를 사용합니다.
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
print(df)

 



Series 객체의 인덱스 열로 날짜와 시간으로 구성된 타입인 Datetime을 사용할 수 있습니다.

import numpy as np
import pandas as pd


# 20220101부터 시작하는 6개의 윈소로 구성된 DatatimeIndex 객체를 생성합니다.
dates = pd.date_range("20220101", periods=6)
print(dates)
print(type(dates))


# Series의 인덱스로 앞에서 생성한 DatetimeIndex 객체를 사용합니다.
df = pd.Series(np.arange(6), index=dates)
print(df)

 



딕셔너리를 전달하여 DataFrame을 생성합니다. 열 별로 다른 데이터 타입을 가지고 있습니다. 

import numpy as np
import pandas as pd


df2 = pd.DataFrame(
    {
        "A": 1.0,
        "B": pd.Timestamp("20130102"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([3] * 4, dtype="int32"),
        "E": pd.Categorical(["test", "train", "test", "train"]),
        "F": "foo",
    }
)


print(df2)

print()

print(df2.dtypes)

 




Pandas 강좌 1 - Pandas 객체 생성

https://webnautes.tistory.com/1957

 

Pandas 강좌 2 - 데이터 보는 방법

https://webnautes.tistory.com/1958

 

Pandas 강좌 3 - 데이터 선택하는 방법

https://webnautes.tistory.com/1959

 

Pandas 강좌 4 - 연산(Operations)

https://webnautes.tistory.com/1960

 

Pandas 강좌 5 - 연결 및 그룹핑

https://webnautes.tistory.com/1961

 

Pandas 강좌 6 - 시계열(Time series)

https://webnautes.tistory.com/1962

 

Pandas 강좌 7 - 그래프 그리기(Plotting)

https://webnautes.tistory.com/1963

 

Pandas 강좌 8 - Pandas에서 CSV, HDF5, Excel로 저장 및 읽기

https://webnautes.tistory.com/1964

 

Pandas 강좌 9 - 결측치(Missing data)

https://webnautes.tistory.com/1965




반응형

문제 발생시 지나치지 마시고 댓글 남겨주시면 가능한 빨리 답장드립니다.

도움이 되셨다면 토스아이디로 후원해주세요.
https://toss.me/momo2024


제가 쓴 책도 한번 검토해보세요 ^^

+ Recent posts