반응형

“10 minutes to pandas” 문서를 따라해보며 작성했습니다.

https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html

 

2022. 01. 30  최초작성

2022. 12. 06



값이 저장되어 있는 리스트를 전달하여 Series 객체를 생성합니다.  

import numpy as np
import pandas as pd


series = pd.Series([1, 3, 5, np.nan, 6, 8])

print(series)

 

왼쪽 첫번째 열이 0부터 시작하는 인덱스 열이고 두번째 열이 리스트에 저장되어 있던 값입니다.  

마지막 줄에 있는 dtype은 Series 객체에 저장되어 있는 값의  데이터 타입을 의미합니다. float64는 64비트 float을 의미합니다.  

 

2차원 리스트를 전달하여 Series 객체를 생성할 수 도 있습니다. 

import numpy as np
import pandas as pd


series2 = pd.Series([[1, 3, 5], [np.nan, 6, 8]])

print(series2)

 

 

1차원 리스트를 사용하여 DataFrame 객체를 생성합니다.

import pandas as pd


df1 = pd.DataFrame([1, 2, 3, 4, 5])
print(df1)

 

첫번째 열은 0부터 시작하는 인덱스 열이며, 두번째 열이 1차원 리스트에 저장되어 있던 값입니다. 

두번째 열의 첫번째 행은 열 이름을 의미하며 디폴트로 0부터 시작하는 정수가 부여됩니다. 

 

2차원 리스트를 사용하여 DataFrame 객체를 생성합니다.

import pandas as pd

df2 = pd.DataFrame([[1, 2, 3], [4, 5, 6]])
print(df2)

 

첫번째 열은 0부터 시작하는 인덱스 열이며, 2번째 열부터 4번째 열이 2차원 리스트에 저장되어 있던 값입니다. 

예제코드에서 사용한 2차원 리스트는  2행 3열로 구성되어 있습니다.  

2번째 열부터 4번째 열까지에 있는 첫번째 행은 열 이름을 의미하며 디폴트로 0부터 시작하는 정수가 부여됩니다. 

 

columns 아규먼트를 사용하여 컬럼 이름을 문자열로 지정할 수 있습니다.

1차원 리스트를 사용하여 DataFrame 객체를 생성하며 열 이름으로 ‘A’ 를 지정하고 있습니다. 

import pandas as pd


df1 = pd.DataFrame([1, 2, 3], columns=['A'])
print(df1)

 

두번째 열의 첫번째 행에 열 이름으로 ‘A’가 출력됩니다. 

 

2차원 리스트를 사용하여 DataFrame 객체를 생성하며 열 이름으로 ‘A’, ‘B’, ‘C’  를 지정하고 있습니다. 

import pandas as pd


df2 = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['A', 'B', 'C'])
print(df2)

 

두번째 열부터 네번째 열까지 첫번째 행에 열 이름으로 ‘A’, ‘B’, ‘C’가 출력됩니다. 

 

2차원 Numpy 배열을 전달하여 DataFrame 객체를 생성합니다. 열 이름으로 문자열을 사용하는 방법을 주의해서 보세요.  

import numpy as np
import pandas as pd

print(list("ABCD"))

df = pd.DataFrame(np.random.randn(6, 4), columns=list("ABCD"))

print(df)

 

 

DataFrame 객체의 인덱스 열로 날짜와 시간으로 구성된 타입인 Datetime을 사용할 수 있습니다.

import numpy as np
import pandas as pd


# 20220101부터 시작하는 6개의 윈소로 구성된 DatatimeIndex 객체를 생성합니다.
dates = pd.date_range("20220101", periods=6)
print(dates)
print(type(dates))


# DataFrame의 인덱스로 앞에서 생성한 DatatimeIndex 객체를 사용합니다.
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
print(df)

 



Series 객체의 인덱스 열로 날짜와 시간으로 구성된 타입인 Datetime을 사용할 수 있습니다.

import numpy as np
import pandas as pd


# 20220101부터 시작하는 6개의 윈소로 구성된 DatatimeIndex 객체를 생성합니다.
dates = pd.date_range("20220101", periods=6)
print(dates)
print(type(dates))


# Series의 인덱스로 앞에서 생성한 DatetimeIndex 객체를 사용합니다.
df = pd.Series(np.arange(6), index=dates)
print(df)

 



딕셔너리를 전달하여 DataFrame을 생성합니다. 열 별로 다른 데이터 타입을 가지고 있습니다. 

import numpy as np
import pandas as pd


df2 = pd.DataFrame(
    {
        "A": 1.0,
        "B": pd.Timestamp("20130102"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([3] * 4, dtype="int32"),
        "E": pd.Categorical(["test", "train", "test", "train"]),
        "F": "foo",
    }
)


print(df2)

print()

print(df2.dtypes)

 



Pandas 강좌 1 - Pandas 객체 생성

https://webnautes.tistory.com/1629

 

Pandas 강좌 2 - 데이터 보는 방법

https://webnautes.tistory.com/1630

 

Pandas 강좌 3 - 데이터 선택하는 방법

https://webnautes.tistory.com/1631

 

Pandas 강좌 4 - 연산(Operations)

https://webnautes.tistory.com/1632

 

Pandas 강좌 5 - 연결 및 그룹핑

https://webnautes.tistory.com/1633

 

Pandas 강좌 6 - 시계열(Time series)

https://webnautes.tistory.com/1634

 

Pandas 강좌 7 - 그래프 그리기(Plotting)

https://webnautes.tistory.com/1635

 

Pandas 강좌 8 - Pandas에서 CSV, HDF5, Excel로 저장 및 읽기

https://webnautes.tistory.com/1636

 

Pandas 강좌 9 - 결측치(Missing data)

https://webnautes.tistory.com/1637

 

반응형

진행해본 결과물을 기록 및 공유하는 공간입니다.
잘못된 부분이나 개선점을 알려주시면 반영하겠습니다.


소스코드 복사시 하단에 있는 앵커 광고의 왼쪽 위를 클릭하여 닫은 후 해야 합니다.


문제가 생기면 포스트와 바뀐 환경이 있나 먼저 확인해보세요.
질문을 남겨주면 가능한 빨리 답변드립니다.


제가 쓴 책도 한번 검토해보세요 ^^

  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기

댓글을 달아 주세요

TistoryWhaleSkin3.4">