용사냥꾼69

파이썬 pandas 데이터 프레임으로 데이터 불러오기 본문

파이썬/파이썬-AI 기본

파이썬 pandas 데이터 프레임으로 데이터 불러오기

용사냥꾼69 2023. 2. 14. 19:46
728x90

read_csv()로 데이터 불러오기


import pandas as pd
df = pd.read_csv('불러올 데이터셋.csv')

read_csv()의 매개인자로는 https와 같은 URL을 보낼 수도 있다.

CSV는 Comma Separated Value의 약자로 ,(콤마) 로 분리된 데이터를 말한다.

17;60;0.998;3.16;0.58 와 같이 만약 데이터가 ' ; ' 으로 분리되어 있을 경우

df = pd.read_csv('불러올 데이터셋.csv', sep=';')

sep=';' 를 추가해주면 된다.

sep의 경우엔 정규 표현식이 적용되며 다양하게 활용될 수 있다.

read_excel()으로 엑셀 데이터 불러오기

read_excel(filename,
    sheet_name = '서울',
    header = None,
    names = ['일시','평균','최저','최고'],
    index_col = None, 
    usecols = "C:F",
    dtype = {'일시':str, '평균':float, '최저':float, '최고':float},
    skiprows = 32,
    nrows = 28,
    na_values = 'nan',
    thousands = ',')
  • sheet_name: 기본값 0. 시트의 인덱스 번호(int) 또는 시트의 이름(문자열)이 들어감. 리스트 값을 넣을 수 있음. None 설정 시 모든 시트 선택

  • header: 어느 행(row)에 열(column)의 이름이 있는지 지정. 기본 값은 0으로 첫 번째 줄. None 설정 시 헤더가 없는 것으로 설정되어 첫 번째 줄부터 바로 데이터로 받아옴

  • names: header가 None일 경우 열(column)의 이름을 지정해줌

  • index_col: 각 행(row)의 이름이 위치한 열(column)을 지정. 기본값은 None

  • usecols: 기본값은 None으로 모든 열을 다 불러옴. “A:E”, “A,C,F:H” 와 같이 원하는 열을 선택해 불러올 수 있음

  • dtype: 각 열의 데이터 타입을 지정 가능

  • skiprows: 엑셀을 읽을 때 첫줄(0)으로 부터 몇 줄을 건너뛸 지 지정

  • nrow: 몇 줄을 읽을 지 지정

  • na_values: 값이 없는 경우 어떤 str 등으로 넣을 지 지정

  • thousands: 돈과 같이 천단위로 쉼표(,)로 구분된 문자를 변환하기 위해 천단위의 구분자가 무엇인지 지정


# python 3.9
import pandas as pd

# 읽어올 엑셀 파일 지정
filename = 'testdata.xlsx'

# 엑셀 파일 읽어 오기
df = pd.read_excel(filename, engine='openpyxl')

print(df)
Comments