언어/파이썬

머신러닝with파이썬3강(4)_내장함수

디지털랫드 2024. 3. 5. 12:30
 

내장함수


이번 시간에는 다 다루지 못한 내장 함수에 대해 코드와 상세 설명으로 정리를 해 보도록 하겠습니다.

이번 시간 정리


1. 컬럼 기준 데이터의 숫자 세기
-결측치가 있는 데이터는 카운터 함수에서는 체크 되지 않는다.
-df.count()

예 : 할인율 컬럼을 기준으로 행단위로 카운트를 진행할때 NaN의 결측치 1개를 제외하여 count 값은 8이다.
예 : 할인가 컬럼을 기준으로 행단위로 카운트를 진행할때 NaN의 결측치 1개를 제외하여 count 값은 8이다.

2. 행을 기준으로 데이터 숫자 세기
-df.count(axis=1)

예: 인덱스 1 행을 열단위로 카운트를 진행할때 NaN의 결측치 1개를 제외하여 count 값은 7이다.
예: 인덱스 8 행을 열단위로 카운트를 진행할때 NaN의 결측치 2개를 제외하여 count 값은 5이다.

3. 데이터수 확인 (type)
-len(df)
-df.shape[0] *행의 개수, 또는 열의 개수만 찾을 때는 대괄호[ ] 사용


이제 아래의 코드 실행 버튼을 눌러 실습을 진행해 보세요!

 
실행 완료
[48]:
Unnamed: 0메뉴가격호수칼로리할인율할인가원산지752341608
new [인기]아이펠치킨 16000 11 1200.0 0.5 8000.0 국내산
5 닭강정 15000 12 1500.0 0.2 12000.0 브라질
2 간장치킨 14000 9 1600.0 0.2 11200.0 국내산
3 마늘치킨 14000 9 1800.0 0.2 11200.0 국내산
4 파닭 14000 11 1300.0 0.2 11200.0 브라질
1 승일양념치킨 13000 10 1400.0 0.2 10400.0 국내산
6 양념반후라이드반 13000 10 1300.0 0.2 10400.0 국내산
0 황금후라이드 12000 10 1000.0 0.2 9600.0 국내산
10 [베스트]풀잎치킨 9900 10 1000.0 NaN NaN 국내산
실행 완료
[47]:
Unnamed: 0    9
메뉴            9
가격            9
호수            9
칼로리           9
할인율           8
할인가           8
원산지           9
dtype: int64
 
 
실행 완료
[46]:
7    8
5    8
2    8
3    8
4    8
1    8
6    8
0    8
8    6
dtype: int64
 
실행 완료
[45]:
9

이번 시간 정리


4. 다양한 내장함수

  • 최대값 확인: df['컬럼명'].max()
  • 최소값 확인: df['컬럼명'].min()
  • 평균 확인 : df['컬럼명'].mean()
  • 중앙 값 확인 : df['컬럼명'].median()
  • 합계 확인 : df['컬럼명'].sum()
  • 표준편차 확인 : df['컬럼명'].std()
  • 분산 확인 : df['컬럼명'].var()
  • 백분위수 확인 : df['가격'].describe()
    describe : 데이터 컬럼별 통계량을 요약하는 메서드

이제 아래의 코드 실행 버튼을 눌러 실습을 진행해 보세요!

실행 완료
[49]:
16000
 
실행 완료
[50]:
9900
 
실행 완료
[51]:
13433.333333333334
실행 완료
[52]:
14000.0
실행 완료
[53]:
120900
실행 완료
[54]:
1764.936259472279
실행 완료
[56]:
3115000.0
실행 완료
[55]:
count        9.000000
mean     13433.333333
std       1764.936259
min       9900.000000
25%      13000.000000
50%      14000.000000
75%      14000.000000
max      16000.000000
Name: 가격, dtype: float64

이번 시간 정리


5. 하위 25% 지점 확인

  • df['컬럼명'].quantile(.25) 0.25에서 .25만 써도 되고, 0은 생략 가능
  • 판다스의 quantile는 0과 1사이의 값을 입력한다.
  • quantile(사분위수)는 데이터 분포의 작은 수부터 큰수로 나열하여 4등분하는 관측값이다.

6. 상위 25% 지점 확인

  • 상위 max 기준으로 25%인 75% 지점인 14000.0를 입력한다.
  • df['컬럼명'].quantile(.75)

7. 하위 25% 작은 데이터 확인

  • cond = df['컬럼명'].quantile(.25) > df['컬럼명']
  • df[cond]

8. 상위 25% 큰 데이터 확인

  • cond = df['컬럼명'].quantile(.75) < df['컬럼명']
  • df[cond]

9. 특정 컬럼 최빈값 구하기

  • df['컬럼명'].mode()[0]
    *첫번째 값 0

10.행과 열 바꾸기 (transpose)

  • df.T

이제 아래의 코드 실행 버튼을 눌러 실습을 진행해 보세요!

 
실행 완료
[57]:
13000.0
 
실행 완료
[58]:
14000.0
 
실행 완료
[59]:
Unnamed: 0메뉴가격호수칼로리할인율할인가원산지08
0 황금후라이드 12000 10 1000.0 0.2 9600.0 국내산
10 [베스트]풀잎치킨 9900 10 1000.0 NaN NaN 국내산
 
 
실행 완료
[60]:
Unnamed: 0메뉴가격호수칼로리할인율할인가원산지75
new [인기]아이펠치킨 16000 11 1200.0 0.5 8000.0 국내산
5 닭강정 15000 12 1500.0 0.2 12000.0 브라질
 
 
실행 완료
[61]:
'국내산'
 
실행 완료
[62]:
752341608Unnamed: 0메뉴가격호수칼로리할인율할인가원산지
new 5 2 3 4 1 6 0 10
[인기]아이펠치킨 닭강정 간장치킨 마늘치킨 파닭 승일양념치킨 양념반후라이드반 황금후라이드 [베스트]풀잎치킨
16000 15000 14000 14000 14000 13000 13000 12000 9900
11 12 9 9 11 10 10 10 10
1200.0 1500.0 1600.0 1800.0 1300.0 1400.0 1300.0 1000.0 1000.0
0.5 0.2 0.2 0.2 0.2 0.2 0.2 0.2 NaN
8000.0 12000.0 11200.0 11200.0 11200.0 10400.0 10400.0 9600.0 NaN
국내산 브라질 국내산 국내산 브라질 국내산 국내산 국내산 국내산