내장함수
이번 시간에는 다 다루지 못한 내장 함수에 대해 코드와 상세 설명으로 정리를 해 보도록 하겠습니다.
이번 시간 정리
1. 컬럼 기준 데이터의 숫자 세기
-결측치가 있는 데이터는 카운터 함수에서는 체크 되지 않는다.
-df.count()
예 : 할인율 컬럼을 기준으로 행단위로 카운트를 진행할때 NaN의 결측치 1개를 제외하여 count 값은 8이다.
예 : 할인가 컬럼을 기준으로 행단위로 카운트를 진행할때 NaN의 결측치 1개를 제외하여 count 값은 8이다.
2. 행을 기준으로 데이터 숫자 세기
-df.count(axis=1)
예: 인덱스 1 행을 열단위로 카운트를 진행할때 NaN의 결측치 1개를 제외하여 count 값은 7이다.
예: 인덱스 8 행을 열단위로 카운트를 진행할때 NaN의 결측치 2개를 제외하여 count 값은 5이다.
3. 데이터수 확인 (type)
-len(df)
-df.shape[0] *행의 개수, 또는 열의 개수만 찾을 때는 대괄호[ ] 사용
이제 아래의 코드 실행 버튼을 눌러 실습을 진행해 보세요!
실행 완료
[48]:
Unnamed: 0메뉴가격호수칼로리할인율할인가원산지752341608
new | [인기]아이펠치킨 | 16000 | 11 | 1200.0 | 0.5 | 8000.0 | 국내산 |
5 | 닭강정 | 15000 | 12 | 1500.0 | 0.2 | 12000.0 | 브라질 |
2 | 간장치킨 | 14000 | 9 | 1600.0 | 0.2 | 11200.0 | 국내산 |
3 | 마늘치킨 | 14000 | 9 | 1800.0 | 0.2 | 11200.0 | 국내산 |
4 | 파닭 | 14000 | 11 | 1300.0 | 0.2 | 11200.0 | 브라질 |
1 | 승일양념치킨 | 13000 | 10 | 1400.0 | 0.2 | 10400.0 | 국내산 |
6 | 양념반후라이드반 | 13000 | 10 | 1300.0 | 0.2 | 10400.0 | 국내산 |
0 | 황금후라이드 | 12000 | 10 | 1000.0 | 0.2 | 9600.0 | 국내산 |
10 | [베스트]풀잎치킨 | 9900 | 10 | 1000.0 | NaN | NaN | 국내산 |
실행 완료
[47]:
Unnamed: 0 9
메뉴 9
가격 9
호수 9
칼로리 9
할인율 8
할인가 8
원산지 9
dtype: int64
실행 완료
[46]:
7 8
5 8
2 8
3 8
4 8
1 8
6 8
0 8
8 6
dtype: int64
실행 완료
[45]:
9
이번 시간 정리
4. 다양한 내장함수
- 최대값 확인: df['컬럼명'].max()
- 최소값 확인: df['컬럼명'].min()
- 평균 확인 : df['컬럼명'].mean()
- 중앙 값 확인 : df['컬럼명'].median()
- 합계 확인 : df['컬럼명'].sum()
- 표준편차 확인 : df['컬럼명'].std()
- 분산 확인 : df['컬럼명'].var()
- 백분위수 확인 : df['가격'].describe()
describe : 데이터 컬럼별 통계량을 요약하는 메서드
이제 아래의 코드 실행 버튼을 눌러 실습을 진행해 보세요!
실행 완료
[49]:
16000
실행 완료
[50]:
9900
실행 완료
[51]:
13433.333333333334
실행 완료
[52]:
14000.0
실행 완료
[53]:
120900
실행 완료
[54]:
1764.936259472279
실행 완료
[56]:
3115000.0
실행 완료
[55]:
count 9.000000
mean 13433.333333
std 1764.936259
min 9900.000000
25% 13000.000000
50% 14000.000000
75% 14000.000000
max 16000.000000
Name: 가격, dtype: float64
이번 시간 정리
5. 하위 25% 지점 확인
- df['컬럼명'].quantile(.25) 0.25에서 .25만 써도 되고, 0은 생략 가능
- 판다스의 quantile는 0과 1사이의 값을 입력한다.
- quantile(사분위수)는 데이터 분포의 작은 수부터 큰수로 나열하여 4등분하는 관측값이다.
6. 상위 25% 지점 확인
- 상위 max 기준으로 25%인 75% 지점인 14000.0를 입력한다.
- df['컬럼명'].quantile(.75)
7. 하위 25% 작은 데이터 확인
- cond = df['컬럼명'].quantile(.25) > df['컬럼명']
- df[cond]
8. 상위 25% 큰 데이터 확인
- cond = df['컬럼명'].quantile(.75) < df['컬럼명']
- df[cond]
9. 특정 컬럼 최빈값 구하기
- df['컬럼명'].mode()[0]
*첫번째 값 0
10.행과 열 바꾸기 (transpose)
- df.T
이제 아래의 코드 실행 버튼을 눌러 실습을 진행해 보세요!
실행 완료
[57]:
13000.0
실행 완료
[58]:
14000.0
실행 완료
[59]:
Unnamed: 0메뉴가격호수칼로리할인율할인가원산지08
0 | 황금후라이드 | 12000 | 10 | 1000.0 | 0.2 | 9600.0 | 국내산 |
10 | [베스트]풀잎치킨 | 9900 | 10 | 1000.0 | NaN | NaN | 국내산 |
실행 완료
[60]:
Unnamed: 0메뉴가격호수칼로리할인율할인가원산지75
new | [인기]아이펠치킨 | 16000 | 11 | 1200.0 | 0.5 | 8000.0 | 국내산 |
5 | 닭강정 | 15000 | 12 | 1500.0 | 0.2 | 12000.0 | 브라질 |
실행 완료
[61]:
'국내산'
실행 완료
[62]:
752341608Unnamed: 0메뉴가격호수칼로리할인율할인가원산지
new | 5 | 2 | 3 | 4 | 1 | 6 | 0 | 10 |
[인기]아이펠치킨 | 닭강정 | 간장치킨 | 마늘치킨 | 파닭 | 승일양념치킨 | 양념반후라이드반 | 황금후라이드 | [베스트]풀잎치킨 |
16000 | 15000 | 14000 | 14000 | 14000 | 13000 | 13000 | 12000 | 9900 |
11 | 12 | 9 | 9 | 11 | 10 | 10 | 10 | 10 |
1200.0 | 1500.0 | 1600.0 | 1800.0 | 1300.0 | 1400.0 | 1300.0 | 1000.0 | 1000.0 |
0.5 | 0.2 | 0.2 | 0.2 | 0.2 | 0.2 | 0.2 | 0.2 | NaN |
8000.0 | 12000.0 | 11200.0 | 11200.0 | 11200.0 | 10400.0 | 10400.0 | 9600.0 | NaN |
국내산 | 브라질 | 국내산 | 국내산 | 브라질 | 국내산 | 국내산 | 국내산 | 국내산 |
'언어 > 파이썬' 카테고리의 다른 글
머신러닝with파이썬4강(1)_사이킷런 활용하기, 사이킷런에서 제공하는 데이터셋 (0) | 2024.03.07 |
---|---|
머신러닝with파이썬3강(5)_그룹핑, apply함수 (0) | 2024.03.06 |
머신러닝with파이썬3강(3)_자료형변환, 데이터탐색 (0) | 2024.03.04 |
머신러닝with파이썬3강(2)_결측치처리,정렬 (0) | 2024.03.03 |
머신러닝with파이썬3강(1)_데이터불러오기,만들기,삭제하기 (0) | 2024.03.02 |