감성분석
이번 시간에는 감성 분석을 함께 진행해 보겠습니다.
이번 시간 정리

1. 데이터 불러오기
실행 완료
실행 완료
2. EDA 및 데이터 전처리
코드 실행
---------------------------------------------------------------------------
NameError Traceback (most recent call last)
/tmp/ipykernel_13/429470413.py in <module>
1 # 데이터 샘플
----> 2 df.head()
NameError: name 'df' is not defined
코드 실행
---------------------------------------------------------------------------
NameError Traceback (most recent call last)
/tmp/ipykernel_13/2451077686.py in <module>
1 # 데이터 크기
----> 2 df.shape
NameError: name 'df' is not defined
코드 실행
---------------------------------------------------------------------------
NameError Traceback (most recent call last)
/tmp/ipykernel_13/2829736648.py in <module>
1 # 타겟 확인
----> 2 df['label'].value_counts()
NameError: name 'df' is not defined
코드 실행
---------------------------------------------------------------------------
NameError Traceback (most recent call last)
/tmp/ipykernel_13/2948450488.py in <module>
1 # 결측치
----> 2 df.isnull().sum()
NameError: name 'df' is not defined
코드 실행
---------------------------------------------------------------------------
NameError Traceback (most recent call last)
/tmp/ipykernel_13/3201688387.py in <module>
1 # 결측치 삭제
----> 2 print(df.shape)
3 df = df.dropna()
4 print(df.shape)
NameError: name 'df' is not defined
코드 실행
---------------------------------------------------------------------------
NameError Traceback (most recent call last)
/tmp/ipykernel_13/142798072.py in <module>
1 # 피처 엔지니어링 (문장의 길이)
----> 2 df['len'] = df['document'].apply(len)
3 df.head()
NameError: name 'df' is not defined
코드 실행
---------------------------------------------------------------------------
NameError Traceback (most recent call last)
/tmp/ipykernel_13/685029781.py in <module>
1 # len 시각화 (label == 0)
2 import matplotlib.pyplot as plt
----> 3 df[df.label==0]['len'].plot(kind='hist')
NameError: name 'df' is not defined
코드 실행
---------------------------------------------------------------------------
NameError Traceback (most recent call last)
/tmp/ipykernel_13/1506763230.py in <module>
1 # len 시각화 (label == 1)
----> 2 df[df.label==1]['len'].plot(kind='hist')
NameError: name 'df' is not defined
코드 실행
---------------------------------------------------------------------------
NameError Traceback (most recent call last)
/tmp/ipykernel_13/1806403524.py in <module>
1 # 데이터 샘플링
----> 2 df = df[:1000]
NameError: name 'df' is not defined
코드 실행
---------------------------------------------------------------------------
NameError Traceback (most recent call last)
/tmp/ipykernel_13/3581060410.py in <module>
1 # 토큰화
2 vect = CountVectorizer(tokenizer=tokenizer.morphs)
----> 3 vectors = vect.fit_transform(df['document'])
NameError: name 'df' is not defined
3. 머신러닝 > 교차검증
[리마인드] 교차검증이란?
- 일반적으로 모델을 학습시킬 때 데이터를 train set과 test set으로 나누어 train set을 가지고 학습을 수행합니다.
- 교차검증이란 여기서 train set을 다시 train set과 validation set으로 나누어 학습 중 검증과 수정을 수행하는 것을 의미합니다.
[리마인드] F1 이란?
- 분류 모델의 평가 지표 중 하나로, 정밀도(precision)와 재현율(recall)의 조화평균을 나타냅니다.
<참고> 5. 지도학습(분류) 노드의 5-5. 교차검증, 5-6. 평가(분류) 스텝에서 복습하실 수 있습니다.
코드 실행
---------------------------------------------------------------------------
NameError Traceback (most recent call last)
/tmp/ipykernel_13/1146015946.py in <module>
4
5 model = RandomForestClassifier(random_state=2022)
----> 6 cross_val_score(model, vectors, df['label'], scoring='f1', cv=5).mean()
NameError: name 'vectors' is not defined