카테고리 없음

머신러닝with파이썬8(2)_감성분석,자연어 전처리

디지털랫드 2024. 3. 25. 12:39

감성분석


이번 시간에는 감성 분석을 함께 진행해 보겠습니다.

이번 시간 정리

 

 

1. 데이터 불러오기


 
 
실행 완료
 
 
 
실행 완료
 

2. EDA 및 데이터 전처리

 
 
코드 실행
---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
/tmp/ipykernel_13/429470413.py in <module>
      1 # 데이터 샘플
----> 2 df.head()

NameError: name 'df' is not defined
 
 
코드 실행
---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
/tmp/ipykernel_13/2451077686.py in <module>
      1 # 데이터 크기
----> 2 df.shape

NameError: name 'df' is not defined
 
 
코드 실행
---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
/tmp/ipykernel_13/2829736648.py in <module>
      1 # 타겟 확인
----> 2 df['label'].value_counts()

NameError: name 'df' is not defined
 
 
코드 실행
---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
/tmp/ipykernel_13/2948450488.py in <module>
      1 # 결측치
----> 2 df.isnull().sum()

NameError: name 'df' is not defined
 
 
코드 실행
---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
/tmp/ipykernel_13/3201688387.py in <module>
      1 # 결측치 삭제
----> 2 print(df.shape)
      3 df = df.dropna()
      4 print(df.shape)

NameError: name 'df' is not defined
 
 
코드 실행
---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
/tmp/ipykernel_13/142798072.py in <module>
      1 # 피처 엔지니어링 (문장의 길이)
----> 2 df['len'] = df['document'].apply(len)
      3 df.head()

NameError: name 'df' is not defined
 
 
코드 실행
---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
/tmp/ipykernel_13/685029781.py in <module>
      1 # len 시각화 (label == 0)
      2 import matplotlib.pyplot as plt
----> 3 df[df.label==0]['len'].plot(kind='hist')

NameError: name 'df' is not defined
 
 
코드 실행
---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
/tmp/ipykernel_13/1506763230.py in <module>
      1 # len 시각화 (label == 1)
----> 2 df[df.label==1]['len'].plot(kind='hist')

NameError: name 'df' is not defined
 
 
코드 실행
---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
/tmp/ipykernel_13/1806403524.py in <module>
      1 # 데이터 샘플링
----> 2 df = df[:1000]

NameError: name 'df' is not defined
 
 
코드 실행
---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
/tmp/ipykernel_13/3581060410.py in <module>
      1 # 토큰화
      2 vect = CountVectorizer(tokenizer=tokenizer.morphs)
----> 3 vectors = vect.fit_transform(df['document'])

NameError: name 'df' is not defined

3. 머신러닝 > 교차검증


[리마인드] 교차검증이란?

  • 일반적으로 모델을 학습시킬 때 데이터를 train set과 test set으로 나누어 train set을 가지고 학습을 수행합니다.
  • 교차검증이란 여기서 train set을 다시 train set과 validation set으로 나누어 학습 중 검증과 수정을 수행하는 것을 의미합니다.

[리마인드] F1 이란?

  • 분류 모델의 평가 지표 중 하나로, 정밀도(precision)와 재현율(recall)의 조화평균을 나타냅니다.

<참고> 5. 지도학습(분류) 노드의 5-5. 교차검증, 5-6. 평가(분류) 스텝에서 복습하실 수 있습니다.


 
 
코드 실행
---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
/tmp/ipykernel_13/1146015946.py in <module>
      4 
      5 model = RandomForestClassifier(random_state=2022)
----> 6 cross_val_score(model, vectors, df['label'], scoring='f1', cv=5).mean()

NameError: name 'vectors' is not defined