카테고리 없음

day1._1 확률변수(random variable:변할수 있는 수)r.v

디지털랫드 2024. 5. 30. 15:17

 

 
(1)Random Variable.  :<<<"확률론적 규칙을 기반으로" 변할 수 있는 수를 ‘확률변수’라고 말한다>>>
 
확률론적 규칙? 
랜덤베리어블의 분포가 있는데 이 분포가 랜덤베리어블의 확률론적 규칙이 됨.
->분포유무가 랜덤베리어블 존재의 전제조건인가? 
 
 
 
그렇다면,
‘모든 사건이 확률로 표현 가능하냐?’: 관점에 따라 다르다
상수(고정된 수)또한 변하는 수다. -베이지안기반 
상수는 확률에의한 사건값이 아니다 - 논베이지안기반
 
  ex.이름이 oo인 사람이 oo일 확률은?
베이지앙; 0과 100 둘 중에 나올 확률이므로 위 사건역시 확률료 표현 가능하다.
논베이지안; 확률이 아님
 
 
Ex. 키
 
변할 수 있는 수는 거의 다 확률변수..
 
 
 
 
 
-
 
 
(2)이산descrete(정해진 값 중 하나)………주사위값
/연속 확률변수 continuous.  …….다트값
 
-무한과는 다른 개념이다. 이산확률변수이면서 가능한 값이 무한할 수 있음. …(범위안에서 수를 무한대로 나눠서 표현가능할수있겠다, 다트값 생각해보면..
 
 
연속 -> 이산 지정해줄때 어떤 데이터를 지정해야 유의미한지 고려해야함.
 
-
 
 
(3)PMF…이산확률일때의 분포/ descrete한 확률변수를 표현하는 확률분포
Px(x) := P(X=x)
 
>주사위 던졌을 때 나온 수를  x 라고 하고
이 x가 가지는 확률분포(함수)를 p(x)
라고 할 때 x=1,x=2,x=3…x=6에서의 p(x)값이
p(1), p(2)…p(6)과 같다.
라는 의미
 
x =: ‘뭐' 
x를 ‘뭐'로 정의한다.
:이 정의하는 대상으로 
 
 
예로 공평한 주사위 던졌을 때 
x=1(1/6)
… x=6(1/6)
>p(x=1) =>1/6 ….  p(x=6) => 1/6.   >p(x=7) (x)  
 
확통에서의 약속
p(X=x) -> px(x) -> P(x)
예) p(180) : p에 대해서 180에 해당하는 값을 찾아라. 
 
 
<<<pmf는 아래 두 조건을 만족해야 함.>>>
-확률은 총합이 1이고
-음수일수없다
 
<가우시안 디스트리뷰션?? = normal distribution
 
 
 
 
-
 
(4)PDF :이산확률변수에 대한 분포/ 셀 수 없는 무한..?/
 
연속확률변수(containious r.v)에 대한 확률을 구할. 때는 특정한 하나에 대한 확률을 묻는 게 아니라, 범위를 정해주고 00에서00사이에 있을 확률은 몇이냐, 이렇게 물어봐야 정답을 알 수 있다.(넓이가 곧 확률임)
 
<<후보로 나온 게 무한대면 그 어떤 특정한 값 하나의 확률은 수학적으로 0이다.
:범위로 정해줘야 확률값을 정할 수 있다.(?)
pdf의 역할 : 확률을 넓이값으로 뱉어주는 게 pdf의 역할
넓이를 계산하는 , 그 값들을 측정하는 게 pdf다.>>
 
>아래 식은 정의(from gausiaain distribution). 가장 많이쓰이는 probability density function (pdf)
 
>위 그림에서 f(x)가 pdf임
>키의 분포 (연속 확률 변수에 대한 분포가 pdf)
>연속 확률 변수에 대한 확률은 pdf값을 적분을 통해서 다 더해줌.(넓이 구하려고)
 
 
 
 
즉, 이산확률분포는 pmf이고,
pmf 통한 아웃풋 자체가 확률값
 
연속확률분포는 pdf이고
pdf 내 범위-적분으로 구한 넓이 값이 곧 확률값
 
 
연속확률 변수의 값 하나에 대한 확률값은 뭘까요? 0이다~ (연속확률변수 확률값은 pdf 내의 범위에 대한 적분을 해서 넓이를 구하는데, 
특정한 확률값 하나에 대해서는 범위가 0이므로)
 
pdf자체가 확률은 아니기 때문에 pdf값이 0보다 낮을 순 없고
그 pdf를 전체 적분한 게 확률이니까 그게 확률은 1이다.
(모든 가능한 변수에서 pdf범위를 다 합산한 값이 1이므로)
 
즉, 0<= pdf의 넓이(연속확률변수의 가능한 확률값) < =1
 
 
Pdf, pmf 함수 식이 확률에따라 달라지는 게 아니고~ 확률변수가 무엇이냐에 따라서 분포가 달라진다!
 
프로젝트에서 이산확률변수를 pdf로 표현하는 경우보다(막대를 이어야 하나? 하지만 정확한 값은 아니다 시도해볼수는 있음),
연속확률변수를 pmf로 표현하는 경우가 많다...
 
 
확률분포; 확률값들을 나열(?)
 
 
보통 
pdf는 f(x)
cdf는 F(x)
 
 
 
 
 
 
 
>cdf의 특징
>3.마무~마무 :적분구간이 없으니까 0
마무~무 :모든구간에서 적분 1
>2.단조증가함수란? x그대로 유지되거나, 더 줄어들 수는 없다! (위의 첫번째 그래프처럼 죽 올라가거나)유지되거나 해야함, 
두번째처럼 꺾이는 부분이 없어야함.
>1. cdf는 단조증가함수의 면적이므로, 위처럼 x값이 커질수록 면적은 늘어나거나 유지되거나...(줄어들일 없다는 것임)
 
 
 
(5)CDF  ..마이너스 무한대에서 x까지의 넓이를 구한 것이 cdf이다.
는, 단조증가함수…
 
 
> 적분한 값. 1-(마이너스 무한대부터 x까지의 범위) = x부터 무한대까지의 범위
 
 
>위에서 아래를 빼면 딱 맨 위의 범위가 나옴.
즉 a부터b의 pdf 가 b와a의 cdf로 유도하는 원리.
 
 
그래서 cdf, 언제 쓰느냐? 
>pdf구할때 주로 쓰겠다..
머신러닝할때  pdf많이 쓰므로 (p(x)로 표현해야 하니까)
 
 
 
(6)PDF를 적분한 값이 cdf이므로
cdf를 미분하면 pdf
Cdf(F(x)) 적분 = pdf(f(x))
Pdf(f(x))미분 = cdf(F(x))
>
 
 
 
 
 
(7) 기대값과 분산.
(데이터가 주어지면 평균, 주어지지 않으면 기댓값, 
확률분포의 평균을 계산하면 기댓값)
 
기댓값, 평균은 모든 정의역에 대해서 구해야하는,
 
x에 대한 평균값을 구할 때의 공식
위에가 pmf 아래가 pdf
 
 
 
g(x)에 대한 평균값을 구할 때의 공식
위에가 pmf(description), 아래가 pdf(integral)
 
>Ex 는 x변수에 대한 평균을 구하겠다 라는 뜻임
>g(x)라는 특정함수의 평균을 구하고 싶으면 위처럼 x의 pmf에 함수 g(x)를 곱해준다.
 
 
x에 대한 분산: x에 대한 평균과 그 x가 얼마나 떨어져 있는지 빼기 기법으로 나타내고 그 떨어져 있는 거리를 평균으로 취해주는 게 ‘분산’이다.
 
>x^2의  평균 - (x의 평균)^2
 
 
\
 
확률변수 x 가 있다?   <<<<<<확률변수? 변하는 값인데 분포에 따라 변하는 값이다.>>>>>>
-> 아 그럼 x에 대한 확률 분포가 있겠구나, 
->x는 변화하는 값이겠구나.
 
\
 
 
 
모평균: 진짜 값들을 평균
표본평균: 샘플을 이용한 평균
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

day1._1 확률변수(random variable:변할수 있는 수)r.v

 
(1)Random Variable.  :<<<"확률론적 규칙을 기반으로" 변할 수 있는 수를 ‘확률변수’라고 말한다>>>
 
확률론적 규칙? 
랜덤베리어블의 분포가 있는데 이 분포가 랜덤베리어블의 확률론적 규칙이 됨.
->분포유무가 랜덤베리어블 존재의 전제조건인가? 
 
 
 
그렇다면,
‘모든 사건이 확률로 표현 가능하냐?’: 관점에 따라 다르다
상수(고정된 수)또한 변하는 수다. -베이지안기반 
상수는 확률에의한 사건값이 아니다 - 논베이지안기반
 
  ex.이름이 oo인 사람이 oo일 확률은?
베이지앙; 0과 100 둘 중에 나올 확률이므로 위 사건역시 확률료 표현 가능하다.
논베이지안; 확률이 아님
 
 
Ex. 키
 
변할 수 있는 수는 거의 다 확률변수..
 
 
 
 
 
-
 
 
(2)이산descrete(정해진 값 중 하나)………주사위값
/연속 확률변수 continuous.  …….다트값
 
-무한과는 다른 개념이다. 이산확률변수이면서 가능한 값이 무한할 수 있음. …(범위안에서 수를 무한대로 나눠서 표현가능할수있겠다, 다트값 생각해보면..
 
 
연속 -> 이산 지정해줄때 어떤 데이터를 지정해야 유의미한지 고려해야함.
 
-
 
 
(3)PMF…이산확률일때의 분포/ descrete한 확률변수를 표현하는 확률분포
Px(x) := P(X=x)
 
>주사위 던졌을 때 나온 수를  x 라고 하고
이 x가 가지는 확률분포(함수)를 p(x)
라고 할 때 x=1,x=2,x=3…x=6에서의 p(x)값이
p(1), p(2)…p(6)과 같다.
라는 의미
 
x =: ‘뭐' 
x를 ‘뭐'로 정의한다.
:이 정의하는 대상으로 
 
 
예로 공평한 주사위 던졌을 때 
x=1(1/6)
… x=6(1/6)
>p(x=1) =>1/6 ….  p(x=6) => 1/6.   >p(x=7) (x)  
 
확통에서의 약속
p(X=x) -> px(x) -> P(x)
예) p(180) : p에 대해서 180에 해당하는 값을 찾아라. 
 
 
<<<pmf는 아래 두 조건을 만족해야 함.>>>
-확률은 총합이 1이고
-음수일수없다
 
<가우시안 디스트리뷰션?? = normal distribution
 
 
 
 
-
 
(4)PDF :이산확률변수에 대한 분포/ 셀 수 없는 무한..?/
 
연속확률변수(containious r.v)에 대한 확률을 구할. 때는 특정한 하나에 대한 확률을 묻는 게 아니라, 범위를 정해주고 00에서00사이에 있을 확률은 몇이냐, 이렇게 물어봐야 정답을 알 수 있다.(넓이가 곧 확률임)
 
<<후보로 나온 게 무한대면 그 어떤 특정한 값 하나의 확률은 수학적으로 0이다.
:범위로 정해줘야 확률값을 정할 수 있다.(?)
pdf의 역할 : 확률을 넓이값으로 뱉어주는 게 pdf의 역할
넓이를 계산하는 , 그 값들을 측정하는 게 pdf다.>>
 
>아래 식은 정의(from gausiaain distribution). 가장 많이쓰이는 probability density function (pdf)
 
>위 그림에서 f(x)가 pdf임
>키의 분포 (연속 확률 변수에 대한 분포가 pdf)
>연속 확률 변수에 대한 확률은 pdf값을 적분을 통해서 다 더해줌.(넓이 구하려고)
 
 
 
 
즉, 이산확률분포는 pmf이고,
pmf 통한 아웃풋 자체가 확률값
 
연속확률분포는 pdf이고
pdf 내 범위-적분으로 구한 넓이 값이 곧 확률값
 
 
연속확률 변수의 값 하나에 대한 확률값은 뭘까요? 0이다~ (연속확률변수 확률값은 pdf 내의 범위에 대한 적분을 해서 넓이를 구하는데, 
특정한 확률값 하나에 대해서는 범위가 0이므로)
 
pdf자체가 확률은 아니기 때문에 pdf값이 0보다 낮을 순 없고
그 pdf를 전체 적분한 게 확률이니까 그게 확률은 1이다.
(모든 가능한 변수에서 pdf범위를 다 합산한 값이 1이므로)
 
즉, 0<= pdf의 넓이(연속확률변수의 가능한 확률값) < =1
 
 
Pdf, pmf 함수 식이 확률에따라 달라지는 게 아니고~ 확률변수가 무엇이냐에 따라서 분포가 달라진다!
 
프로젝트에서 이산확률변수를 pdf로 표현하는 경우보다(막대를 이어야 하나? 하지만 정확한 값은 아니다 시도해볼수는 있음),
연속확률변수를 pmf로 표현하는 경우가 많다...
 
 
확률분포; 확률값들을 나열(?)
 
 
보통 
pdf는 f(x)
cdf는 F(x)
 
 
 
 
 
 
 
>cdf의 특징
>3.마무~마무 :적분구간이 없으니까 0
마무~무 :모든구간에서 적분 1
>2.단조증가함수란? x그대로 유지되거나, 더 줄어들 수는 없다! (위의 첫번째 그래프처럼 죽 올라가거나)유지되거나 해야함, 
두번째처럼 꺾이는 부분이 없어야함.
>1. cdf는 단조증가함수의 면적이므로, 위처럼 x값이 커질수록 면적은 늘어나거나 유지되거나...(줄어들일 없다는 것임)
 
 
 
(5)CDF  ..마이너스 무한대에서 x까지의 넓이를 구한 것이 cdf이다.
는, 단조증가함수…
 
 
> 적분한 값. 1-(마이너스 무한대부터 x까지의 범위) = x부터 무한대까지의 범위
 
 
>위에서 아래를 빼면 딱 맨 위의 범위가 나옴.
즉 a부터b의 pdf 가 b와a의 cdf로 유도하는 원리.
 
 
그래서 cdf, 언제 쓰느냐? 
>pdf구할때 주로 쓰겠다..
머신러닝할때  pdf많이 쓰므로 (p(x)로 표현해야 하니까)
 
 
 
(6)PDF를 적분한 값이 cdf이므로
cdf를 미분하면 pdf
Cdf(F(x)) 적분 = pdf(f(x))
Pdf(f(x))미분 = cdf(F(x))
>
 
 
 
 
 
(7) 기대값과 분산.
(데이터가 주어지면 평균, 주어지지 않으면 기댓값, 
확률분포의 평균을 계산하면 기댓값)
 
기댓값, 평균은 모든 정의역에 대해서 구해야하는,
 
x에 대한 평균값을 구할 때의 공식
위에가 pmf 아래가 pdf
 
 
 
g(x)에 대한 평균값을 구할 때의 공식
위에가 pmf(description), 아래가 pdf(integral)
 
>Ex 는 x변수에 대한 평균을 구하겠다 라는 뜻임
>g(x)라는 특정함수의 평균을 구하고 싶으면 위처럼 x의 pmf에 함수 g(x)를 곱해준다.
 
 
x에 대한 분산: x에 대한 평균과 그 x가 얼마나 떨어져 있는지 빼기 기법으로 나타내고 그 떨어져 있는 거리를 평균으로 취해주는 게 ‘분산’이다.
 
>x^2의  평균 - (x의 평균)^2
 
 
\
 
확률변수 x 가 있다?   <<<<<<확률변수? 변하는 값인데 분포에 따라 변하는 값이다.>>>>>>
-> 아 그럼 x에 대한 확률 분포가 있겠구나, 
->x는 변화하는 값이겠구나.
 
\
 
 
 
모평균: 진짜 값들을 평균
표본평균: 샘플을 이용한 평균
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

day1._1 확률변수(random variable:변할수 있는 수)r.v

 
(1)Random Variable.  :<<<"확률론적 규칙을 기반으로" 변할 수 있는 수를 ‘확률변수’라고 말한다>>>
 
확률론적 규칙? 
랜덤베리어블의 분포가 있는데 이 분포가 랜덤베리어블의 확률론적 규칙이 됨.
->분포유무가 랜덤베리어블 존재의 전제조건인가? 
 
 
 
그렇다면,
‘모든 사건이 확률로 표현 가능하냐?’: 관점에 따라 다르다
상수(고정된 수)또한 변하는 수다. -베이지안기반 
상수는 확률에의한 사건값이 아니다 - 논베이지안기반
 
  ex.이름이 oo인 사람이 oo일 확률은?
베이지앙; 0과 100 둘 중에 나올 확률이므로 위 사건역시 확률료 표현 가능하다.
논베이지안; 확률이 아님
 
 
Ex. 키
 
변할 수 있는 수는 거의 다 확률변수..
 
 
 
 
 
-
 
 
(2)이산descrete(정해진 값 중 하나)………주사위값
/연속 확률변수 continuous.  …….다트값
 
-무한과는 다른 개념이다. 이산확률변수이면서 가능한 값이 무한할 수 있음. …(범위안에서 수를 무한대로 나눠서 표현가능할수있겠다, 다트값 생각해보면..
 
 
연속 -> 이산 지정해줄때 어떤 데이터를 지정해야 유의미한지 고려해야함.
 
-
 
 
(3)PMF…이산확률일때의 분포/ descrete한 확률변수를 표현하는 확률분포
Px(x) := P(X=x)
 
>주사위 던졌을 때 나온 수를  x 라고 하고
이 x가 가지는 확률분포(함수)를 p(x)
라고 할 때 x=1,x=2,x=3…x=6에서의 p(x)값이
p(1), p(2)…p(6)과 같다.
라는 의미
 
x =: ‘뭐' 
x를 ‘뭐'로 정의한다.
:이 정의하는 대상으로 
 
 
예로 공평한 주사위 던졌을 때 
x=1(1/6)
… x=6(1/6)
>p(x=1) =>1/6 ….  p(x=6) => 1/6.   >p(x=7) (x)  
 
확통에서의 약속
p(X=x) -> px(x) -> P(x)
예) p(180) : p에 대해서 180에 해당하는 값을 찾아라. 
 
 
<<<pmf는 아래 두 조건을 만족해야 함.>>>
-확률은 총합이 1이고
-음수일수없다
 
<가우시안 디스트리뷰션?? = normal distribution
 
 
 
 
-
 
(4)PDF :이산확률변수에 대한 분포/ 셀 수 없는 무한..?/
 
연속확률변수(containious r.v)에 대한 확률을 구할. 때는 특정한 하나에 대한 확률을 묻는 게 아니라, 범위를 정해주고 00에서00사이에 있을 확률은 몇이냐, 이렇게 물어봐야 정답을 알 수 있다.(넓이가 곧 확률임)
 
<<후보로 나온 게 무한대면 그 어떤 특정한 값 하나의 확률은 수학적으로 0이다.
:범위로 정해줘야 확률값을 정할 수 있다.(?)
pdf의 역할 : 확률을 넓이값으로 뱉어주는 게 pdf의 역할
넓이를 계산하는 , 그 값들을 측정하는 게 pdf다.>>
 
>아래 식은 정의(from gausiaain distribution). 가장 많이쓰이는 probability density function (pdf)
 
>위 그림에서 f(x)가 pdf임
>키의 분포 (연속 확률 변수에 대한 분포가 pdf)
>연속 확률 변수에 대한 확률은 pdf값을 적분을 통해서 다 더해줌.(넓이 구하려고)
 
 
 
 
즉, 이산확률분포는 pmf이고,
pmf 통한 아웃풋 자체가 확률값
 
연속확률분포는 pdf이고
pdf 내 범위-적분으로 구한 넓이 값이 곧 확률값
 
 
연속확률 변수의 값 하나에 대한 확률값은 뭘까요? 0이다~ (연속확률변수 확률값은 pdf 내의 범위에 대한 적분을 해서 넓이를 구하는데, 
특정한 확률값 하나에 대해서는 범위가 0이므로)
 
pdf자체가 확률은 아니기 때문에 pdf값이 0보다 낮을 순 없고
그 pdf를 전체 적분한 게 확률이니까 그게 확률은 1이다.
(모든 가능한 변수에서 pdf범위를 다 합산한 값이 1이므로)
 
즉, 0<= pdf의 넓이(연속확률변수의 가능한 확률값) < =1
 
 
Pdf, pmf 함수 식이 확률에따라 달라지는 게 아니고~ 확률변수가 무엇이냐에 따라서 분포가 달라진다!
 
프로젝트에서 이산확률변수를 pdf로 표현하는 경우보다(막대를 이어야 하나? 하지만 정확한 값은 아니다 시도해볼수는 있음),
연속확률변수를 pmf로 표현하는 경우가 많다...
 
 
확률분포; 확률값들을 나열(?)
 
 
보통 
pdf는 f(x)
cdf는 F(x)
 
 
 
 
 
 
 
>cdf의 특징
>3.마무~마무 :적분구간이 없으니까 0
마무~무 :모든구간에서 적분 1
>2.단조증가함수란? x그대로 유지되거나, 더 줄어들 수는 없다! (위의 첫번째 그래프처럼 죽 올라가거나)유지되거나 해야함, 
두번째처럼 꺾이는 부분이 없어야함.
>1. cdf는 단조증가함수의 면적이므로, 위처럼 x값이 커질수록 면적은 늘어나거나 유지되거나...(줄어들일 없다는 것임)
 
 
 
(5)CDF  ..마이너스 무한대에서 x까지의 넓이를 구한 것이 cdf이다.
는, 단조증가함수…
 
 
> 적분한 값. 1-(마이너스 무한대부터 x까지의 범위) = x부터 무한대까지의 범위
 
 
>위에서 아래를 빼면 딱 맨 위의 범위가 나옴.
즉 a부터b의 pdf 가 b와a의 cdf로 유도하는 원리.
 
 
그래서 cdf, 언제 쓰느냐? 
>pdf구할때 주로 쓰겠다..
머신러닝할때  pdf많이 쓰므로 (p(x)로 표현해야 하니까)
 
 
 
(6)PDF를 적분한 값이 cdf이므로
cdf를 미분하면 pdf
Cdf(F(x)) 적분 = pdf(f(x))
Pdf(f(x))미분 = cdf(F(x))
>
 
 
 
 
 
(7) 기대값과 분산.
(데이터가 주어지면 평균, 주어지지 않으면 기댓값, 
확률분포의 평균을 계산하면 기댓값)
 
기댓값, 평균은 모든 정의역에 대해서 구해야하는,
 
x에 대한 평균값을 구할 때의 공식
위에가 pmf 아래가 pdf
 
 
 
g(x)에 대한 평균값을 구할 때의 공식
위에가 pmf(description), 아래가 pdf(integral)
 
>Ex 는 x변수에 대한 평균을 구하겠다 라는 뜻임
>g(x)라는 특정함수의 평균을 구하고 싶으면 위처럼 x의 pmf에 함수 g(x)를 곱해준다.
 
 
x에 대한 분산: x에 대한 평균과 그 x가 얼마나 떨어져 있는지 빼기 기법으로 나타내고 그 떨어져 있는 거리를 평균으로 취해주는 게 ‘분산’이다.
 
>x^2의  평균 - (x의 평균)^2
 
 
\
 
확률변수 x 가 있다?   <<<<<<확률변수? 변하는 값인데 분포에 따라 변하는 값이다.>>>>>>
-> 아 그럼 x에 대한 확률 분포가 있겠구나, 
->x는 변화하는 값이겠구나.
 
\
 
 
 
모평균: 진짜 값들을 평균
표본평균: 샘플을 이용한 평균
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

day1._1 확률변수(random variable:변할수 있는 수)r.v

 
(1)Random Variable.  :<<<"확률론적 규칙을 기반으로" 변할 수 있는 수를 ‘확률변수’라고 말한다>>>

<div style="color: #000000; text-a