LearnMore

ML by Murpy #2 본문

Machine Learning by Murpy/2.Probability

ML by Murpy #2

zionadd 2020. 1. 29. 16:57

2.2.3 베이즈 법칙

  • 베이즈 정리(Bayes Theorem)

    • $$
      p(X=x|Y=y)=\frac{p(X=x,Y=y)}{p(Y=y)}=\frac{p(X=x)p(Y=y|X=x)}{\sum_{x^\prime}p(Y=y|X=x^\prime)}
      $$
2.2.3.1 예제

유방조영술(Mammogram)로 유방암 검진을 하려한다.

  • 검사는 80%의 정확성(Sensitivity)$p(x=1)=0.8$ 을 갖는다.
  • $p(y)$는 유방암인 경우의 사건이라 한다. 유방암의 사전확률은 $p(y=1)=0.004$ 이라 한다
  • 테스트의 거짓양성 (False positive) 또는 거짓 경보 (False alarm)의 가능성은 $p(x=1|y=0)=0.1$ 이다

위 조건을 통해 유방암테스트가 양성이면서 실제 유방암 진단을 받을 확률은
$$
\begin{align}
p(y=1|x=1)=\frac{p(x=1|y=1)p(y=1)}{p(x=1|y=1)p(y=1)+p(x=1|y=0)p(y=0)}
\end{align}
$$
약 3%의 값을 구할수 있다.

2.2.4 독립과 조건부 독립

  • 무조건적 독립(Unconditionally independent) 또는 주변적 독립(Marginally independent) : $X 와 Y$의 결합 확률을 곱으로 표현 가능한 경우
    • $X \perp Y \iff p(X,Y)=p(X)p(Y)$
  • 조건부 독립(Conditionally independent) : 다른 변수 $Z$(Conditional marginal)에 의해 $X와 Y$의 결합 확률이 곱으로 표현될 수 있는 경우
    • $X \perp Y|Z \iff p(X,Y|Z)=p(X|Z)p(Y|Z)$
    • $X와 Y$ 사이의 모든 의존 관계가 $Z$에 의해 중재된다
    • $p(z)>0$인 모든 $x,y,z$에 대하여 $p(x,y|z)=g(x,z)h(y,z)$ 경우에만 CI가 성립한다

2.2.5 연속적 확률 변수

  • $X$는 불확실한 연속량으로 가정
    • $a\leq X \leq b$일 확률
      • $A=(X\leq a), B=(X\leq b), W= (a<X \leq b)$로 정의
      • $B=A\vee W$이고, $A와 W$가 상호 배타적이기 때문에 합의 법칙 사용
      • $p(B)=p(A)+p(W)$
    • $F(q)\triangleq p(X \leq q)$로 정의하며, 이것을 $X$의 누적 분포 함수(Cummulative distribution function) 또는 cdf 라고 한다
      • 단조 증가 함수이며 $p(a<X \leq b)=F(b)-F(a)$ 와 같다.
    • $f(x)=\frac{d}{dx}F(x)$를 정의하고(도함수가 존재한다고 가정), 이것을 확률 밀도 함수(Probability density function) 또는 pdf 라고 한다.
      • pdf가 주어질때 $P(a< X \leq b)=\int_{a}^{b}f(x),dx$ 로 연속 변수의 확률을 계산가능하다
      • 구간의 크기가 작을경우 $P(x\leq X \leq X+dx)\approx p(x)dx$로 표기 가능하다

2.2.6 분위수

  • 추후설명 아직 이해 잘 못함

2.2.7 평균과 분산

  • 평균(Mean)

    • 기대값(Expected value)라고도 하며 $\mu$로 표기
    • 이산 확률 변수의 경우 $\mathbb{E}[X] \triangleq \sum_{x\in \chi}xp(x)$로 정의
    • 연속 확률 변수의 경우 $\mathbb{E}[X]= \int_\chi xp(x),dx$로 정의
  • 분산(Variance)

    • 흩어진 정도를 측정, $\sigma^2$으로 표기

    • $$
      \begin{align}var[X]&\triangleq \mathbb{E}[(X-\mu^2)]=\int (x-\mu)^2p(x),dx\&=\int x^2p(x),dx+\mu^2\int p(x),dx-2\mu\int xp(x),dx=\mathbb{E}[X^2]-\mu^2\end{align}
      $$

  • 위의 식을 통해 $\mathbb{E}[X^2]=\mu^2+\sigma^2$ 을 유도

  • 표준편차(Standard deviation) 은 $std[X]\triangleq \sqrt{var[X]}$ 로 정의

'Machine Learning by Murpy > 2.Probability' 카테고리의 다른 글

ML by Murpy #3(편집중..)  (0) 2020.02.03
ML by Murpy #1  (0) 2020.01.22
Comments