Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- https://stat.ethz.ch/R-manual/R-devel/library/base/html/table.html
- https://stackoverflow.com/questions/38976217/what-is-the-meaning-of-include-lowest-in-reclassify-raster-package-r
- https://www.rdocumentation.org/packages/base/versions/3.5.1/topics/nrow
- Latex is suck
Archives
- Today
- Total
LearnMore
ML by Murpy #2 본문
2.2.3 베이즈 법칙
베이즈 정리(Bayes Theorem)
- $$
p(X=x|Y=y)=\frac{p(X=x,Y=y)}{p(Y=y)}=\frac{p(X=x)p(Y=y|X=x)}{\sum_{x^\prime}p(Y=y|X=x^\prime)}
$$
- $$
2.2.3.1 예제
유방조영술(Mammogram)로 유방암 검진을 하려한다.
- 검사는 80%의 정확성(Sensitivity)$p(x=1)=0.8$ 을 갖는다.
- $p(y)$는 유방암인 경우의 사건이라 한다. 유방암의 사전확률은 $p(y=1)=0.004$ 이라 한다
- 테스트의 거짓양성 (False positive) 또는 거짓 경보 (False alarm)의 가능성은 $p(x=1|y=0)=0.1$ 이다
위 조건을 통해 유방암테스트가 양성이면서 실제 유방암 진단을 받을 확률은
$$
\begin{align}
p(y=1|x=1)=\frac{p(x=1|y=1)p(y=1)}{p(x=1|y=1)p(y=1)+p(x=1|y=0)p(y=0)}
\end{align}
$$
약 3%의 값을 구할수 있다.
2.2.4 독립과 조건부 독립
- 무조건적 독립(Unconditionally independent) 또는 주변적 독립(Marginally independent) : $X 와 Y$의 결합 확률을 곱으로 표현 가능한 경우
- $X \perp Y \iff p(X,Y)=p(X)p(Y)$
- 조건부 독립(Conditionally independent) : 다른 변수 $Z$(Conditional marginal)에 의해 $X와 Y$의 결합 확률이 곱으로 표현될 수 있는 경우
- $X \perp Y|Z \iff p(X,Y|Z)=p(X|Z)p(Y|Z)$
- $X와 Y$ 사이의 모든 의존 관계가 $Z$에 의해 중재된다
- $p(z)>0$인 모든 $x,y,z$에 대하여 $p(x,y|z)=g(x,z)h(y,z)$ 경우에만 CI가 성립한다
2.2.5 연속적 확률 변수
- $X$는 불확실한 연속량으로 가정
- $a\leq X \leq b$일 확률
- $A=(X\leq a), B=(X\leq b), W= (a<X \leq b)$로 정의
- $B=A\vee W$이고, $A와 W$가 상호 배타적이기 때문에 합의 법칙 사용
- $p(B)=p(A)+p(W)$
- $F(q)\triangleq p(X \leq q)$로 정의하며, 이것을 $X$의 누적 분포 함수(Cummulative distribution function) 또는 cdf 라고 한다
- 단조 증가 함수이며 $p(a<X \leq b)=F(b)-F(a)$ 와 같다.
- $f(x)=\frac{d}{dx}F(x)$를 정의하고(도함수가 존재한다고 가정), 이것을 확률 밀도 함수(Probability density function) 또는 pdf 라고 한다.
- pdf가 주어질때 $P(a< X \leq b)=\int_{a}^{b}f(x),dx$ 로 연속 변수의 확률을 계산가능하다
- 구간의 크기가 작을경우 $P(x\leq X \leq X+dx)\approx p(x)dx$로 표기 가능하다
- $a\leq X \leq b$일 확률
2.2.6 분위수
- 추후설명 아직 이해 잘 못함
2.2.7 평균과 분산
평균(Mean)
- 기대값(Expected value)라고도 하며 $\mu$로 표기
- 이산 확률 변수의 경우 $\mathbb{E}[X] \triangleq \sum_{x\in \chi}xp(x)$로 정의
- 연속 확률 변수의 경우 $\mathbb{E}[X]= \int_\chi xp(x),dx$로 정의
분산(Variance)
흩어진 정도를 측정, $\sigma^2$으로 표기
$$
\begin{align}var[X]&\triangleq \mathbb{E}[(X-\mu^2)]=\int (x-\mu)^2p(x),dx\&=\int x^2p(x),dx+\mu^2\int p(x),dx-2\mu\int xp(x),dx=\mathbb{E}[X^2]-\mu^2\end{align}
$$
위의 식을 통해 $\mathbb{E}[X^2]=\mu^2+\sigma^2$ 을 유도
표준편차(Standard deviation) 은 $std[X]\triangleq \sqrt{var[X]}$ 로 정의
'Machine Learning by Murpy > 2.Probability' 카테고리의 다른 글
ML by Murpy #3(편집중..) (0) | 2020.02.03 |
---|---|
ML by Murpy #1 (0) | 2020.01.22 |
Comments