https://n8n.io/workflows/2462-angie-personal-ai-assistant-with-telegram-voice-and-text/
https://grok.com/c/1e73a2c1-ec5b-4125-a71a-2a7fa98f7976
1. 너는 데이터 분석가야
- A사와 B사의 기술통계법으로 분석해줘
-망대(최대화)특성이야
-어느 협력사가 우수한지 분석해줘
-출력형식은 인포그래픽 & 보고서형식으로 해줘
입력시, CTRL+SHIFT+V <=== 시트 DATA 그대로 붙여넣기 한다
A협력사 B협력사
90 83
51 26
48 32
92 99
79 63
98 92
67 92
61 69
68 45
70 67
44 80
49 60
50 73
98 40
71 38
문의: 추가 데이터나 상세 모델링 필요 시 연락! (데이터 출처: 제공 CSV, 분석 툴: Python/Statsmodels).
(보고서 끝 | 총 15개 데이터 포인트 분석)
2.6s Fast
↳t-검정으로 유의성 검증
→Cp/Cpk 프로세스 분석
...
더 간결한 보고서 버전
더 열심히 Thinkx
과정 정리
데이터는 형태에 따라 "수치형 자료"와 "범주형 자료" 나뉜다. 수치형 자료는 "연속형 자료와 "이산형 자료로 구분되며, 범주형 자료는 "순서형 자료"와 "명목형 자료" 로 구분된다.
모든 데이터는 "중심치", "산포", "모양"과 같은 특성을 지니고 있다.
중심치를 나타내는 값으로는 "평균", "중위수", "최빈수 "등이 있으며, 산포를 나타내는 값으로는 "분산", "표준편차", "범위", "변동계수", "사분위수 범위"등이 있다.
(산술)평균은 중위수에 비해 이상치에 민감하며, 치우친 데이터일수록 평균과 중위수는 차이가 나게 된다.
표준편차는 범위에 비해 산포를 잘 나타내는 장점이 있고, 범위는 계산이 쉽다는 장점 이 있다. 일반적으로는 7개 이하의 자료에서는 범위를 이용하여 산포를 계산하는 것과 표준편차를 이용하는 것은 큰 차이를 보이지 않는다.
척도가 다른 특성에 대한 산포 비교에서는 "변동 계수"를 이용한다.
EX) 모집단은 10,000 / N = 100 / X바(정규분포)는 30 / S(표준편차)는 5 /
USL은 40, LSL은 20 / 이와 같은 경우를 인포그래픽으로 생성하고 분석해보는 기술통계법으로 설명해줘
===> https://grok.com/c/1e73a2c1-ec5b-4125-a71a-2a7fa98f7976
EX)USL과 LSL을 벗어난 불량율을 계산해줘
=NORM.DIST(15,20,5,1) /// (X, , 0 }
EX)1.
충진 공정에서 생산된 제품의 중량은 평균이 5 kg 이고, 표준편차가 0.5kg 이다.
중량의 규격이 5 kg ~ 5.5 kg 이라면 규격을 벗어날 확률은 얼마인가 ?
https://grok.com/c/1e73a2c1-ec5b-4125-a71a-2a7fa98f7976
항목 | 이항분포 (Binomial) | 포아송분포 (Poisson) | 승자 |
|---|---|---|---|
| 언제 쓰나? | 시행 횟수 n이 정해져 있음 예: 100개 제품 중 불량 몇 개? | 시행 횟수 n이 엄청 크고, p가 엄청 작음 예: 1시간에 전화 몇 통? | - |
| 예시 문장 | "100개를 검사해서 정확히 3개 불량" | "1일에 평균 2.5건 불량 → 오늘 4건?" | - |
| 모수 | n (시행 횟수) + p (성공 확률) | λ = n×p (평균 발생 횟수) 단 하나! | 포아송 승 |
| 공식 | P(X=k) = ₙCₖ × pᵏ × (1-p)ⁿ⁻ᵏ | P(X=k) = e⁻ᵏ × λᵏ / k! | 포아송 승 |
| 계산 난이도 | n=1000이면 계산 지옥 | λ만 알면 1초 컷 | 포아송 승 |
| 실제 사용 빈도 | 품질검사(로트 검사) | 불량건수, 사고건수, 전화통화, 결함수, 고객방문 | 포아송 압승 |
| 정규분포로 근사 | n×p > 10, n×(1-p) > 10 | λ > 10 | 무승부 |
https://grok.com/c/1e73a2c1-ec5b-4125-a71a-2a7fa98f7976
재미나이에서 프롬프트"@"를 넣어 유투브랑 연동시켜준다.
"@" =====>
- Access Gemini: Go to the Google Gemini website (gemini.google.com) and sign in.
- Enter "@": Type
@in the prompt input field. A list of Google Apps that can be linked will appear. - Select YouTube: Choose YouTube from the list.
- Enter Command and Link: Paste the URL of the YouTube video you want to summarize, and enter the command (e.g., "Summarize the key content of this video", "Organize it by timeline", etc.).
- Check Result: Gemini analyzes the YouTube video and provides the requested information.
@점추정의 방법과 표기법을 설명하고, 예시를 제공해줘
점추정(Point Estimation)은 표본(sample)의 정보를 이용하여 우리가 알고자 하는 모집단(population)의 특성(모수)을 하나의 단일한 값으로 추정하는 통계적 방법을 말합니다.
예를 들어, "우리나라 20대 남성의 평균 키($\mu$)는 174cm이다"라고 말하는 것이 점추정입니다. (반대로 "평균 키는 173cm에서 175cm 사이다"라고 말하는 것은 '구간추정'입니다.)
📊 점추정의 표기법
점추정에서는 모집단의 모수(parameter)와 표본에서 계산된 통계량(statistic)을 구분하여 표기합니다. 일반적으로 모수는 그리스 문자로, 표본 통계량(추정량)은 그 위에 '모자(hat)'를 씌워($\hat{\theta}$) 표기합니다.
| 구분 | 모수 (Parameter) | 설명 | 추정량 (Estimator) | 설명 |
| 평균 | $\mu$ (뮤) | 모집단의 평균 | $\hat{\mu} = \bar{X}$ (엑스 바) | 표본의 평균 |
| 분산 | $\sigma^2$ (시그마 제곱) | 모집단의 분산 | $\hat{\sigma}^2 = S^2$ (S 제곱) | 표본의 분산 |
| 비율 | $p$ (피) | 모집단의 비율 | $\hat{p}$ (피 햇) | 표본의 비율 |
| 일반 | $\theta$ (세타) | 임의의 모수 | $\hat{\theta}$ (세타 햇) | $\theta$의 추정량 |
모수 (Parameter, $\theta$): 우리가 알고 싶어 하는 모집단 전체의 실제 값 (예: $\mu, \sigma^2, p$)추정량 (Estimator, $\hat{\theta}$): 모수를 추정하기 위해 표본 데이터를 이용해 계산하는 공식이나 함수 (예: $\bar{X} = \frac{1}{n}\sum X_i$)
추정값 (Estimate): 실제 표본 데이터를 추정량 공식에 대입하여 얻은 구체적인 숫자 (예: $\bar{x} = 174$)
🛠️ 점추정량의 방법
좋은 추정량($\hat{\theta}$)을 찾는 방법에는 여러 가지가 있으며, 가장 대표적인 방법은 다음과 같습니다.
1. 최대우도추정법 (MLE, Maximum Likelihood Estimation)
개념: 우리가 관측한 표본 데이터가 나타날 가능성(우도, Likelihood)을 최대로 만드는 모수($\theta$)를 찾는 방법입니다.
"어떤 모수값이 이 표본을 가장 잘 설명하는가?"에 대한 답을 찾는 과정입니다.
예시: 동전을 10번 던져 앞면이 7번 나왔습니다. 이 동전의 앞면이 나올 확률($p$)은 얼마일까요?
$p=0.5$일 때 이 결과가 나올 확률보다 $p=0.7$일 때 이 결과가 나올 확률이 더 높습니다.
이 '확률(가능성)'을 최대로 만드는 $p$값을 계산해보면 $\hat{p} = 7/10 = 0.7$이 됩니다. 이것이 MLE 추정값입니다.
대부분의 통계적 추정에서 가장 널리 사용되는 방법 중 하나입니다.
2. 적률법 (MOM, Method of Moments)
개념: 모집단의 이론적인 **적률(Moment)**과 표본에서 계산한 표본 적률이 같다고 놓고 방정식을 세워 모수를 찾는 방법입니다.
1차 적률: $E(X) = \mu$ (모평균)
1차 표본 적률: $\bar{X}$ (표본평균)
방법: $E(X) = \bar{X}$ 라고 둡니다.
$\mu = \bar{X}$
따라서 모평균 $\mu$의 적률법 추정량은 $\hat{\mu} = \bar{X}$가 됩니다.
계산이 비교적 간단하지만, 항상 가장 효율적인(분산이 작은) 추정량을 제공하지는 않을 수 있습니다.
3. 최소제곱법 (LSE, Least Squares Estimation)
개념: 관측된 값과 추정된 모델(예: 직선) 간의 오차(잔차)의 제곱의 합을 최소화하는 모수를 찾는 방법입니다.
예시: 회귀분석(Regression)에서 가장 많이 사용됩니다.
$Y = \beta_0 + \beta_1 X$ 라는 회귀선을 그릴 때, 실제 데이터 점들($y_i$)과 이 선 위의 예측값($\hat{y}_i$) 사이의 거리(오차)의 제곱 합($\sum (y_i - \hat{y}_i)^2$)이 최소가 되는 $\beta_0$와 $\beta_1$를 찾습니다.
네, 통계적 추론의 핵심 개념인 **신뢰도(Confidence Level)**와 **신뢰구간(Confidence Interval)**에 대해 상세한 예시와 함께 설명해 드리겠습니다.
📊 통계적 추론이란?
간단히 말해, 우리가 전체(모집단)를 다 조사하기 어려울 때, 일부(표본)를 뽑아서 조사한 결과를 바탕으로 전체(모집단)의 특성을 과학적으로 추측하는 과정입니다.
모집단(Population): 알고자 하는 전체 대상 (예: 대한민국 모든 성인의 키)
모수(Parameter): 모집단의 실제 특성값 (예: 대한민국 성인 전체의 평균 키 $\mu$)
표본(Sample): 모집단에서 추출한 일부 대상 (예: 1,000명의 성인)
통계량(Statistic): 표본의 특성값 (예: 1,000명의 평균 키 $\bar{X}$)
이때, 표본 통계량($\bar{X}$)으로 모수($\mu$)를 추정하는 방법에는 두 가지가 있습니다.
점추정 (Point Estimation): "아마 모수는 이 값일 거야"라고 하나의 값으로 추정 (예: 1,000명 표본 평균이 173cm이니, 전국 평균 $\mu$도 173cm일 것이다.) -> 간단하지만, 정확히 맞을 확률이 0%에 가깝습니다.
구간추정 (Interval Estimation): "아마 모수는 이 범위 안에 있을 거야"라고 구간으로 추정 (예: 전국 평균 $\mu$는 172cm와 174cm 사이에 있을 것이다.) -> 틀릴 가능성을 안고 가지만, 훨씬 현실적이고 유용한 정보를 줍니다.
여기서 '구간추정'에 사용되는 핵심 개념이 바로 '신뢰도'와 '신뢰구간'입니다.
💡 핵심 개념: 신뢰도와 신뢰구간
1. 신뢰구간 (Confidence Interval)
"우리가 추정한 모수가 실제로 포함될 것이라고 기대되는 값의 범위"
표본에서 얻은 점추정값(예: 표본평균 $\bar{X}$)을 중심으로, "얼마나 틀릴 수 있는지(오차범위)"를 계산하여 더하고 뺀 구간입니다.
신뢰구간 = 점추정값 $\pm$ 오차범위 (Margin of Error)
2. 신뢰도 (Confidence Level)
"우리가 만든 이 신뢰구간이, '진짜 모수'를 포함하고 있을 것이라고 믿는 정도" (보통 90%, 95%, 99% 등을 사용합니다)
이 개념은 조금 까다롭습니다. 많은 사람들이 "모평균이 이 구간 안에 있을 확률"이라고 오해하지만, 정확한 의미는 다음과 같습니다.
정확한 의미: "만약 우리가 같은 방식으로 표본을 100번 뽑아서 100개의 신뢰구간을 만든다면, 그중 약 95개는 실제 모수(모평균 $\mu$)를 포함할 것이다."
즉, 신뢰도 95%라는 말은 '우리가 계산한 이 특정 구간'이 맞을 확률이 95%라는 뜻이 아니라, '이런 식으로 구간을 만드는 우리의 방법'이 95% 정도의 성공률(적중률)을 가진다는 뜻입니다.
📝 상세 예시: 공장의 전구 수명 추정
[상황]
어떤 공장에서 생산된 전구의 **'평균 수명($\mu$)'**을 알고 싶습니다. 하지만 전구 수명을 알려면 모든 전구를 다 켜봐야 하는데, 그러면 팔 물건이 없어지므로 불가능합니다. (모집단 전체 조사 불가능)
[표본 추출]
그래서 공장에서 생산된 전구 중 **100개($n=100$)**를 무작위로 뽑아서 수명 테스트를 진행했습니다.
[표본 데이터]
100개 전구의 표본 평균 수명($\bar{X}$): 800 시간
이 공정의 표준편차는 과거 데이터상 **40 시간($\sigma=40$)**으로 이미 알려져 있다고 가정합니다. (만약 $\sigma$를 모른다면 표본 표준편차 $s$를 사용하고 t-분포를 써야 하지만, 여기서는 Z-분포로 단순화합니다.)
[목표]
**신뢰도 95%**로 이 공장 전구의 '전체 평균 수명($\mu$)'에 대한 신뢰구간을 구해봅시다.
📊 계산 과정
신뢰구간을 구하는 공식은 다음과 같습니다.
신뢰구간 = $\bar{X} \pm Z \cdot \frac{\sigma}{\sqrt{n}}$
각 요소를 대입해 보겠습니다.
점추정값 ($\bar{X}$): 표본평균 = 800 시간
신뢰수준 (Confidence Level): 95%
Z-값 (Critical Value):
신뢰수준 95%는 표준 정규 분포에서 가운데 95%의 면적을 의미합니다.
양쪽 꼬리에 남는 면적은 각각 2.5% (0.025)입니다.
이 2.5% 경계에 해당하는 Z-점수는 1.96입니다. (즉, 0으로부터 $\pm 1.96$ 표준편차 범위 안에 95%가 들어옴)
표준 오차 (Standard Error, $\frac{\sigma}{\sqrt{n}}$):
표본평균($\bar{X}$)이 모평균($\mu$)과 얼마나 떨어져 있을지, 그 변동성의 정도를 나타냅니다.
$\frac{40 \text{ 시간}}{\sqrt{100}} = \frac{40}{10} = $ 4 시간
오차 범위 (Margin of Error, $Z \cdot \frac{\sigma}{\sqrt{n}}$):
$1.96 \times 4 \text{ 시간} = $ 7.84 시간
이것이 95% 신뢰수준에서 허용하는 오차의 한계입니다.
📈 신뢰구간 계산
신뢰구간 = $800 \pm 7.84$
신뢰 하한 (Lower Bound): $800 - 7.84 = 792.16$ 시간
신뢰 상한 (Upper Bound): $800 + 7.84 = 807.84$ 시간
💡 결론 및 해석
"이 공장에서 생산된 전구의 **전체 평균 수명($\mu$)**은 95% 신뢰수준으로 792.16 시간에서 807.84 시간 사이에 있을 것으로 추정됩니다."
[해석의 핵심]
우리가 뽑은 100개의 표본 평균은 800시간이었습니다. 하지만 다른 100개를 뽑으면 798시간이 나올 수도, 802시간이 나올 수도 있습니다.
우리는 이 '표본 추출'이라는 행위가 가질 수 있는 불확실성을 감안하여, "진짜 평균 수명($\mu$)이 792.16 ~ 807.84 범위 안에 있을 것"이라고 추정하는 것입니다. 그리고 이런 식으로 추정하는 우리의 '방법'은 100번 시도하면 95번은 성공(실제 $\mu$를 포함)할 정도로 믿을 만하다는 것이 '신뢰도 95%'의 의미입니다.
❓ 만약 신뢰도를 99%로 높인다면?
더 높은 신뢰(적중률)를 원한다면, 더 넓은 구간을 제시해야 합니다.
**신뢰도 99%**의 Z-값은 (양쪽 0.5%를 제외한) 2.58입니다.
오차 범위: $2.58 \times 4 \text{ 시간} = 10.32$ 시간
99% 신뢰구간: $800 \pm 10.32$ = [789.68, 810.32]
[신뢰도와 정밀도의 관계]
95% 신뢰구간: [792.16, 807.84] (구간 폭: 15.68)
99% 신뢰구간: [789.68, 810.32] (구간 폭: 20.64)
보시다시피, 신뢰도(Confidence)를 높이면 (95% -> 99%) 추정의 정밀도(Precision)는 떨어집니다 (구간이 넓어짐).
"나는 99% 확신해! 평균 수명은 0시간에서 10,000시간 사이야!"라고 말하면 신뢰도는 100%에 가깝겠지만, 아무 쓸모없는 정보인 것과 같습니다. 통계적 추론은 이 신뢰도와 정밀도 사이의 적절한 균형을 찾는 과정입니다.
📊 통계적 추론이란?
간단히 말해, 우리가 전체(모집단)를 다 조사하기 어려울 때, 일부(표본)를 뽑아서 조사한 결과를 바탕으로 전체(모집단)의 특성을 과학적으로 추측하는 과정입니다.
모집단(Population): 알고자 하는 전체 대상 (예: 대한민국 모든 성인의 키)
모수(Parameter): 모집단의 실제 특성값 (예: 대한민국 성인 전체의 평균 키 $\mu$)
표본(Sample): 모집단에서 추출한 일부 대상 (예: 1,000명의 성인)
통계량(Statistic): 표본의 특성값 (예: 1,000명의 평균 키 $\bar{X}$)
이때, 표본 통계량($\bar{X}$)으로 모수($\mu$)를 추정하는 방법에는 두 가지가 있습니다.
점추정 (Point Estimation): "아마 모수는 이 값일 거야"라고 하나의 값으로 추정 (예: 1,000명 표본 평균이 173cm이니, 전국 평균 $\mu$도 173cm일 것이다.) -> 간단하지만, 정확히 맞을 확률이 0%에 가깝습니다.
구간추정 (Interval Estimation): "아마 모수는 이 범위 안에 있을 거야"라고 구간으로 추정 (예: 전국 평균 $\mu$는 172cm와 174cm 사이에 있을 것이다.) -> 틀릴 가능성을 안고 가지만, 훨씬 현실적이고 유용한 정보를 줍니다.
여기서 '구간추정'에 사용되는 핵심 개념이 바로 '신뢰도'와 '신뢰구간'입니다.
💡 핵심 개념: 신뢰도와 신뢰구간
1. 신뢰구간 (Confidence Interval)
"우리가 추정한 모수가 실제로 포함될 것이라고 기대되는 값의 범위"
표본에서 얻은 점추정값(예: 표본평균 $\bar{X}$)을 중심으로, "얼마나 틀릴 수 있는지(오차범위)"를 계산하여 더하고 뺀 구간입니다.
신뢰구간 = 점추정값 $\pm$ 오차범위 (Margin of Error)
2. 신뢰도 (Confidence Level)
"우리가 만든 이 신뢰구간이, '진짜 모수'를 포함하고 있을 것이라고 믿는 정도" (보통 90%, 95%, 99% 등을 사용합니다)
이 개념은 조금 까다롭습니다. 많은 사람들이 "모평균이 이 구간 안에 있을 확률"이라고 오해하지만, 정확한 의미는 다음과 같습니다.
정확한 의미: "만약 우리가 같은 방식으로 표본을 100번 뽑아서 100개의 신뢰구간을 만든다면, 그중 약 95개는 실제 모수(모평균 $\mu$)를 포함할 것이다."
즉, 신뢰도 95%라는 말은 '우리가 계산한 이 특정 구간'이 맞을 확률이 95%라는 뜻이 아니라, '이런 식으로 구간을 만드는 우리의 방법'이 95% 정도의 성공률(적중률)을 가진다는 뜻입니다.
📝 상세 예시: 공장의 전구 수명 추정
[상황]
어떤 공장에서 생산된 전구의 **'평균 수명($\mu$)'**을 알고 싶습니다. 하지만 전구 수명을 알려면 모든 전구를 다 켜봐야 하는데, 그러면 팔 물건이 없어지므로 불가능합니다. (모집단 전체 조사 불가능)
[표본 추출]
그래서 공장에서 생산된 전구 중 **100개($n=100$)**를 무작위로 뽑아서 수명 테스트를 진행했습니다.
[표본 데이터]
100개 전구의 표본 평균 수명($\bar{X}$): 800 시간
이 공정의 표준편차는 과거 데이터상 **40 시간($\sigma=40$)**으로 이미 알려져 있다고 가정합니다. (만약 $\sigma$를 모른다면 표본 표준편차 $s$를 사용하고 t-분포를 써야 하지만, 여기서는 Z-분포로 단순화합니다.)
[목표]
**신뢰도 95%**로 이 공장 전구의 '전체 평균 수명($\mu$)'에 대한 신뢰구간을 구해봅시다.
📊 계산 과정
신뢰구간을 구하는 공식은 다음과 같습니다.
신뢰구간 = $\bar{X} \pm Z \cdot \frac{\sigma}{\sqrt{n}}$
각 요소를 대입해 보겠습니다.
점추정값 ($\bar{X}$): 표본평균 = 800 시간
신뢰수준 (Confidence Level): 95%
Z-값 (Critical Value):
신뢰수준 95%는 표준 정규 분포에서 가운데 95%의 면적을 의미합니다.
양쪽 꼬리에 남는 면적은 각각 2.5% (0.025)입니다.
이 2.5% 경계에 해당하는 Z-점수는 1.96입니다. (즉, 0으로부터 $\pm 1.96$ 표준편차 범위 안에 95%가 들어옴)
표준 오차 (Standard Error, $\frac{\sigma}{\sqrt{n}}$):
표본평균($\bar{X}$)이 모평균($\mu$)과 얼마나 떨어져 있을지, 그 변동성의 정도를 나타냅니다.
$\frac{40 \text{ 시간}}{\sqrt{100}} = \frac{40}{10} = $ 4 시간
오차 범위 (Margin of Error, $Z \cdot \frac{\sigma}{\sqrt{n}}$):
$1.96 \times 4 \text{ 시간} = $ 7.84 시간
이것이 95% 신뢰수준에서 허용하는 오차의 한계입니다.
📈 신뢰구간 계산
신뢰구간 = $800 \pm 7.84$
신뢰 하한 (Lower Bound): $800 - 7.84 = 792.16$ 시간
신뢰 상한 (Upper Bound): $800 + 7.84 = 807.84$ 시간
💡 결론 및 해석
"이 공장에서 생산된 전구의 **전체 평균 수명($\mu$)**은 95% 신뢰수준으로 792.16 시간에서 807.84 시간 사이에 있을 것으로 추정됩니다."
[해석의 핵심]
우리가 뽑은 100개의 표본 평균은 800시간이었습니다. 하지만 다른 100개를 뽑으면 798시간이 나올 수도, 802시간이 나올 수도 있습니다.
우리는 이 '표본 추출'이라는 행위가 가질 수 있는 불확실성을 감안하여, "진짜 평균 수명($\mu$)이 792.16 ~ 807.84 범위 안에 있을 것"이라고 추정하는 것입니다. 그리고 이런 식으로 추정하는 우리의 '방법'은 100번 시도하면 95번은 성공(실제 $\mu$를 포함)할 정도로 믿을 만하다는 것이 '신뢰도 95%'의 의미입니다.
❓ 만약 신뢰도를 99%로 높인다면?
더 높은 신뢰(적중률)를 원한다면, 더 넓은 구간을 제시해야 합니다.
**신뢰도 99%**의 Z-값은 (양쪽 0.5%를 제외한) 2.58입니다.
오차 범위: $2.58 \times 4 \text{ 시간} = 10.32$ 시간
99% 신뢰구간: $800 \pm 10.32$ = [789.68, 810.32]
[신뢰도와 정밀도의 관계]
95% 신뢰구간: [792.16, 807.84] (구간 폭: 15.68)
99% 신뢰구간: [789.68, 810.32] (구간 폭: 20.64)
보시다시피, 신뢰도(Confidence)를 높이면 (95% -> 99%) 추정의 정밀도(Precision)는 떨어집니다 (구간이 넓어짐).
"나는 99% 확신해! 평균 수명은 0시간에서 10,000시간 사이야!"라고 말하면 신뢰도는 100%에 가깝겠지만, 아무 쓸모없는 정보인 것과 같습니다. 통계적 추론은 이 신뢰도와 정밀도 사이의 적절한 균형을 찾는 과정입니다.
과정 정리
정규분포는 C.F.Gauss에 의해 정리된 분포로써 평균을 중심으로 좌우가 대칭이며, 종 모양을 하고 있다.
정규분포의 특수한 형태인 표준정규분포는 평균이 0이고 표준편차가 1인 정규분포를 의미한다.
W.Gosset에 의해 제안된 t-분포는 Sudent t-분포라고도 하며 표준정규분포와 유사한 모양을 갖는다. -분포는 자유도에 따라 달라지며 자유도가 커질수록 표준정규분포에 근사한다.
중심극한정리는 충분히 많은 semple의 평균은 정규분포를 따른다는 이론이며, 충분히 많다는 의미는 원 자료의 대칭성에 따라 달라진다.
결과가 둘 중 하나로만 나타나는 베르누이 시행을 여러번 시행 했을때 관심 있는
결과가 나온다는 횟수는 이항분포를 따른다. 불량수 혹은 불량률과 같은 자료들이 이항분포를 따르게 된다.
포아송분포는 주로 빈도와 같이 일정한 Unit내에서 발생하는 사건의 횟수가 포아송분포 를 따르게 되며, 결점수 혹은 결점을과 같은 자료가 포아송 분포를 따르게 된다.
댓글 없음:
댓글 쓰기