728x90
반응형
Two main branches of statistics
- Descriptive Statistics (기술통계): 확보한 데이터를 이해하기 쉬운 수치로 요약하는 기법.
- Ways of organizing, summarizing, and describing quantifiable data
- 각 변수의 평균치를 계산하거나 각 변수간의 상호관계를 요약한 수치를 계산함으로써 데이터에 대한 이해를 심화할 수 있음.
- Ex) 일별 신규 코로나 확진자 수 그래프, 주식차트
- Inferential Statistics (추리통계): 표본의 자료를 토대로 가설을 검증하거나 앞으로의 사상을 확률적으로 예측하는 기법
- drawing conclusions/inferences based on the data collected and making predictions that go beyond the immediate data (generalizing upon them)
- Using sample data to reach conclusions about the population from which the sample was taken
- 주요한 개념: 유의수준(significance level), 효과크기(effect size)
▶ In short, statistics are about summarizing and answering questions based on data.
============================================================================
Populations & Samples
- Population (모집단): the set of all the individuals of interest (통계분석 방법을 적용할 관심 대상의 전체 집합)
- The entire group that you want to draw conclusions about
- Populations are often so large that it is impossible to obtain measurements from all the individuals.
- Some populations are infinite or hypothetical, they cannot be measured. (물리적인 한계로 인해 모집단 전체를 전수조사하기 쉽지 않음.)
- Ex) All individuals with schizophrenia, Advertisement for IT jobs in Korea
- Sample (표본): a set of individuals selected from a population (과학적인 절차를 적용하여 모집단을 대표할 수 있는 일부를 추출하여 직접적인 조사 대상이 된 모집단의 일부
- The specific group that you will collect data from.
- we usually want samples to be representative (not biased) and generalizable
- Ex) individuals with schizophrenia in Korea, Top 50 search results for advertisements for IT jobs in Korea
Parameters & Statistics
A parameter describes a population, whereas a statistic describes a sample
- Parameter (모수): numbers that summarize data for an entire population
- 모집단을 분석하여 얻어지는 결과 수치, 표본 관측에 의해 구하고자 하는 전체 모집단에 대한 정보
- 모평균, 모분산, 모표준편차, 모비율
- Ex) Average BMI for all U.S University students.
- Statistics (통계량): numbers that summarize data from a sample
- 표본을 분석하여 얻어지는 결과 수치
- Ex) Average BMI for Harvard University students
Sampling Error (inferential statistics)
Sampling Error (표본오차): the discrepancy between the sample statistic and the true population parameter it is estimating
- 모집단을 대표할 수 있는 전형적인 구성 요소를 선택하지 못함으로써 발생하는 오차. 이러한 표본오차는 편의(bias)와 우연(chance)에 의해 발생함.
To reduce sampling error:
- Use a sufficiently large sample
- 우연에 의한 표본오차는 표본의 크기를 증가시킴으로써 감소시킬 수 있음.
- Use random selection: selecting individuals from the population at random for your sample to create an unbiased sample (sometimes bias is subtle)
- 편의에 의한 오차는 표본 선택 방법을 엄격히 함으로써 줄일 수 있음.
728x90
반응형
'Main > Biostatistics' 카테고리의 다른 글
Biostatistics #2-2 (Shape of Distribution, 분포의 모양) (0) | 2022.02.05 |
---|---|
Biostatistics #2-1 (데이터 체계화, Organizing Data - Frequency Distribution) (0) | 2022.02.04 |
Biostatistics #1-4 (Scales of Measurement) (0) | 2022.02.03 |
Biostatistics #1-3 (Types of Study) (0) | 2022.01.26 |
Biostatistics #1-2 (Types of Variables) (0) | 2022.01.24 |