Biostatistics #1-1 Introduction to Statistics

by research_notes 2022. 1. 21.

Two main branches of statistics

  • Descriptive Statistics (기술통계): 확보한 데이터를 이해하기 쉬운 수치로 요약하는 기법.
    • Ways of organizing, summarizing, and describing quantifiable data
    • 각 변수의 평균치를 계산하거나 각 변수간의 상호관계를 요약한 수치를 계산함으로써 데이터에 대한 이해를 심화할 수 있음. 
    • Ex) 일별 신규 코로나 확진자 수 그래프, 주식차트

  • Inferential Statistics (추리통계): 표본의 자료를 토대로 가설을 검증하거나 앞으로의 사상을 확률적으로 예측하는 기법
    • drawing conclusions/inferences based on the data collected and making predictions that go beyond the immediate data (generalizing upon them)
    • Using sample data to reach conclusions about the population from which the sample was taken
    • 주요한 개념: 유의수준(significance level), 효과크기(effect size)

▶ In short, statistics are about summarizing and answering questions based on data. 






Populations & Samples

  • Population (모집단): the set of all the individuals of interest (통계분석 방법을 적용할 관심 대상의 전체 집합)
    • The entire group that you want to draw conclusions about
    • Populations are often so large that it is impossible to obtain measurements from all the individuals.
    • Some populations are infinite or hypothetical, they cannot be measured. (물리적인 한계로 인해 모집단 전체를 전수조사하기 쉽지 않음.)
    • Ex) All individuals with schizophrenia, Advertisement for IT jobs in Korea
  • Sample (표본): a set of individuals selected from a population (과학적인 절차를 적용하여 모집단을 대표할 수 있는 일부를 추출하여 직접적인 조사 대상이 된 모집단의 일부
    • The specific group that you will collect data from.
    • we usually want samples to be representative (not biased) and generalizable
    • Ex) individuals with schizophrenia in Korea, Top 50 search results for advertisements for IT jobs in Korea


Parameters & Statistics

A parameter describes a population, whereas a statistic describes a sample

  • Parameter (모수): numbers that summarize data for an entire population
    • 모집단을 분석하여 얻어지는 결과 수치, 표본 관측에 의해 구하고자 하는 전체 모집단에 대한 정보 
    • 모평균, 모분산, 모표준편차, 모비율
    • Ex) Average BMI for all U.S University students.
  • Statistics (통계량): numbers that summarize data from a sample
    • 표본을 분석하여 얻어지는 결과 수치
    • Ex) Average BMI for Harvard University students


Sampling Error (inferential statistics)

Sampling Error (표본오차): the discrepancy between the sample statistic and the true population parameter it is estimating

- 모집단을 대표할 수 있는 전형적인 구성 요소를 선택하지 못함으로써 발생하는 오차. 이러한 표본오차는 편의(bias)와 우연(chance)에 의해 발생함. 


To reduce sampling error:

  • Use a sufficiently large sample
    • 우연에 의한 표본오차는 표본의 크기를 증가시킴으로써 감소시킬 수 있음.
  • Use random selection: selecting individuals from the population at random for your sample to create an unbiased sample (sometimes bias is subtle)
    • 편의에 의한 오차는 표본 선택 방법을 엄격히 함으로써 줄일 수 있음. 

