본문 바로가기

AIFFLE/INFO

다양한 평균 측정 방식에 대한 이해 - 산술, 조화, 기하평균

728x90

학습 내용

  • 다양한 평균 측정 방식에 대해 정리해 보고자 한다
    상황에 따라 어떤 평균 값을 사용해야 하는지 이해해보자

 

들어가며

- 평가지표로 많이 쓰는 F1 score에 대해 학습하다가 조화평균을 어떨 때 쓰는지 이해해보고 싶어서 정리해보게 되었다.

 

1. 산술평균 (Arithmetic Mean)

수식

산술평균은 가장 일반적인 평균 계산 방식이다.

$ n $개의 데이터 $ x_1, x_2, \ldots, x_n $에 대해 산술평균 $\bar{x}$는 다음과 같이 계산된다.

 

$$ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i $$

예시

  • 테스트 점수: 학생들의 시험 점수를 평균 내어 전체 성적의 경향을 파악하고자 할 때.
  • 연봉: 조직의 연봉 데이터에서 평균 연봉을 파악할 때.
  • 일반적인 산출물: 매출액, 생산량 등의 평균을 구할 때.

 

2. 기하평균 (Geometric Mean)

수식

기하평균은 주어진 데이터의 곱의 n제곱근으로 계산된다.

$ n $개의 데이터 $ x_1, x_2, \ldots, x_n $에 대해 기하평균 $ G $는 다음과 같이 계산된다.

 

$ G = \left( \prod_{i=1}^n x_i \right)^{\frac{1}{n}} $

 

또는, 로그를 사용하여 다음과 같이 계산할 수도 있다.

 

$ G = \exp \left( \frac{1}{n} \sum_{i=1}^n \ln(x_i) \right) $

예시

  • 성장률 계산: 투자 수익률, 인구 성장률 등 연간 성장률의 평균을 구할 때.
  • 측정 단위가 상대적인 데이터: 비율이나 지수의 평균을 계산할 때.

 

3. 조화평균 (Harmonic Mean)

수식

조화평균은 주어진 데이터의 역수의 산술평균의 역수로 계산된다.

$ n $개의 데이터 $ x_1, x_2, \ldots, x_n $에 대해 조화평균 $ H $는 다음과 같이 계산된다.

$ H = \frac{n}{\sum_{i=1}^n \frac{1}{x_i}} $

예시

  • 속도: 일정 거리에서 여러 구간의 속도의 평균을 구할 때.
  • 비율 데이터: 여러 비율의 평균을 구할 때, 특히 각 비율이 동일한 가중치를 가질 때.

 

사용 예시 정리

  • 산술평균: 데이터의 단순한 합이 필요한 경우 (테스트 점수, 생산량 등).
  • 기하평균: 비율, 상대적 변화율이 중요한 경우 (투자 성과, 성장률 등).
  • 조화평균: 속도나 비율의 평균을 계산해야 하는 경우 (속도, 비율의 평균 등).

각 평균 방법은 데이터의 특성이나 분석의 목적에 맞추어 선택되어야 한다.

잘못된 평균을 사용할 경우 분석 결과가 왜곡될 수 있으므로 적절한 평균 방식을 선택하는 것이 중요하다.

 

F1-score의 기하학적 의미

  • 기하학적으로 봤을때 단순 평균이라기보다는 작은 길이 쪽으로 치우치게된, 그러면서 작은 길이 보다도 작은 평균이 도출됨
  • 이렇게 조화평균을 이용하면 산술평균을 이용하는 것보다, 큰 비중이 끼치는 bias가 줄어든다고 볼 수 있음
  • 즉, 아래 그림에서는 Precision보다 큰 길이(=비중)을 차지하는 Recall이 끼치는 bias가 줄어든 값으로 F1-score를 얻게됨

 

 

 


참고자료

저와 같은 궁금증을 가지신 분이 계셔서 신기했습니다!

https://velog.io/@oneofakindscene/%ED%8F%89%EA%B7%A0%EC%9D%98-%EC%A2%85%EB%A5%98%EC%82%B0%EC%88%A0%ED%8F%89%EA%B7%A0-%EA%B8%B0%ED%95%98%ED%8F%89%EA%B7%A0-%EC%A1%B0%ED%99%94%ED%8F%89%EA%B7%A0

 

728x90