728x90
학습 내용
- 다양한 평균 측정 방식에 대해 정리해 보고자 한다
상황에 따라 어떤 평균 값을 사용해야 하는지 이해해보자
들어가며
- 평가지표로 많이 쓰는 F1 score에 대해 학습하다가 조화평균을 어떨 때 쓰는지 이해해보고 싶어서 정리해보게 되었다.
1. 산술평균 (Arithmetic Mean)
수식
산술평균은 가장 일반적인 평균 계산 방식이다.
$ n $개의 데이터 $ x_1, x_2, \ldots, x_n $에 대해 산술평균 $\bar{x}$는 다음과 같이 계산된다.
$$ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i $$
예시
- 테스트 점수: 학생들의 시험 점수를 평균 내어 전체 성적의 경향을 파악하고자 할 때.
- 연봉: 조직의 연봉 데이터에서 평균 연봉을 파악할 때.
- 일반적인 산출물: 매출액, 생산량 등의 평균을 구할 때.
2. 기하평균 (Geometric Mean)
수식
기하평균은 주어진 데이터의 곱의 n제곱근으로 계산된다.
$ n $개의 데이터 $ x_1, x_2, \ldots, x_n $에 대해 기하평균 $ G $는 다음과 같이 계산된다.
$ G = \left( \prod_{i=1}^n x_i \right)^{\frac{1}{n}} $
또는, 로그를 사용하여 다음과 같이 계산할 수도 있다.
$ G = \exp \left( \frac{1}{n} \sum_{i=1}^n \ln(x_i) \right) $
예시
- 성장률 계산: 투자 수익률, 인구 성장률 등 연간 성장률의 평균을 구할 때.
- 측정 단위가 상대적인 데이터: 비율이나 지수의 평균을 계산할 때.
3. 조화평균 (Harmonic Mean)
수식
조화평균은 주어진 데이터의 역수의 산술평균의 역수로 계산된다.
$ n $개의 데이터 $ x_1, x_2, \ldots, x_n $에 대해 조화평균 $ H $는 다음과 같이 계산된다.
$ H = \frac{n}{\sum_{i=1}^n \frac{1}{x_i}} $
예시
- 속도: 일정 거리에서 여러 구간의 속도의 평균을 구할 때.
- 비율 데이터: 여러 비율의 평균을 구할 때, 특히 각 비율이 동일한 가중치를 가질 때.
사용 예시 정리
- 산술평균: 데이터의 단순한 합이 필요한 경우 (테스트 점수, 생산량 등).
- 기하평균: 비율, 상대적 변화율이 중요한 경우 (투자 성과, 성장률 등).
- 조화평균: 속도나 비율의 평균을 계산해야 하는 경우 (속도, 비율의 평균 등).
각 평균 방법은 데이터의 특성이나 분석의 목적에 맞추어 선택되어야 한다.
잘못된 평균을 사용할 경우 분석 결과가 왜곡될 수 있으므로 적절한 평균 방식을 선택하는 것이 중요하다.
F1-score의 기하학적 의미
- 기하학적으로 봤을때 단순 평균이라기보다는 작은 길이 쪽으로 치우치게된, 그러면서 작은 길이 보다도 작은 평균이 도출됨
- 이렇게 조화평균을 이용하면 산술평균을 이용하는 것보다, 큰 비중이 끼치는 bias가 줄어든다고 볼 수 있음
- 즉, 아래 그림에서는 Precision보다 큰 길이(=비중)을 차지하는 Recall이 끼치는 bias가 줄어든 값으로 F1-score를 얻게됨
참고자료
저와 같은 궁금증을 가지신 분이 계셔서 신기했습니다!
728x90
'AIFFLE > INFO' 카테고리의 다른 글
데이터 분석 학습 및 프로젝트를 위한 데이터 수집 사이트, 꿀팁 정리 (0) | 2024.06.03 |
---|---|
numpy 정수형 데이터의 처리방식으로 인한 오류 (0) | 2024.05.24 |