본문 바로가기

AIFFLE

(31)
[kaggle] 포켓몬 분류하기 프로젝트 (Tree 모델들의 Feature importance를 확인해보자) 학습 내용Tree 모델들의 Feature importance를 확인해보자Feature importance를 바탕으로 Feature를 선택하고 이에 따른 성능 변화를 확인할 수 있다 추가적으로 배울 수 있는 것다양한 전처리 기법들 ( 문자열 전처리를 위한 정규식, 원핫인코딩 형태로 변환)시각화 방법 들어가며오늘은 전설의 포켓몬 분류하기 프로젝트를 진행하였습니다.그러다가 문득 상관관계가 높은 피처를 발견하게 되었고, 이 피처의 존재유무가 성능에 어떤 영항을 끼치는 지에 대한 의문점이 생겨서 이에 대해 학습하게 되었습니다.모델은 결정트리 한가지 모델만 사용하였고, 피처 엔지니어링에 따른 변화를 확인하는 데에 중점을 두었습니다.나아가 트리모델에서의 피처 중요도를 확인하고, 시각화하는 과정을 중심으로 봐주시면 ..
numpy 정수형 데이터의 처리방식으로 인한 오류 학습 내용python에서의 정수형 데이터 처리 방식을 이해한다numpy의 정수형 데이터 처리방식을 이해한다 (C언어) 들어가며p 값의 변화에 따른 norm 값의 변화를 직접 확인해보고자 아래 코드를 실행시키다 보니 19부터 numpy 패키지를 통해 계산한 값과 직접 하드코딩으로 계산한 값의 차이가 나타나기 시작했다. 이에 대한 힌트를 찾기 위해 numpy github를 찾아봤다.- np.linalg.norm(x, ord=p)의 처리방식을 비교하여 이 문제를 해결할 수 있었다.https://github.com/numpy/numpy/blob/d35cd07ea997f033b2d89d349734c61f5de54b0d/numpy/linalg/linalg.py#L2536위 데이터는 정수형으로 저장되어 있어서 Pyt..
다양한 평균 측정 방식에 대한 이해 - 산술, 조화, 기하평균 학습 내용다양한 평균 측정 방식에 대해 정리해 보고자 한다상황에 따라 어떤 평균 값을 사용해야 하는지 이해해보자 들어가며- 평가지표로 많이 쓰는 F1 score에 대해 학습하다가 조화평균을 어떨 때 쓰는지 이해해보고 싶어서 정리해보게 되었다. 1. 산술평균 (Arithmetic Mean)수식산술평균은 가장 일반적인 평균 계산 방식이다.$ n $개의 데이터 $ x_1, x_2, \ldots, x_n $에 대해 산술평균 $\bar{x}$는 다음과 같이 계산된다. $$ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i $$예시테스트 점수: 학생들의 시험 점수를 평균 내어 전체 성적의 경향을 파악하고자 할 때.연봉: 조직의 연봉 데이터에서 평균 연봉을 파악할 때.일반적인 산출물: 매출액,..
평가지표 - accuracy, precision, recall, F score, PR curve, AUC-ROC 학습 내용- Loss와 Metric- Confusion Matrix 와 Precision/Recall- Threshold의 변화에 따른 모델 성능- Precision-Recall 커브- ROC 커브 Loss와 Metric loss와 metric은 단순히 수식의 차이로 설명할 수는 없다.loss과 metric은 사용되는 시점과 용도가 다르다Loss : 모델 학습시 학습데이터(train data) 를 바탕으로 계산되어, 모델의 파라미터 업데이트에 활용되는 함수Metric : 모델 학습 종료 후 테스트데이터(test data) 를 바탕으로 계산되어, 학습된 모델의 성능을 평가하는데 활용되는 함수RMSE(Root Mean Square Error) 라는 개념은 Loss 함수로도 사용되기도 하고, 회귀 모델의 Me..
[DL] 일반화 성능 향상시키기 학습 내용일반화 성능을 향상 시키기 위한 여러가지 방법에 대해 알아보자과대적합 방지기법들에 대해 알아보자  일반화 성능 극대화 + 과대적합 방지하기 위한 방법 요약훈련 데이터를 더 모음. 더 나은 데이터를 모음더 나은 특성을 개발네트워크 용량 감소(작은 모델을 만들기 위해) 가중치 규제를 추가드롭아웃 추가배치 정규화  데이터셋 큐레이션적절한 데이터셋으로 작업하고 있는지 확인하는 것이 중요데이터가 충분한지 확인입력에서 출력을 매핑하는 공간을 조밀하게 샘플링데이터가 많을 수록 좋은 모델레이블 할당 에러 최소화입력 시각화하여 이상치 확인, 레이블 교정데이터 정제, 누락된 값 처리많은 특성 중에서 어떤 것이 유용한지 확실하지 않다면 특성 선택을 수행 특성 공학데이터와 머신 러닝 알고리즘(신경망)에 관한 지식을 ..
텐서의 이해 학습 내용신경망을 위한 데이터 표현 방식인 텐서에 대해 이해한다 텐서머신 러닝의 기본 구성 요소데이터를 위한 컨테이너(container), 일반적으로 수치형 데이터를 다루므로 숫자를 위한 컨테이너임의의 차원 개수를 가지는 행렬의 일반화된 모습텐서에서는 차원(dimension)을 축이라고 부름 Scalars (rank-0 tensors)하나의 숫자만 담고 있는 텐서(numpy) 스칼라텐서(array scalar) : float32, float64 타입의 숫자축 개수(rank) : 0 (ndim == 0)# 0D Tensor(Scalar)x = np.array(1) # numpyt0 = tf.constant(1) # tensorflow Vectors (rank-1 tensors)숫자의 배열#..
머신러닝과 딥러닝 학습 내용머신러닝과 딥러닝의 개념에 대해 알아보자 머신러닝 (Machine Learning)말 그대로 '기계가 학습한다'라고 이해하는 것이 좋음 "learns" from data가 핵심기존의 CS(computer science) 방식 : input + program -> output을 내는 방식Machine Learning : input과 output을 주면 알아서 알고리즘을 찾아내는 것Algorithms that improve on some task with experience 머신러닝과 딥러닝의 차이머신러닝과 딥러닝의 가장 큰 차이는 feature 추출 과정이 학습과정에서 존재 한다딥러닝머신러닝의 한 종류로 Neural Network를 의미학습데이터와 정답과의 관계를 통해 이미지의 특징을 스스로 학습..
[Linux] 리눅스(Linux) 명령어 쉽게 찾아보기 - man, tldr 학습 내용Linux 명령어와 옵션 등을 쉽게 사용하기 위한 팁을 공유한다  Linux 명령어Linux 명령어를 통해 데이터를 다루고자 하였는데 명령어가 아직 익숙하지 않아서 이를 익히기 위해 찾아보다가 좋은 패키지를 발견해서 공유하고자 한다.먼저, 기본적으로 man를 사용할 수 있다. 예시로 cat 명령어가 어렵게 느껴져 cat 명령어에 대한 옵션과 사용법을 알고자 하였다.man cat 결국 이를 보고도 다시 실제 사용예시를 보게 되는 경우가 잦은 것 같다.그러던 와중에 tldr을 알게 되었고, 이를 활용하면 좀 더 빠르고 쉽게 command를 사용할 수 있을 것 같다는 생각이 들었다실제 실행결과는 다음과 같다. 예시까지 깔끔하게 제시되어 있어 편리하다 Tldr 패키지 설치하기 맥os 사용자 기준 ho..

반응형