학습 내용
- 데이터 수집, 다운로드를 할 수 있는 다양한 사이트들을 공유하고자 한다
데이터 분석을 하려하는데 필요한 데이터셋을 좀 더 쉽게 찾을 수 있다.
빅데이터 분석을 위한 데이터셋
- 공모전이나 데이터 분석 공부를 위해서는 충분한 양의 데이터 셋 확보가 중요한 과제이다
- 데이터를 수집하기 위해서는 시간과 비용이 많이 소모된다
- 이를 줄이기 위해서 기존에 공개된 데이터를 먼저 찾아보는 것이 중요하다
- 이를 위해서 몇 개의 유용한 사이트를 공유하고자 한다
공공데이터
AI HUB
- 다양한 데이터셋이 많고 대용량의 데이터가 많은 편이라 실제 큰 프로젝트나 딥러닝 학습용 데이터셋을 찾을 때 가장 유용한 것 같다
공공 데이터 포털
- 우리나라의 여러 공공데이터들을 모아 둔 포털이다
- 일상 문제 해결을 위해 데이터를 수집할 때 자주 사용했다
서울 열린 데이터광장
국립국어원 말뭉치
- 검증되고 품질 좋은 데이터를 얻을 수 있다
한국도로공사 오픈오아시스
보건의료 빅데이터 개방시스템
https://opendata.hira.or.kr/home.do
전력 빅데이터 센터
경기데이터드림
https://data.gg.go.kr/portal/mainPage.do
농림축산식품 공공데이터포털
경기통계
국가통계포털
e-나라지표
ALIO
국가공간정보포털
TourAPI
K-ICT빅데이터센터
KAMP
민간데이터
데이터스토어
빅카인즈
대부분 언론매체의 뉴스를 가지고 있다.
문화 빅데이터 플랫폼
http://www.bigdata-culture.kr/bigdata/
데이콘
- 양질의 데이터를 얻을 수 있으나 라이선스에 주의해야 한다
서울특별시 빅데이터 캠퍼스
https://bigdata.seoul.go.kr/main.do
해외 데이터
Google Dataset Search
https://datasetsearch.research.google.com/
캐글
https://www.kaggle.com/datasets
UCI Machine Learning Repository
https://archive.ics.uci.edu/ml
Papers with Code
https://paperswithcode.com/datasets
- 인공지능 관련 논문, 코드, 데이터 등을 무료로 제공하는 사이트
Awesome Public Datasets Github
https://github.com/awesomedata/awesome-public-datasets
Data World Bank
데이터 찾는 꿀팁 공유
공모전
- 개인적으로 데이터 셋 찾을 때 제일 먼저 공공데이터 포털에서 검색한 후에 공공데이터 포털에서 검색하면 다른 공공데이터셋 링크로 타고 넘어가게 되는 경우가 많다
- 또한, 주제에 따라서 kaggle이나 내 주제와 유사한 대회를 보고 공개된 코드를 참고해서 수집한 데이터를 보고 나도 추가로 수집하는 것도 좋은 방식이라 생각한다.
프로젝트 및 학습
- kaggle이 왠만한 task가 다있어서 일단 검색해보고 일단 훑어보고 추가 수집하는 것을 추천한다
- 참고 코드도 많아서 이 방식을 추천한다
참고자료
'AIFFLE > INFO' 카테고리의 다른 글
numpy 정수형 데이터의 처리방식으로 인한 오류 (0) | 2024.05.24 |
---|---|
다양한 평균 측정 방식에 대한 이해 - 산술, 조화, 기하평균 (2) | 2024.05.23 |