본문 바로가기

AIFFLE/INFO

데이터 분석 학습 및 프로젝트를 위한 데이터 수집 사이트, 꿀팁 정리

728x90
학습 내용
  • 데이터 수집, 다운로드를 할 수 있는 다양한 사이트들을 공유하고자 한다
    데이터 분석을 하려하는데 필요한 데이터셋을 좀 더 쉽게 찾을 수 있다.

 

 

빅데이터 분석을 위한 데이터셋 

  • 공모전이나 데이터 분석 공부를 위해서는 충분한 양의 데이터 셋 확보가 중요한 과제이다
  • 데이터를 수집하기 위해서는 시간과 비용이 많이 소모된다
  • 이를 줄이기 위해서 기존에 공개된 데이터를 먼저 찾아보는 것이 중요하다
  • 이를 위해서 몇 개의 유용한 사이트를 공유하고자 한다

 

공공데이터

AI HUB

https://aihub.or.kr/

- 다양한 데이터셋이 많고 대용량의 데이터가 많은 편이라 실제 큰 프로젝트나 딥러닝 학습용 데이터셋을 찾을 때 가장 유용한 것 같다

 

공공 데이터 포털

https://www.data.go.kr/

- 우리나라의 여러 공공데이터들을 모아 둔 포털이다

- 일상 문제 해결을 위해 데이터를 수집할 때 자주 사용했다

 

서울 열린 데이터광장

https://data.seoul.go.kr/

 

국립국어원 말뭉치

https://corpus.korean.go.kr/

- 검증되고 품질 좋은 데이터를 얻을 수 있다

 

한국도로공사 오픈오아시스

http://data.ex.co.kr/

 

보건의료 빅데이터 개방시스템

https://opendata.hira.or.kr/home.do

 

전력 빅데이터 센터

https://bigdata.kepco.co.kr

 

경기데이터드림

https://data.gg.go.kr/portal/mainPage.do

 

농림축산식품 공공데이터포털

http://data.mafra.go.kr/

 

경기통계

https://stat.gg.go.kr/statgg/

 

국가통계포털

http://kosis.kr/

 

e-나라지표

https://www.index.go.kr/

 

ALIO

https://alio.go.kr/

 

국가공간정보포털

http://www.nsdi.go.kr/

 

TourAPI

http://api.visitkorea.or.kr/

 

K-ICT빅데이터센터

https://kbig.kr/portal/kbig

 

KAMP

https://www.kamp-ai.kr/

 

 

민간데이터

데이터스토어

https://www.datastore.or.kr/

 

빅카인즈

https://www.bigkinds.or.kr/

대부분 언론매체의 뉴스를 가지고 있다.

 

문화 빅데이터 플랫폼

http://www.bigdata-culture.kr/bigdata/

 

데이콘

https://dacon.io/

- 양질의 데이터를 얻을 수 있으나 라이선스에 주의해야 한다

 

서울특별시 빅데이터 캠퍼스

https://bigdata.seoul.go.kr/main.do

 

 

해외 데이터

Google Dataset Search

https://datasetsearch.research.google.com/

 

캐글

https://www.kaggle.com/datasets

 

UCI Machine Learning Repository

https://archive.ics.uci.edu/ml

 

Papers with Code

https://paperswithcode.com/datasets

- 인공지능 관련 논문, 코드, 데이터 등을 무료로 제공하는 사이트

 

Awesome Public Datasets Github

https://github.com/awesomedata/awesome-public-datasets

 

Data World Bank

https://data.worldbank.org/

 

 

데이터 찾는 꿀팁 공유

공모전

- 개인적으로 데이터 셋 찾을 때 제일 먼저 공공데이터 포털에서 검색한 후에 공공데이터 포털에서 검색하면 다른 공공데이터셋 링크로 타고 넘어가게 되는 경우가 많다

- 또한, 주제에 따라서 kaggle이나 내 주제와 유사한 대회를 보고 공개된 코드를 참고해서 수집한 데이터를 보고 나도 추가로 수집하는 것도 좋은 방식이라 생각한다.

 

프로젝트 및 학습

- kaggle이 왠만한 task가 다있어서 일단 검색해보고 일단 훑어보고 추가 수집하는 것을 추천한다

- 참고 코드도 많아서 이 방식을 추천한다

 

참고자료

https://velog.io/@hunterhunter/데이터를-얻을-수-있는-사이트

https://eunchankim-dev.tistory.com/16

728x90