Memorization
20220627 TIL
코드파고
2022. 6. 27. 21:44
[오늘의 일정]
REST API, ERD 설계(진행중)
구현 역할 분담(미뤄질 것 같음)
[프로젝트 진행 상황 간략하게 정리 + 주절거리기]
우리가 원하는 틀에 맞추어 새로 데이터를 쌓는 것 보다 외부에서 데이터를 가지고 와서 가공하는 것이 더 어려운 것 같다.
특히나 외부 데이터의 양이 방대하고 품질이 좋지 못하면 더 어려움이 생긴다. 😅
지금 그 문제점이 진행을 더디게 만드는데, 어떻게 고품질의 데이터를 수집하며, 원하는 대로 가공할 지 계속 고민중이다.
이런 경우에는
1. 데이터의 범위를 줄인다 (우리 프로젝트를 예로 들자면 전국의 데이터에서 👉 서울, 경기권의 데이터로 범위를 한정)
2. 외부의 데이터를 제한한다 (순수하게 우리의 데이터로 서비스하자)
이 두 가지 일 것이다.
이전 프로젝트를 진행했을 때는 크롤링을 통해 데이터를 얻어오고 서버에 저장했으나, 속도가 상당히 느렸고 가공할 때의 예외상황도 많았던 것으로 기억한다. 공공 API를 사용해서 가공하려고 하는데, 아무래도 크롤링보다는 속도가 빠르겠지만 Null값도 많이 존재하고, 원하는 값을 예쁘게 뽑아주지 못한다.
흠... 이 데이터 문제를 어떻게 풀어나가게 될 지 고민이당!
