Development

작은 프로젝트를 시작하며.

江多林 2019. 11. 30. 12:35

지난 주 조그만 프로젝트는 시작해보기로 했다.

 

서비스로써 완결된 하나의 아웃풋을 제공하는 프로젝트이다.

[웹크롤링] -> [Database]

[Database] -> [리포트]

[Database] -> [조회]

[조회룰] -> [MapReduce] -> [리포트]

 

iOS 외길에서 거의 만나지 않았던 오랜 친구들을 다시 만나게 될 것이다.

웹크롤링, Database, 룰셋관리, 기본정보관리, 맵리듀스

 

AI시대에 맵리듀스라니.. 시대정신에 좀 뒤쳐져 보이는 것이 좀 아쉽다.

아직 수집하려는 데이터에 대한 통찰이 부족하므로,

기반데이터를 확보하는 것 부터 시작해서 통찰력이 생길 때까지는

AI 보다 자료분석하는 것 부터 시작해보자.

 

오늘 알게 된 사실들.

github 에서 free private repository 제한을 풀어주었지만, wiki, page 를 쓰려면, open 또는 구매해야한다는 것.

 

참고 검색어: "dart.fss.or.kr 크롤러"

크롤링 전용 library 들이 존재하며, 꽤 쓸만해 보인다. 아마도 3~7년 전에 크롤링이 유행하던 기간의 유산일 것이다.

dart.fss 의 첨부자료 엑셀파일이 모두 존재하는 것은 아니다.

dart.fss 보고서의 항목에 대한 주석에 좀 더 상세(분류된) 내역이 존재한다. - 결국 웹크롤링 한 번 더 하고 매칭의 과정이 필요하다.