Purumir's Blog

Machine Learning, SW architect, Management, favorites

2021년 서울지하철을 통해 본 사람들의 이동- 목표 그리고 데이터셋

우리는 언제(When) 어디(Where) 를 통해 어디(Where)로 이동하는가

2021년 한해동안 사람들은 어떤 식으로 움직였을지에 대해서 분석할수 없을까라는 생각을 하게 되었습니다. 우리는 도보, 자전거등 개인이동수단(비동력), 자동차(자가용, 택시, 공유 차량), 버스, 지하철, 비행기등의 수단을 통해 이곳에서 저곳으로 다시 저곳에서 또 다른 곳으로 계속적인 이동을 합니다.

하지만 경제 생활 인구의 대부분은 아침에 직장이 위치하는 곳으로 이동하고, 저녁에는 다시 집으로 돌아오는 반복적인 패턴을 보일 것입니다.

이러한 여러가지 이동 수단중 가장 많은 비중을 차지할 것으로 예상되는 서울지하철을 통해서 사람들이 어떻게 이동하는지 이동 패턴이 궁금해졌습니다. 이를 위해 공공 데이터 포털( https://data.go.kr )에 공개된 데이터를 찾아보았고, 1~9호선의 승하차 데이터를 찾을수 있었습니다.

사용된 데이터셋은 다음과 같습니다. 두 데이터셋이 거의 포맷이 유사하여, 약간의 정제를 통해 데이터셋을 하나로 병합하였습니다. 아쉬운 점은 공개된 데이터셋이 11월 데이터까지만을 포함하여 12월 패턴을 볼수 없다는 점입니다.

데이터셋 형태는 아래와 같이 일자, 지하철호선번호 , 지하철역번호 , 지하철역명 , 승차 혹은 하차 / 9호선은 일부 환승승차/환승 하차가 포함된 형태로 구성되어 있습니다. 시간은 06시 이전, 06시~24시까지 1시간 단위로 승하차 인원 수치가 기록되어 있습니다.

이번 조사를 통해서 9호선이 민자 구간이 있다는 것은 익히 알고 있었지만, 2~3단계(언주역~종합운동장역/2단계, 종합운동장역~중앙보훈병원역/3단계)는 공공이 참여하여 서울 교통공사가 운영한다는 사실을 알 수 있었습니다. 이 구간의 데이터는 공공 데이터 포탈에 공개가 되어 있습니다.

- 다음 포스팅에 이어집니다. -