본 글은 한국관광공사 데이터랩에 사용에 대한 개인적인 소감과
Data & List 시리즈의 설명을 보충하기 위해 작성되었습니다.
한국관광공사 데이터랩
한국관광공사에서는 데이터랩이란 사이트에서 관광 관련 여러 가지 지표 및 데이터들을 제공하고 있습니다.
지역별, 국가별 여행 트렌드나 관광활동유형 등을 보기 쉽게 정리해서 표현해주고 있어서 관광에 대한 트렌드와 정보를 얻기 좋습니다.
이 글은 제가 글을 쓰는 블로그의 설명 보충을 위한 목적과 데이터랩 데이터 사용에 대한 개인적 소감등을 담아봤습니다.
데이터랩 빅데이터의 활용
제가 글을 쓰고 있는 Data & List 시리즈에서는 한국관광공사의 빅데이터를 이용하고 있습니다.
말이 '빅데이터'라서 어려워 보일 수 있지만 사실 한국관광공사에서 지역별로 엑셀 데이터를 받을 수 있게 되어 있어서 그 엑셀 데이터를 활용하여 글을 작성하고 있습니다.
그리고 별도의 차별성을 위해서 Gis 프로그램 등을 활용하여 이미지를 생성하여 전달하려는 내용의 의도를 좀 더 명확히 하고 가독성을 높이려고 노력하고 있습니다.
데이터랩의 빅데이터는 연도별, 지역별, 관광콘텐츠 유형별로 데이터가 분류되어 있습니다. 관광콘텐츠 유형은 총 10가지의 유형별 카테고리로 분류가 되어 있어 엑셀의 기초만 아셔도 목적성에 따른 유형 카테고리를 쉽게 추출할 수 있습니다.
목적지 유형분류기준 | |
한국관광공사 자체의 관광콘텐츠 분류기준을 기준으로 티맵 목적지 유형별 카테고리를 재구성 | |
자연관광지 | 강, 공원, 명산, 섬, 자연휴양림, 폭포, 호수, 등대, 항구 등 |
역사관광지 | 고궁, 고택/민속마을, 능묘, 문화유적지, 기념비/탑 등 |
휴양관광지 | 동식물원, 온천, 수족관, 유원지, 놀이시설, 테마파크, 종합위락시설 등 |
공연/행사 | 공연장, 극장, 영화관, 자동차 극장 등 |
문화시설 | 과학관, 문화원, 미술관, 박물관, 전시관/장 등 |
레포츠 | <육상/해상/항공> 경륜장, 경마장, 골프장, 낚시, 스키장, 스케이트장 등 |
쇼핑 | 농수축산물시장, 면세점, 재래시장, 종합시장 등 |
식음료 | 한식, 중식, 일식, 카페 등 |
숙박 | 호텔, 펜션, 캠핑장, 등 |
기타관광지 | 관광단지, 전망대, 공항, 터미널, 데이트코스, 카지노 등 |
데이터랩 빅데이터의 근거
제가쓰고 있는 데이터랩의 빅데이터에는 T맵 기반의 데이터입니다. 일단위 데이터를 축적하고 월 단위로 적재하여 티맵 모빌리티에서 한국관광공사로 데이터를 이관하고 있습니다.
데이터로 확정되는 대상은 Tmap 어플리케이션으로 목적지를 조회한 후 100m 이상, 1분 이상 이동한 행위에 대한 건수입니다. 목적지를 조회후 이동이 없으면 해당 목적지로 향하지 않았다고 판단하여 추계 대상에 넣지 않는 것으로 보입니다.
아래 표는 빅데이터의 메타데이터 표입니다.
데이터명 | 내비게이션 데이터 |
데이터 제공처 | 티맵 모빌리티 |
제공목적 | 지자체별, 관광지유형별 방문객 이동행태 분석 |
데이터 기간 | 2018~ |
데이터 단위 | 일단위 |
적재주기 | 월단위 |
작성체계 | 티맵 모빌리티 - 한국관광공사 |
분석내용 | 지자체별, 목적지 유형별 목적지 검색량 분석 |
분석대상 | Tmpa 어플리케이션 사용자가 목적지를 조회하고 100m & 1분 이상 이동한 행위에 대한 건수 |
데이터랩의 해석 유의사항
제가 쓰고 있는 Data & List 시리즈에서도 많이 언급하고 있지만 신뢰성이 있는 빅데이터 일지라도 재미로만 봐달라고 하는 이유가 있습니다. 바로 대표성을 띄기 어렵기 때문입니다.
Tmap기반의 빅데이터는 표본의 대표성을 띄기 어려운 3가지 사항이 있습니다.
첫번째는 방문자의 특성이 다각도로 반영되지 않았다는 겁니다. Tmap 기반 데이터이므로 단순히 Tmap을 사용하지 않고 방문한 경우, 타 내비게이션을 사용하여 방문한 경우, 도보 및 대중교통을 통하여 방문하는 경우의 수를 제외한 데이터이므로 전 국민을 표본으로 한다면 단순히 Tmap 사용자만 추계되기에 대표성을 띄기 어렵습니다.
두 번째는 방문자수에 대한 추계로 보기 힘들다는 것입니다. 단순히 차량 이동에 대한 목적 이동 조회건수이므로 조회건수 1당 방문자를 추산하기 어렵습니다. 쉽게 설명하면 방문 이동은 하였으나 실제 그 차에 몇 명이 타고 있었는지는 알 수 없습니다. 극단적으로 관광버스 1대가 검색하여 간 곳과 일반 자가용 1대가 검색하여 간 곳은 두 곳 다 수치상 1 Point이지만 방문객의 규모는 30배 이상 차이가 날 수 있겠죠.
세 번째는 방문 목적에 대해 정확하게 알 수 없다는 겁니다. 1건의 카운트가 그곳의 관광목적의 1 point로 확신할 수 없다는 얘기입니다. 예를 들어 출퇴근 목적. 즉, 관광이 아닌 근로의 형태로 검색방문될 경우도 1 point가 된다는 이야기입니다.
관광지가 호텔일 경우 그 호텔에서 숙박을 목적으로 하는 사람들이 대표적인 카운트가 될 수 있겠지만, 그곳에서 매일 근무하는 사람들이 Tmap을 이용하여 매일 검색 후 방문한다면 그 데이터 또한 포함되므로 숙박과 근로의 목적이 합쳐진 데이터가 됩니다. 제가 보기엔 아마 이게 한국관광공사 Tmap 데이터의 가장 큰 허점이 아닐까 생각됩니다.
데이터랩의 개인적 기준 단점.
한국관광공사의 데이터랩의 데이터 수준이 계속 발전하길 바라며 개인적으로 데이터를 활용하기에 아쉬운 2가지 정도를 언급해 봅니다.
첫 번째는 관광지 주소의 불명확성입니다. 관광지의 명칭이 포함하는 지번의 광범위하거나 대표 지번이 없는 관광지가 많은 것은 이해하지만 결국 내비게이션 데이터는 어느 지번에 해당하는 목적지를 찍고 이동한다는 것인데 그곳의 지번을 명확하게 하기 어렵다면 대체 지번이라도 넣어주면 어떠할까 싶습니다.
두 번째는 콘텐츠 분류기준이 데이터 이용자에게 불친절한 분류를 사용하고 있습니다. 관광공사의 대표적인 콘텐츠 분류기준을 사용하는 이유는 어떠한 법규나 행정적 규칙에 의해 만들어져 사용하고 있는 관광서의 분류기준일 것으로 보입니다. 그 기준을 이해하려고 하면 이해할 수 있겠습니다만 세부적인 카테고리에서는 너무 애매한 분류들이 많습니다.
한 가지 대표적으로 빅데이터의 음식 부분의 한식과 외국식의 분류는 너무 비효율적이고 그 정당성도 애매한 것 같습니다. 지역별로 꼬막비빔밥이 주 메뉴인 집은 한식에 해당해야 할까요. 아니면 외국식에 해당되어야 할까요?.
어떠한 기준일지 모르겠지만 지역에 따라 한 곳은 한식이었고 한곳은 외국식으로 분류되는 것을 보면 아쉬운 점이 있습니다.
세 번째는 조금만 더 데이터의 완성도에 신경 써주셨으면 합니다. 위의 관광지 주소의 불명확성 때문인지 지번이 있는 관광지의 경우 산-1, 산-2의 데이터가 분류되어 나옵니다. 관광지는 한 곳의 명칭이지만 카운트된 데이터가 분할되기 때문에 데이터를 활용할 때 잘못 기재된 내용이 없나 확인해야 합니다. 오타 같은 것은 애교이지만 관광지가 2개로 분할되는 것은 꼭 잡혔으면 합니다.
사실 블로그에서 한국관광공사 빅데이터에 대한 설명이 너무 많이 반복되고 있어서 그 내용을 줄이려고 별도 작성을 하다 보니 개인적인 아쉬움도 많이 적게 되었네요.
그래도 한국관광공사의 데이터 덕분에 여러 곳을 알게 되고 글도 쓰고 있습니다. 더욱더 쉽고 정확한 데이터를 제공하는 곳으로 거듭났으면 좋겠습니다. 데이터랩, 많이 응원합니다.
긴 글 읽어주셔서 감사합니다.
아래 공감, 하트를 눌러주시면 글을 쓰는 데에 큰 힘이 됩니다.
'GIS정보로보는 대한민국' 카테고리의 다른 글
[대전 알고싶니?] 대전을 대표하는 30년 전통의 식당들 29선 (0) | 2022.05.16 |
---|
댓글