1. 서 론
최근 삶의 질 향상에 대한 요구와 여가 활동의 다변화로 관광 수요가 크게 증가하고 있으며, 이는 국내외 관광 시장 활성화로 이어지고 있다. 소득 수준 향상, 고령화 및 1인 가구 증가 등 인구구조 변화는 국내 여행의 빈도와 유형을 다변화시키는 주요 요인으로 작용한다(Ministry of Culture, Sports and Tourism, 2025). 이러한 관광 활동은 단순한 여가 소비를 넘어 지역 경제 활성화와 고용 창출에 기여하며, 국가 경제의 중요한 축으로 부상하고 있다(UNWTO, 2023). 과거 단순한 어업 거점이었던 국가어항은 지역 문화와 관광 자원을 결합한 복합 공간으로 발전하고 있으며, 다양한 관광 콘텐츠를 제공하며 관광 명소로 부상하고 있다(Korea Fisheries Village and Port Corporation, 2025).
따라서 국가어항 관광수요 예측은 지속가능한 지역관광 활성화 및 정책 수립에 중요한 요소이다. 또한 국가어항의 방문객 예측은 축제 기획, 주차 공간 확보, 특산물 수급 관리 등 구체적 운영 전략 수립과 직결된다. 정부는 해양관광 활성화를 위해 ’어촌뉴딜 300사업’, ’어촌활력증진사업’ 등 다양한 정책을 추진하고 있다(Ministry of Oceans and Fisheries, 2023). 본 연구는 관광수요 예측을 통해 정책적 활용 가치가 높은 기초 자료를 제공하고자 한다. 특히 본 연구는 부산 기장군 대변항을 대상으로 월별 위치 기반 방문객 데이터를 활용하여 미래 관광수요를 정량적으로 예측하는 것을 목적으로 한다. 이를 위해 추세(Trend), 계절성(Seasonality) 등의 분해 기반, 주파수 및 주기 기반, 통계 모델링 기반, 머신 러닝 기반의 선형 분해를 탐색한 후, 분해 능력이 가장 높은 방법론을 선정하고자 한다. 다음 분해된 데이터를 기반으로 RNN(Recurrent Neural Network) 계열의 LSTM(Long Short-Term Memory)과 Attention을 결합한 LSTMATT(LSTM with Attention) 의 딥 러닝을 결합한 Hybrid 모형의 성능을 비교하여 예측 성능을 평가하고자 한다. 마지막으로 연구진이 제안한 Hybrid 모형의 예측 결과를 통계적 검정 방법을 활용하여 유의한 차이를 확인하고자 한다.
본 연구의 차별성은 다음과 같다. 첫째, 소규모 데이터를 대상으로 2중 분해 기법을 적용한 연구이다. 비정상 시계열을 추세, 계절성, 잔차(Residual)로 분해하고, 포착하지 못한 잔차에 DAE(Denoising Autoencoder)를 적용하여 Noise를 제거하고 비선형 특징을 학습시켰다. 즉 단일 분해기법의 한계를 2중 분해 기법을 적용하여, 입력 데이터에 대한 분해 능력을 향상시켰다. 둘째 Hybrid 모형을 활용하여 예측 정확도를 향상시키고자 한다. 딥 러닝 기법의 특성을 활용하여 딥 러닝 간의 결합을 통해 비교적으로 적은 데이터로 인한 딥 러닝의 과적합(Overfitting)을 방지하면서, 예측 정확도를 향상시킬 수 있는 방법을 제안한다. 마지막으로 통계적 검정 방법을 활용하여 본 연구에서 제안한 모형의 예측 정확도를 평가함으로써 모형의 성능을 실증적으로 제시하였다.
본 연구는 연안 국가어항의 관광 수요 예측을 통해 다음과 같은 기대 효과를 가진다. 첫째, 정확한 예측 결과는 대변항 및 국가어항의 관광 정책 수립 과정에서 선제적 대응 전략 마련에 기여한다. 둘째, 관광 인프라 확충, 관광객 유입 추세 등 구체적 정책 의사결정에 필요한 과학적 근거를 제공한다. 셋째, 다양한 예측 모델의 성능 비교 결과는 향후 다른 지역 및 시계열 데이터 분석에 대한 방법론적 기반을 제공한다.
본 논문은 제2장에서 관련 선행연구 검토하고, 제3장에서 연구방법과 데이터 구성을 설명한다. 제4장에서는 연구결과, 제5장에서 결론을 제시한다.
2. 선행연구
본 연구의 이론적 배경 및 방법론적 기반을 마련하기 위해 국내 KCI(Korea Citation Index) 및 국외 SCI(Science Citation Index)급 학술지에 게재된 관광수요 예측 관련 선행 연구들을 고찰하였다. 특히 딥 러닝를 포함한 머신러닝 기법을 활용한 관광수요 예측 연구를 비롯하여, 선형 분해 기법과 머신 러닝과 결합한 Hybrid 모형을 활용한 예측 관련 연구는 다음과 같다.
국내 관광객 예측 연구는 주로 특정 지역 또는 국가 단위의 내국인 관광객 수 예측에 초점을 맞추며, 다양한 시계열 모델 및 인공지능 기법을 적용해왔다. 전통적 시계열 예측 방법으로 ARIMA(Autoregressive Integrated Moving Average), SARIMA(Seasonal ARIMA), ETS(Error, Trend, Seasonality) 분석 등의 기법을 활용하여 계절성과 추세가 명확한 관광 데이터를 분석하였다. 예를 들어 Cho et al.(2018)은 ARIMA와 GAM (Generalized Additive Model)을 활용하여 제주 방문 관광객 수를 예측하고 그 정확도를 평가하였으며, 비선형 특성을 고려한 예측을 강조하였다(Cho et al., 2018). Yoon and Choi (2023)은 ARIMA 모형과 RNN 기법을 활용하여, COVID-19 시대의 관광객 수를 예측하였으며, 예측 정확도 측면에서 SARIMA 보다 RNN 성능이 우월하였다(Yoon and Choi, 2023). 또한 Jin et al.(2025)은 ARIMA, Random Forest, LSTM 기법을 활용하여 제주 지역 관광수요를 예측하고, 모형 간 예측 성능을 비교하였다(Jin et al., 2025). 특히 Hong et al.(2023)은 지하철 승객수를 대상으로 ARIMAX 모형과 RNN 계열의 LSTM 알고리즘을 결합한 Hybrid 모형을 제안하여 예측 성능과 분석 시간을 감축하는 효과를 확인하였다(Hong et al., 2023). 국내 관광 분야 예측 연구는 단일 통계적 기법이나 머신 러닝이 주를 이루고 아직 Hybrid 모형 연구가 미흡한 실정이다.
해외에서 수행된 관광 분야 연구를 살펴보면 단일 분해와 머신 러닝 기법을 결합한 Hybrid 모형 연구로 Zhao et al.(2023) 는 중국과 미국의 일일 관광객 수의 복잡성을 저감하기 위해 CEEMDAN(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise) 기법을 활용하여 분해하고 이를 다시 KELM(Kernel Extreme Learning Machine) 기법을 활용하여 실증 분석을 수행하였다(Zhao et al. 2023). 또한 Zheng and Zhang (2023)은 소규모 관광 데이터를 대상으로 통계적 기법과 인공지능 기법을 결합한 Hybrid 모형을 제안하였다. GM(Gray Model) 기법과 LSTM 알고리즘의 성능을 활용하여 소규모 데이터에서 발생하는 과적합(Overfitting) 문제를 해결하고 예측 성능을 향상시켰다. 이는 SARIMA, 단일 GM, 단일 LSTM 등의 모형과 비교하여 가장 예측 정확도가 높아 인공지능 기법의 효율성을 입증하였다(Zheng and Zhang, 2023). Chen et al.(2020)는 지하철 승객수를 예측함에 있어 선형 방법과 비선형 패턴을 결합한 연구 모형을 제안하였다. 특히 STL (Seasonal-Trend Decomposition using Loess) 기법을 활용하여 분해(Decomposition)하고, LSTM 기법의 예측 결과를 통합(Ensemble)하여 예측 정확도를 향상시켰다. 즉 STL 기법을 통해 지하철 승객수의 추세 성분과 계정 성분을 설명하고, 나머지 잔차를 대상을 LSTM기법의 예측치를 단일 모형으로서 LSTM, SVR(Support Vector Regression), EMD 기반 LSTM의 예측치와 비교하였다(Chen et al., 2020).
2중 분해 기반 Hybrid 모형 연구는 다양한 분야에서 수행되고 있으며, Ahmed et al.(2022)는 CEEMDAN와 VMD(variational modal decomposition) 기반의 선형적 모형으로 분해하고, CNN(Convolutional Neural Network)과 BiLSTM을 결합한 비선형 모형을 활용하여 유량을 예측하였다(Ahmed et al., 2022). Song et al.(2024)은 중국 선물 가격을 예측을 위해 VMD와 EEMD로 시계열 데이터를 분해하고, CNN과 GRU(Gated Recurrent Unit) 기법과 결합한 Hybrid 모형을 제안하였다. 또한 Wu et al.(2024)은 STL 기법과 ALN & BSA(Adaptive Learning & Niching-Based Backtracking Search Algorithm)과 LSTM 기법을 결합한 Hybrid 모형을 제안하여 강우량을 예측하였다(Wu et al., 2024).
마지막으로 데이터 분해 이후 딥 러닝 간 결합한 Hybrid deep learning 모형 연구가 있다. Chen et al.(2024)는 검색엔진 데이터(SED, Search Engine Data)를 기반으로 CNN와 BiLSTM 알고리즘을 결합하고, 2가지 딥 러닝 특성을 활용하여 예측 정확도를 향상시켰다(Chen et al., 2024). 한편 He et al.(2021)은 앞서 언급한 SARIMA를 분해 과정의 단계로 활용하고 CNN 과 LSTM을 결합한 Hybrid deep learning 분석을 수행하였다. 미국, 영국, 독일에서 홍콩으로 유입하는 관광객 수를 ARIMA 분석을 수행하고 이후 잔차를 대상으로 2가지 딥 러닝 기법을 활용하여 효율적인 모형을 제안하였다. Zhang et al.(2025)은 태국의 관광객 수 대상으로 BiLSTM과 Transformer 기법을 결합시켜 단일 딥 러닝 기법 예측 방법보다 Hybrid deep learning의 예측 성능의 우월성을 검증하였다(Zhang et al., 2025).
선행연구를 종합하면 관광 분야에서 다양한 기법과 결합한 Hybrid 모형 연구가 수행되었다. 특히 단일 분해 방식을 적용한 Hybrid 모형이 개발 연구가 활발한 반면, 분해 방법에 따른 특성을 결합한 2중 분해 Hybrid deep learning 모형에 대한 시도가 많지 않은 실정이다. 본 연구는 선행연구에서 활용한 분해 기법과 딥 러닝 특성을 결합한 Hybrid 모형을 제안하고, 예측 정확도 및 통계적 검정을 통해 실증적 평가를 수행하고자 한다.
3. 연구방법
3.1 이론적 배경
먼저 본 연구의 기준이 되는 전통적 통계기법인 SARIMA는 ARIMA 모형을 계절성이 존재하는 시계열 데이터에 확장한 기법이다. 즉 데이터가 추세와 계절성을 동시에 가질 때, 이를 동시에 모델링하기 위해 사용된다(Box et al., 2015;Brockwell and Davis, 2016). SARIMA는 아래와 같이 나타낼 수 있으며, 여기서 (p, d, q)는 비계절(non-seasonal) ARIMA 차수이며, (P, D, Q)는 계절(seasonal) SARIMA 차수, s는 계절 주기(본 연구에서는 월별 데이터로 연간 계절성 s=12임)를 의미한다.
본 연구에서는 원 시계열 Yt를 단일 모델로 처리하지 않고, 분해(Decomposition) 기반 전처리 과정을 통해 추세, 계절성, 잔차를 분리하여 각 성분의 특징을 반영하였다. 이를 통해 복잡한 관광객 수 시계열의 비선형 및 잡음 성분을 제거하고, 후속 딥 러닝의 예측 정확도를 향상시키고자 하였다.
STL은 국소 가중 회귀(LOESS, Locally Weighted Regression) 를 이용하여 추세와 계절 성분을 유연하게 추정할 수 있다. 전통적인 분해 방법은 계절 길이와 선형 추세를 엄격하게 가정하는 반면, STL은 비선형 및 비정상 시계열에도 적용 가능하고, 강건(Robust) 추정이 가능하다는 장점이 있다. 아래의 수식에서 Tt는 추세 성분(Trend)이고, St는 계절성 성분(Seasonality)을 의미하며, Rt은 잔차 성분(Residual)을 의미한다. STL은 비선형적 계절성 패턴과 추세 변화를 유연하게 추출할 수 있어, 비정상 시계열에도 적용 가능하다(Cleveland et al., 1990).
머신 러닝 기반의 분해 모델로 DAE는 잔차 성분 R_t를 입력으로 노이즈를 제거하고 비선형 패턴을 학습하며 아래와 같이 나타낼 수 있다. 이 과정을 통해 원 시계열의 잡음 성분 제거 및 패턴 학습이 가능하며, 이후 머신 러닝(XGBoost, Random Forest) 및 딥 러닝(LSTM, GRU, Transformer) 모델에서 예측 성능을 향상시킬 수 있다. 아래의 수식에서 fθ은 DAE 의 인코더-디코더 함수, η은 입력 노이즈, 은 DAE를 통해 복원된 잔차 성분을 의미한다(Vincent, 2008; Goodfellow et al., 2016).
Hybrid 모형과 시계열 분해와의 결합 측면에서 STL이 Loess smoothing 기반의 전통적 분해라면, DAE는 딥 러닝 기반 비선형 표현 학습을 통해 추세, 계절, 잔차 성분을 내재적으로 아래와 같이 분리한다.
즉 2단계 분해로, STL이 큰 패턴(추세, 계절성)을 제거하고, DAE가 잔차의 복잡한 구조를 추가 분해하여 잡음 억제 및 특징 추출을 수행한다. 따라서 정리하면, DAE는 노이즈가 포함된 입력을 원본으로 복원하는 과정에서 강건하고 압축된 표현을 학습하는 기법이며, Hybrid 시계열 모델에서는 STL과 결합하여 2단계 분해 구조를 형성할 때 활용된다.
LSTMATT는 LSTM에 Attention 메커니즘을 결합하여 시계열 데이터의 중요한 부분에 집중하도록 학습하는 모형이며, LSTM을 확장하여 공간적 위치별로 독립적인 기억 셀 상태 전이를 학습하는 방법을 제안하였다(Hochreiter and Schmidhuber, 1997;Sun and Cai, 2019). LSTMATT는 일반적으로 LSTM과 Attention 메커니즘을 결합한 시계열 예측 기법을 뜻한다. 즉 RNN 기반 LSTM의 장기 의존성 처리 능력에, Attention을 결합하여 시계열 내 중요한 시점(time steps)에 가중치를 주는 방식이다(Qin et al., 2017).
본 연구에서 STL_DAE_Hybrid 모형은 STL 방법에서 큰 구조(추세, 계절성)를 분리하고, DAE 방법을 통해 잔차에서 노이즈와 미묘한 패턴을 학습하며 머신 러닝을 통해 DAE로도 설명 못한 잔여 비선형 패턴 예측하는 방법이다. 먼저 STL 분해 Yt=Tt+St+Rt(Trend + Seasonal + Residual) 하고, 여기서 Rt 가 비선형/잡음 성분이다. DAE 적용하여, 입력 데이터는 Rt 이며, 출력은 (DAE가 잡음을 제거한 근사값)을 의미한다. 다음 DAE로도 설명되지 않는 복잡한 패턴/노이즈 성분)에 대해 머신 러닝 예측을 수행한다. 여기서 입력 데이터는 Et(DAE 잔차), 출력은 이며, 이때 ML 모델은 LSTM, LSTMATT 등이 있다. 따라서 최종 예측 결과는 아래와 같다.
마지막으로 STL이 설명하는 Trend+Seasonal, DAE가 설명하는 Residual의 구조적 패턴, ML이 예측하는 Residual의 잔여 비선형성, 3개 부분을 합쳐 최종 예측치를 생성하게 된다.
예측결과에 대한 평가 즉 정확성은 오차 크기를 기준 평가하며, 평가방법으로 평균오차제곱근(RMSE, Root Mean Squared Error), 절대평균오차비율(MAPE, Mean Absolute Percentage Error) 등이 있다. RMSE(Root Mean Squared Error)은 실제값과 예측값의 차이의 제곱평균의 제곱근을 계산한 값이다. 제곱을 취하기 때문에 큰 오차에 더 큰 페널티를 부여하며, 따라서 큰 오차에 민감하다. MAPE는 실제값 대비 예측값 오차 절대 비율을 평균낸 값으로 예측오차를 %로 환산하여 얼마나 벗어났는지를 나타낸다. 본 연구에서는 RMSE 와 MAPE를 활용하여 제안된 모델에 대한 예측 정확도를 평가하고자 한다.
마지막으로 예측 모델의 예측 결과에 대한 통계적 유의성 검정 방법으로서 Friedman 검정은 비모수적 분산분석 (non-parametric ANOVA) 방법으로, 동일한 데이터 집합에 여러 예측 모형(또는 처리 조건)을 적용했을 때 중앙값 차이가 있는지 평가한다. 특히, 성능 지표(RMSE, MAPE 등)가 정규성을 따르지 않거나 분산의 등분산성이 보장되지 않을 때 널리 활용된다(Friedman, 1937;Iman and Davenport, 1980).
Nemenyi 사후 검정방법은 Friedman 검정이 유의하게 나왔을 때, 구체적으로 어떤 모형 쌍이 유의한 차이를 가지는지 확인하기 위해 사용된다. 이는 평균 순위 차이를 기반으로 비교한다(Demšar, 2006;Hollander et al., 2013). 두 모델 j와 l의 평균 순위 차이는 |(R_j ) ̅-(R_l ) ̅ |이며, 이를 비교할 Critical Difference (CD)는 아래의 수식과 같다.
여기서 qα는 Studentized Range Statistic(또는 Tukey distribution)에서 구한 임계값을 의미한다. 판정 기준으로 평균 순위 차이가 임계값보다 크면, 해당 두 모델 간 성능 차이가 통계적으로 유의함을 의미한다.
본 연구에서는 Friedman Test를 통해 5개 모델의 전체적인 성능 차이가 존재하는지 확인하고, Nemenyi 사후검정을 통해 모형 쌍별 비교하여 모형 간에 차이가 있는지 구체적으로 파악하고자 한다.
본 연구 대상 지역인 대변항은 부산 기장군에 위치하고 있으며, 관광객 데이터는 공공데이터의 국가어항별 월별 관광객 및 방문객을 활용하였다. 본 연구는 국내 대표적인 해양관광도시인 부산에 위치한 다대포항, 대변항, 천성항 등의 국가어항 3곳 중 투자실적(사업비)이 가장 많은 대변항을 선정하였다. 다만 국가어항에 따라 관광객 수의 유입 규모와 추세가 상이하지만, 본 연구에서는 대표적인 해양관광도시 내에 정부의 투자가 활발한 어항을 선정하였다. 이는 특정 지역인 대변항 관광수요 변화를 예측함이며, 다른 국가어항에 적용하기에는 한계가 있다. 여기서 국가어항 관광객 수는 통신사의 통신데이터 등 통신자료를 활용하여 지정하려는 항으로 유입되는 인구수를 집계하여 산정하며, 통신사의 통신데이터(휴대폰 기지국 접속 정보 등)를 활용하여 특정 어항 지역으로 유입되는 인구수를 파악한다. 해당 어항이 속한 행정구역 외의 통신 기지국에서 유입된 데이터의 관외 관광객 수를 대상으로 분석하였다. 관광객 수 입력 데이터는 2015년 1월부터 2024년 12월까지 월간 데이터로 총 샘플 수는 120개이다.
3.2 연구방법
본 연구는 SARIMA, STL, DAE, LSTM, LSTMATT 등 전통적인 통계방법과 딥 러닝 기법을 활용한 시계열 예측을 수행하였다. 특히 기존의 선형적 방법과 비선형 방법을 결합한 Hybrid 모형을 제안하고자 한다. 본 연구방법은 Fig. 1과 같다. Input 데이터는 앞서 언급한 시계열 국가어항 관광객 수이다. 크게 Single 모형과 Hybrid 모형으로 구분되며, Single 모형은 선형 예측기법의 전통적인 분석방법인 SARMIA 분석을 수행하였다. 분해 모델로 본 연구에서는 국가어항 관광객 수에 대해 먼저 분해 기반 Hybrid 모형으로서 STL, EMD, CEEMDAN, SSA(Singular Spectrum Analysis) 등을 활용하였다. 통계 모델링 기반 방법론으로 SARIMA와 Kalman-State Space 모형 분석을 수행하였다. 또한 주파수/주기 분석 계열 분해로 FFT & Harmonic Regression와 Wavelet 분석을 수행하였다. 마지막으로 머신 러닝 기반의 DAE를 활용하여 관광객 수를 분해하였다. 분해 성능은 2015년부터 2024년까지 MAPE 기준으로 분해 성능이 가장 좋은 모델을 탐색하여, 최적 모델의 잔차를 대상으로 머신 러닝 기법을 결합한 Hybrid 모형으로 선정하였다. Hybrid 모형은 STL과 DAE를 각각 활용하여 단일분해와 LSTM과 결합한 모델이 있다. 또한 2중 분해 모델로 STL과 DAE를 결합하여 분해 성능을 향상시키고, 이후 LSTM과 결합한 Hybrid 모형이 있다.
마지막으로 본 연구에서 제안하는 모델로 2중 분해와 LSTM과 Attention을 결합한 LSTMATT 모델이다. Seasonal SARIMA는 SARIMA 모형을 계절성이 존재하는 시계열 데이터에 확장한 기법이다. LSTMATT는 일반적으로 LSTM과 Attention 메커니즘을 결합한 시계열 예측 기법이다. Hybrid 모형으로 1차 분해 단계로 DAE는 비지도 학습(unsupervised learning)을 기반으로 한 신경망 기반 차원 축소 및 특징 추출 기법을 활용하였다. 즉 DAE를 활용하여 추세와 계절성을 분해하고, 잔차를 추출한다. 2차 분석 단계로 LSTM과 LSTMATT 활성화 함수를 사용하여 복잡한 패턴을 학습한다. 다른 Hybrid 모형로 2중 분해 효과를 확인하기 위해 DAE의 분해 기법과 STL 기법을 결합하는 모형이다. 즉 DAE로도 설명 못한 잔여 패턴을 STL 기법으로 분해하는 방법으로, 분해된 잔차를 대상으로 딥 러닝 기법을 활용하여 잔차를 예측하고 이를 분해 결과와 결합하는 방법이다. 학습 기간은 2015년 1월부터 2023년 12월까지 9년이며, 테스트 기간은 2024년 1월부터 2024년 12월까지 1년, 예측 기간은 2025년 1월부터 2025년 12월까지 향후 1년 시점으로 설정하였다.
4. 연구 결과
본 연구에서 국가어항 관광객 수에 대해 먼저 분해 기반 Hybrid 모형으로서 STL, EMD, CEEMDAN, SSA 등을 활용하였다. 통계 모델링 기반 방법론으로 SARIMA와 Kalman-State Space 모형 분석을 수행하였다. 또한 주파수/주기 분석 계열 분해로 FFT & Harmonic Regression와 Wavelet 분석을 수행하였다. 마지막으로 머신 러닝 기반의 DAE를 활용하여 관광객 수를 분해하였다. 분해 결과 Fig. 2와 같이 STL 기법의 분해 성능이 가장 높았다. 따라서 본 연구에서는 분해 성능이 높은 STL 분해를 Hybrid 모형의 선형 분석 방법론으로 선정하고, 이후 분해결과의 잔차를 대상으로 머신 러닝 기법을 활용하여 예측 정확도를 향상시키고자 한다.
다음 Single 모형으로서 SARIMA 분석은 Python 3.13 pmdSARIMA 패키지의 Auto SARIMA를 활용하여 분석하였다. 최적 차수와 모형 차수를 탐색하기 위해 stepwise search 를 활용하였으며, information_criterion 기준은 AIC으로 설정하였다. 분석 결과 최적 모형은 (0, 1, 2), 계절 order (2, 1, 0, 12), AIC 434.58로 분석되었다. 분석 결과는 Fig. 3과 같다.
본 연구의 Hybrid 모형의 분해방법으로 앞서 언급한 바와 같이 MAPE 기준 분해 성능이 가장 월등한 STL를 활용하였다. 먼저 STL 분해 결과는 Fig. 4와 같이 추세와 계절성으로 구분되며, 나머지는 잔차로 분해된다.
STL_LSTM Hybrid 모형 분석방법으로 LSTM 모델을 층 (layer) 순서대로 쌓아 정의하고, tensorflow.keras.layers의 Dense은 완전연결층(은닉층, 출력층), Dropout은 과적합 방지를 위해 일부 뉴런 비활성화을 의미한다. 또한 하이퍼파라미터 최적화를 위해 Bayesian Optimization 방법을 활용하여 검증 손실(val_loss)이 개선되지 않으면 학습 조기 종료하고, Adam 으로 가변 학습률을 사용하는 최적화 알고리즘을 탐색하였다. 목적 함수를 기반으로 Table 1과 같이 Batch 크기, Dropout 비율, 학습률 등을 탐색하여 최적값을 탐색하였다. 예측결과는 Table 2와 같이 STL의 분해결과((T+S)에 LSTM의 잔차 예측을 합하여 Hybrid 모형의 결과를 나타내었다.
다음은 DAE 기법을 활용하여 대변항 관광객 수를 분해한 결과는 Fig. 5와 같이 추세와 계절성으로 구분되며, 나머지는 잔차로 분해된다.
앞서 STL 분해 기반 LSTM Hybrid 모형과 유사하게 DAE를 활용하여 분해한 잔차를 대상으로 LSTM 분석을 수행한 결과의 하이퍼파라미터 최적화 결과는 Table 3과 같다. DAE 분해 결과와 LSTM 잔차 예측치와 결합한 시계열 예측 분석 결과는 Table 4와 같다.
2중 분해기법으로 먼저 STL 분해를 통해 추세와 계절을 구분하고, 나머지 잔차를 추출하였다. STL의 잔차를 대상으로 앞서 활용한 DAE 기법을 적용하여 STL에서 해석하지 못한 잔차에 대한 추세, 계절성, 잔차를 Table 5와 같이 추출하였다.
다음 STL과 DAE 분해결과의 잔차를 대상으로 LSTM 분석을 수행하여 잔차를 예측하였다. 단일 분해 기반 LSTM Hybrid 모형과 유사하게 STL와 DAE를 활용하여 분해한 잔차를 대상으로 LSTM 분석을 수행한 결과의 하이퍼파라미터 최적화 결과는 Table 6과 같다. 마지막으로 본 연구의 제안 모델인 STL과 DAE 분해결과의 잔차를 대상으로 LSTMATT 분석을 수행하여 잔차를 예측하였다. STL와 DAE를 활용하여 분해한 잔차를 대상으로 LSTM과 Attention 분석을 수행한 결과의 하이퍼파라미터 최적화 결과는 Table 7과 같다.
본 연구에서 하이퍼파라미터 최적화 결과를 비교한 결과 모형이 복잡해질수록 더욱 효율적인 학습을 위해 파라미터들이 정교하게 조정되고 있음을 알 수다. 예를 들어 연구진 이 제안한 모델의 경우 Epochs가 다른 모형들은 100인데 반해, 50으로 감소하여 절반의 학습만으로도 최적의 성능에 도달하였다. 이는 Attention 알고리즘이 중요한 정보에 더 빨리 집중하게 만들어 학습 속도를 개선했음을 의미한다.
마지막으로 STL 분해 결과, DAE 분해 결과, LSTM 및 LSTMATT 잔차 예측치와 결합한 시계열 예측 분석결과는 Table 9와 같다. 본 연구는 시계열 예측 모델에서 계산된 Attention Weights를 분석하여, 특정 시점의 예측에 과거 시점 데이터가 미치는 영향력과 그 패턴을 시계열적으로 탐색하는 것을 목적으로 한다. 시계열 예측 모델에서 Attention Weights는 모델이 입력 시퀀스 내의 어떤 과거 정보에 집중(Attention)하고 있는지를 정량적으로 보여주는 핵심 지표이다(Vaswani et al., 2017). Fig. 6과 같이 2016년 1월부터 2024년 12월까지의 월별 시계열 예측에 사용된 과거 12개월(t−12부터 t−1) 데이터에 대한 Attention Weights를 나타낸다.
Attention Weights 분포 분석을 보면, 각 행(예측 시점 t)에서 12개의 Attention Weights를 합산하면 1.0에 근접한다. 이는 모델이 예측 시점(t)의 값을 도출하는 데 있어 과거 12개월의 정보를 활용하며, 각 과거 시점에 적절한 중요도를 할당했음을 의미한다. 또한 계절성 패턴의 변화 분석을 보면 t−12 부터 t−1까지의 Weights는 과거로 갈수록 점차 감소하는 경향을 보인다. 이는 모델이 최근성(Recency)에 가장 큰 중요도를 부여하고, 나머지 과거 시점 정보들을 비교적 고르게 참고하고 있음을 나타낸다.
Fig. 7과 같이 첫번째 Single 모형과 Hybrid 모형의 예측 정확도 비교한 결과, 단일 분해 기반 Hybrid 모형은 오히려 정확도 성능이 감소한 반면 2중 분해 기반 Hybrid 모형의 예측 성능이 증가하였다. 즉 테스트 기간(2024년 1월부터 2024년 12월) SARIMA 모형의 RMSE 1.72와 MAPE 7.5%를 기준으로 STL_LSTM Hybrid 모형의 RMSE 2.35, MAPE 22.0%이며, DAE_LSTM Hybrid 모형의 RMSE 1.33, MAPE 13.0%로 단일 분해에 의한 딥 러닝 기법이 긍정적인 효과를 보이지 않았다. 둘째 2중 분해 기반 STL_DAE_LSTM의 RMSE 0.88, MAPE 5.6%이며, STL_DAE_LSTMATT의 RMSE 0.83, MAPE 5.2%로 성능 향상이 두드러진다. 이는 원본 시계열 데이터를 직접 모델링하는 Single 모형의 한계를 보여주며, STL(계절성, 추세, 잔차 분해)과 DAE(잡음 제거)와 같은 전처리/분해 기반 Hybrid 모형이 예측 성능을 얼마나 크게 향상시키는지 입증하는 근거가 될 수 있다. STL과 DAE를 결합한 2중 분해는 데이터의 복잡성을 효과적으로 단순화하고 노이즈를 제거하여, 본 연구에서 제안하는 모형인 LSTMATT 기법은 순수한 시계열 패턴에만 집중하여 예측 정확도를 극대화할 수 있게 한다. 셋째 Hybrid 모형 중 딥 러닝 결합(RNN + Attention) 모형의 예측 정확도 향상을 확인하였다. 특히 본 연구에서 제안한 Attention 메커니즘을 포함한 LSTMATT는 일반적인 딥 러닝(LSTM 등)과 비교하여 우수한 성능을 보인다. Attention은 시계열 데이터의 중요한 시점을 파악하고 해당 정보에 더 큰 가중치를 부여함으로써, 모델이 장기적인 의존 관계를 더 정확하게 학습하도록 돕는다. 이는 특히 복잡하고 불규칙한 시계열 데이터에서 모델의 예측 정확도를 크게 향상시키는 핵심 요소이다.
모델별 예측 결과 Fig. 8과 Table 10과 같이 SARIMA 예측 결과를 보면 평균 8.58로 전반적으로 낮은 관광객 수를 예측 하였으며, 상대적으로 표준편차가 낮아 변동성은 적으나, 계절적 피크(4~5월) 반영은 약하게 예측되었다. 단일 분해 예측 모델을 보면 STL_LSTM 모형의 경우 STL 분해를 통한 추세 및 계절성 반영 후 LSTM의 비선형 학습을 통해 평균이 9.53으로 SARIMA보다 높으며, 5월경 16.89으로 예측하여 급등하였으며, 이는 과대추정 경향을 보이고, 표준편차 2.79로 불안정한 변동성을 확인하였다. DAE_LSTM 모형의 경우 DAE 기반으로 노이즈 제거 후 예측한 모형으로 평균 10.61 로 5개 모형 중 가장 높은 예측치를 보였으며, 표준편차는 0.89으로 매우 낮은 편이다.
2중 분해 예측 모델을 보면, STL_DAE_LSTM Model의 경우 계절 분해(STL)와 노이즈 제거(DAE) 이후, LSTM 결합한 모형으로서 평균 9.67로 5개 Model의 중간 수준이며, 4월 14.33과 5월 14.25의 예측치로 계절 피크를 잘 포착하면서도 DAE_LSTM의 과대추정을 완화한 예측을 보였다. 마지막으로 본 연구의 제안 모델인 STL_DAE_LSTMATT 모형의 경우 Attention 메커니즘 추가하여 비선형 상관성과 계절적 영향의 가중치를 조정하였으며, 평균 9.60으로 STL_DAE_LSTM보다 소폭 낮은 보정 효과를 보였다. 표준편차는 2.29로 거의 동일하나, 5월과 8월의 극값 구간에서 미세한 안정화를 확인하였다. 본 연구의 STL_DAE_LSTMATT 모형은 기존의 통계적 모델(SARIMA)과 단순 LSTM 결합모델(STL_LSTM, DAE_LSTM) 에 비해 계절 변동성과 비선형 패턴을 동시에 학습하여 전 반적인 예측 정확성을 향상시켰다.
예측 모델에 대한 통계적 검정 결과로 Table 11과 같이 Friedman 검정 결과(p = 0.0016), 고려한 예측 모형들 간에 통계적으로 유의한 성능 차이가 존재하는 것으로 나타났다. 이후 Nemenyi 사후검정을 실시한 결과, DAE_LSTM 모형은 STL_DAE_LSTM 및 STL_DAE_LSTMATT 모형보다 유의하게 낮은 성능을 보였다(p< 0.05). 반면 SARIMA, STL_LSTM과 통합형 모형 간에는 통계적으로 유의한 차이가 확인되지 않았다. 이는 통합형 접근(STL_DAE 기반)이 단일 DAE 기반 모형보다 안정적인 성능을 제공함을 시사한다. 즉 Friedman Test의 p-value가 0.0016로 유의수준 0.05보다 훨씬 낮으며, 이는 모든 모델의 예측 성능 순위가 동일하다는 귀무가설을 기각한다. 5개 모델(SARIMA 포함) 중 적어도 2개의 모형 이상 사이에는 통계적으로 유의미한 성능 차이가 존재하며, 모형별 성능에 우열이 있다는 것을 입증한다. 이는 모든 모델의 성능이 동일하지 않으며, 일부 모델이 다른 모델보다 우수하다는 것을 시사한다.
다음은 Nemenyi 사후 검정을 통해 구체적인 우열 관계를 확인한 결과, Table 12와 같이 DAE_LSTM 모델은 STL_DAE_LSTM (p=0.017)와 STL_DAE_LSTMATT (p=0.007) 모델과 비교하여 통계적으로 유의미하게 다른 성능을 보이는 것으로 확인되었다. 이는 DAE 기반의 특성 추출이 예측 정확도 향상에 기여했음을 의미한다.
5. 결 론
본 연구는 국가어항인 대변항을 방문한 관광객을 대상으로 시계열 분석을 수행하여 관광수요를 예측한 것이다. 연구대상인 대변항은 1971년 국가어항으로 지정되었으며, 관광객이 다수 찾는 대표적인 다목적형 국가어항으로 알려져 있다. 본 연구는 국내 대표적인 해양관광도시인 부산에 위치한 대변항을 선정하였고, 국가어항에 따라 관광객 수의 유입 규모와 추세가 상이함에도 불구하고, 정부 투자가 활발한 어항을 선정하였다.
연구방법으로는 2015년부터 2025년까지의 월별 위치 기반 방문객 수 데이터를 활용하였다. 연구는 SARIMA, 단일 분해 기반 Hybrid 모형, 2중 분해 기반 Hybrid 모형 등 전통 적인 통계방법과 딥 러닝 기법을 활용한 시계열 예측을 수 행하였다.
본 연구에서 국가어항 관광객 수에 대해 먼저 분해 기반 Hybrid 모형으로서 추세 및 계절 분해 기반, 통계 모델링 기반 분해, 주파수/주기 기반 분해, 머신 러닝 기반 분해 등의 방법을 활용하였다. 분해 결과 STL의 기법의 분해 성능이 가장 높아 추세 및 계절, 잔차로 분해하고, 설명하지 못한 잔차를 대상으로 딥 러닝 기법을 통해 예측 정확도를 향상시켰다.
첫째, Single 모형과 Hybrid 모형의 정확도 비교한 결과 단일 분해 기반 Hybrid 모형은 오히려 정확도 성능이 감소한 반면 2중 분해 기반 Hybrid 모형의 예측 성능이 증가하였다. 즉 단일 분해에 의한 딥 러닝 기법이 긍정적인 효과를 보이지 않아 단일 선형 분해 모형의 효과와 비선형 예측 효과의 결합에 한계를 보였다.
둘째, 2중 분해 기반의 Hybrid 모형에서 예측 성능 향상이 두드러진다. 이는 원본 시계열 데이터를 직접 모델링하는 Single 모형의 한계를 보여주며, STL(계절성, 추세, 잔차 분해)과 DAE(잡음 제거)와 같은 전처리/분해 기반 Hybrid 모형이 예측 성능을 얼마나 크게 향상시키는지 입증하는 근거가 될 수 있다. 즉 STL과 DAE를 결합한 이중 분해는 데이터의 복잡성을 효과적으로 단순화하고 노이즈를 제거하여, 본 연구에서 제안하는 모델(LSTMATT)이 오직 순수한 시계열 패 턴에만 집중하여 예측 정확도를 극대화할 수 있게 한다.
셋째, Hybrid 모형 중 RNN 계열과 Attention 기법의 Hybrid deep learning의 예측 정확도 향상을 확인하였다. 특히 본 연구에서 제안한 Attention 메커니즘을 포함한 LSTMATT는 단일 딥 러닝과 비교하여 우수한 성능을 보인다. 본 모델이 Attention 메커니즘의 강점을 효과적으로 활용했기 때문이다. 전반적인 과거 정보의 활용으로 t−12까지의 모든 과거 시점 데이터에 비례하는 가중치를 할당함으로써, 모델이 예측의 정확도를 높이기 위해 단기적인 정보뿐만 아니라 장기적인 패턴(계절성 및 추세)을 포괄적으로 고려하고 있음을 확인하였다. 향후 연구에서는 시계열 특성(예: 변동성, 계절성 주기의 변화)에 따라 t−12 등 장기 시점에 부여되는 가중치의 변화 추이를 분석하여, 모델이 학습하는 시계열 패턴의 역동적인 특성을 심층적으로 규명할 필요가 있다.
마지막으로 통계적 검정 결과를 보면 SARIMA 모형을 기준으로 Friedman 검정 결과 예측 모형들 간에 통계적으로 유의한 성능 차이가 존재하는 것으로 나타났다. 이는 모든 모델의 성능이 동일하지 않으며, 일부 모델이 다른 모델보다 우수하 다는 것을 시사한다. 또한 Nemenyi 사후검정을 실시한 결과, DAE_LSTM 모형은 STL_DAE_LSTM 및 STL_DAE_LSTMATT 모형보다 유의하게 낮은 성능을 보였다. 이는 DAE 기반의 특성 추출이 예측 정확도 향상에 기여했음을 시사한다.
결론적으로 STL과 DAE의 결합이 시계열의 구조적 특성과 노이즈를 효과적으로 분리한다. 또한 Attention 기반 구조가 시계열의 장기 의존성을 잘 포착하고 머신 러닝 기반 모델은 비선형성에 강하지만 시계열 구조 반영에 한계가 존재 하며, 단일 분해 Hybrid 모형은 학습 데이터에 민감하며 오버핏팅 가능성 존재한다. STL_DAE_LSTMATT 모형은 시계열 예측에서 가장 우수한 성능을 보이며, 구조적 해석 가능성과 일반화 성능이 뛰어나며, 향후 다양한 시계열 데이터 셋에 대한 적용 가능성 및 확장성을 제시한다.
본 연구에서 제안한 분해(변동성/계절 제거), 정제(노이즈 제거), 표현학습(Attention-LSTM) 순의 파이프라인이 복합적인 관광객 시계열의 구조를 효과적으로 포착함을 확인하였다. 특히 Attention 가중치 분석은 특정 시즌·행사 기간에 외생변수가 예측에 중요하게 작용함을 보여주어 정책적 해석 가능성을 제공한다.
본 연구는 소규모 데이터 대상 연구로 딥 러닝 기법의 활용 가능성을 제시하였으나, 단변량 중심 분석으로 설명변수를 고려하지 않아 예측 측면에서 한계가 존재한다. 또한 본문에서 언급하지 않았지만, 월별 데이터의 한계로, 축제와 같은 이벤트에 의한 변화를 고려할 수 없었다. 최근 부각되고 있는 Transformer 계열의 딥 러닝 기법은 예측 성능의 긍정적인 결과를 보이지 않았으며, 이와 관련하여 최신의 기법과 결합한 Hybrid 모형의 보완 연구를 기대한다.

















