Journal Search Engine

ISSN : 1229-3431(Print)
ISSN : 2287-3341(Online)

Journal of the Korean Society of Marine Environment and Safety Vol.31 No.6 pp.824-836
DOI : https://doi.org/10.7837/kosomes.2025.31.6.824

Temporal Changes in the Contributions of Determinants for DO and TOC Using XGBoost Prediction and SHAP Analysis: A Case Study in the
Saemangeum Estuarine System

Hyeryeon Gwon^*, Juchan Lee^**, Jonggu Kim^***, Namsu Kim^****, Juho Kim^*****, Minsun Kwon^******†

^*PhD Candidate, Dept. of Civil & Environmental Engineering, Kunsan National University, Kunsan 54150, Korea
^**PhD Candidate, Dept. of Civil & Environmental Engineering, Kunsan National University, Kunsan 54150, Korea
^***Professor, Dept. of Environmental Engineering, Kunsan National University, Kunsan 54150, Korea
^****Director, Dept. of Marine Environment, SEKWANG Bldg., 106 gil-27, Nonhyeon-ro, Gangnam-gu, Seoul, 06136, Korea
^*****Execuive Director, Dept. of Marine engineering, Mesa Co., 30, Songdomirae-ro, Yeonsu-gu, Incheon, 21990, Korea
^******PhD, Ocean Physics Dept., Land & Ocean Environmental Eng., Suwon 16690, Korea

* First Author : gwonhr@kunsan.ac.kr, 063-496-1871

^† Corresponding Author : mskwon@landocean.co.kr, 031-695-3474

Received October 15, 2025 Review November 24, 2025 Accepted December 26, 2025

Abstract

This study developed XGBoost-based models to predict dissolved oxygen (DO) and total organic carbon (TOC) using water quality data collected from four major sites in the Saemangeum area (Mangyeong River, Dongjin River, Sinsi Sluice Gate, and Garyeok Sluice Gate) from 2011 to 2024. The models demonstrated high predictive performance, with R² values ranging from 0.89 to 0.95 for DO and from 0.88 to 0.95 for TOC, In addition, mean squared errors (MSE), were low, which confirmed the reliability of the predictions. The relative explanatory power of each variable was quantitatively evaluated using SHAP analysis. At the riverine sites, pH and temperature showed the highest explanatory power for DO prediction, while salinity had only a minor effect, indicating limited seawater intrusion. In contrast, at the brackish sites, temperature had the largest explanatory contribution to DO prediction, with salinity acting as a secondary variable. The interannual analysis revealed that the explanatory contribution of pH decreased after 2016 and that of temperature increased slightly after 2019 at the riverine sites; however, no clear increasing or decreasing trend was identified overall. To predict TOC, chemical oxygen demand(COD) and chlorophyll-a were relatively important explanatory variables at the river sites, whereas chlorophyll-a and salinity were major explanatory variables at the brackish sites. The explanatory contribution of COD was lower in 2017– 2018, increased during 2019–2021, and then decreased again recently, with interannual variations but no distinct long-term trend. These results show that, despite the year-to-year variations in the relative explanatory power of individual variables exist, no consistent trend has yet emerged, implying that the Saemangeum system is still undergoing gradual stabilization process. In such an environment, where interannual variability and uncertainty coexist, combining XGBoost with SHAP provides a useful framework for quantitatively assessing the relative importance of predictors and their temporal variability.

Key Words : Water quality prediction , XGBoost , SHAP , Feature importance , Saemangeum estuarine system

XGBoost 예측모델과 SHAP 분석을 이용한 DO 및 TOC 결정요인의 연도별 기여도 변화 연구: 새만금 사례

권혜련^*, 이주찬^**, 김종구^***, 김남수^****, 김주호^*****, 권민선^******†

^*군산대학교 토목환경공학부 박사과정
^**군산대학교 토목환경공학부 박사과정
^***군산대학교 환경공학과 교수
^****(주)세광종합기술단 이사
^*****(주)메사 상무
^******(주)국토해양환경기술단 연구원

초록

본 연구에서는 2011년부터 2024년까지 새만금 지역의 4개 주요 지점(만경강, 동진강, 신시갑문, 가력갑문)에서 수집된 수질 자료를 이용하여 용존산소(DO)와 총유기탄소(TOC) 예측을 위한 XGBoost 기반 모델을 구축하고, SHAP 분석을 통해 변수별 상대적 설명력을 평가하였다. 모델은 DO에서 R² 0.89–0.95, TOC에서 0.88–0.95의 높은 예측 성능과 낮은 평균제곱오차(MSE)를 보여, 예측의 신뢰성을 확인하였다. SHAP 분석 결과, 하천 지점에서는 pH와 수온이 DO 예측에서 가장 높은 설명력을 보였고, 염분의 영향은 미미하여 외해수 유입이 제한적임을 나타냈다. 반면, 기수 지점에서는 수온이 DO 예측의 주요 요인으로, 염분은 보조 요인으로 작용하였다. 연도별 분석에서는 하천 지점에서 pH의 기여도가 2016년 이후 감소하고 수온의 비중이 2019년 이후 다소 높아지는 경향이 일부 나타났으나, 전체적으로는 명확한 증가·감소 추세가 확인되지 않았다. TOC 예측에서는 하천 지점에서 COD와 chlorophyll-a가, 기수 지점에서는 chlorophyll-a와 염분이 상대적으로 중요한 설명 변수로 확인되었다. COD의 기여도는 2017–2018년에 낮았다가 2019–2021년에 높아진 후 최근 다시 감소하는 등 일부 연도에서 변동이 나타났으나, 뚜렷한 장기 경향은 관찰되지 않았다. 이러한 결과는 연도별로 변수의 상대적 설명력에 세부적인 변동은 존재하지만 전체적으로 일관된 추세는 아직 확립되지 않았음을 보여준다. 이처럼 연도별 변동성과 불확실성이 공존하는 환경에서, XGBoost와 SHAP을 결합한 접근법은 각 변수의 상대적 중요도와 시기별 변화를 정량적으로 평가할 수 있는 유용한 분석 틀을 제공한다.

키워드 : 수질예측 , XGBoost , SHAP , 변수 중요도 , 새만금 하구 시스템

This article has been cited by 0 article in crossref

Cited-By

Funding:

1. Introduction

하구 시스템은 담수와 해수가 상호작용하는 역동적인 환경으로, 복잡한 수리역학적 및 생지화학적 과정을 수반한다 (Ganju et al., 2015). 한국 서해안에 위치한 새만금 방조제는 세계 최대 규모의 인공 하구 구조물 중 하나로, 대규모 간척 및 해수유통 제어를 위해 조성되었다(Moores, 2018). 그러나 방조제 폐쇄 이후 용존산소(DO)와 총유기탄소(TOC)를 비롯한 수질 문제는 주요한 환경 이슈로 대두되고 있으며(Park et al., 2009;Lee et al., 2023), 이는 수생태계의 건강성과 유기물 오염 수준을 판단하는 핵심 지표로 간주된다(Choi et al., 2024; EPA Indicator, 2025).

새만금과 같은 인공호 시스템의 효과적인 관리를 위해서는 수질 지표의 정밀한 예측뿐만 아니라, 이에 영향을 미치는 주요 요인에 대한 명확한 이해가 필수적이다. 특히 이러한 영향 요인은 토지 이용, 기후, 유입 수문 조건, 하구 순환 등의 변화에 따라 시간에 따라 달라질 수 있다. 따라서, 해마다 변화하는 요인의 기여도를 파악할 수 있는 모델은 수질의 적응적 관리에 있어 큰 가치를 제공할 수 있다.

전통적인 통계 모델이나 인공신경망(ANN)은 수질 예측에 널리 활용되어 왔으나, 고차원적이고 비선형적인 상호작용을 다룰 때 개별 변수들이 예측 결과에 어떻게 기여하는지를 설명하는 데에는 한계가 있다(Zhang et al., 2021). 또한, 최 근에는 이질적인 데이터를 효과적으로 처리하고 예측 성능이 우수한 트리 기반 앙상블 기법인 XGBoost와 같은 모델이 각광받고 있다(Zhu et al., 2022). 그러나 이러한 모델 또한 본질적으로 블랙박스적 특성을 가지므로, 변수 기여도를 해석하는 데 어려움이 따른다. 이러한 문제를 보완하기 위해 SHAP(SHapley Additive exPlanations)는 모델에 관계없이 일관된 로컬 수준의 변수 중요도 해석을 제공하는 방법으로 주목받고 있다.

최근 수질 예측 및 지배요인 분석 분야에서도 XGBoost와 SHAP을 결합한 접근법이 활발히 활용되고 있다(Merabet et al., 2025). 예컨대, Li et al.(2024)은 Tai Lake Basin을 대상으로 XGBoost–SHAP을 적용하여 DO, TP, CODMn 등의 기여도를 정량적으로 분석하였으며, Zhang(2024)은 LightGBM 기반 물의 적합성 예측 모델에 SHAP과 LIME을 적용하여 변수 중요도를 비교·평가함으로써, 트리 기반 모델의 해석 가능성을 제시하였다. 이러한 연구들은 XGBoost–SHAP 기법이 수질 예측의 물리적 타당성과 변수 기여도 해석의 정량성을 동시에 확보할 수 있음을 보여준다. 그러나 기존 연구 대부분은 전체 자료를 대상으로 한 평균적 변수 중요도 평가에 머무르고 있으며, 특정 시기나 지점에 따른 기여도 변동을 체계적으로 분석한 사례는 드물다. 특히 새만금과 같이 인위적 구조물과 해수 유통이 복합적으로 작용하는 국내 인공 기수 역을 대상으로 한 시·공간적 변수 기여도 연구는 거의 이루어지지 않았다.

따라서, 본 연구는 새만금 하구 시스템 내 4개 수질 모니터링 지점(만경강, 동진강, 신시갑문, 가력갑문)에서 수집된 장기 수질 자료를 활용하여, XGBoost와 SHAP 기법을 적용함으로써 수질 예측과 변수 기여도 해석의 지점별 차이와 시간적 변화를 분석하고자 한다. 구체적으로, 각 지점에서 동일한 설명변수 집합(pH, 수온, 탁도, T-N, T-P, Chlorophyll-a, 염분, COD)을 사용하여 용존산소(DO)와 총유기탄소(TOC)를 예측하는 XGBoost 모델을 구축하고, SHAP 값을 통해 각 변수의 예측 기여도를 정량화하였다. 특히 2011년부터 2024년까지의 연도별 분석을 통해 변수 중요도의 시간적 변동을 평가하고, 지점 간 및 수질 항목 간의 모델 성능과 변수 기여도를 비교하였다. 이처럼 해석 가능한 머신러닝 기법과 시간 분해적 분석을 통합함으로써, 본 연구에서는 복잡한 하구 환경에서 수질 예측의 신뢰성과 환경적 영향 요인의 변화 양상을 함께 조망하고자 하였다.

2. Material and Method

2.1 Study Area and Monitoring Sites

새만금 하구 시스템은 한반도 서해안에 위치한 대규모 인공 간척지로, 방조제와 갑문에 의해 외해와 분리된 구조를 갖고 있다. 본 연구에서는 수질 변동 양상을 분석하기 위해 공간적 분포와 수문학적 특성을 고려하여 환경부에서 모니터링하고 있는 네 개의 대표 지점을 선정하였다(Fig. 1). 만경강 하구(MG)와 동진강 하구(DJ)는 하천으로부터 유입되는 담수의 영향을 반영하는 지점이며, 신시갑문(SS)과 가력갑문 (GR)은 해수 유입이 이루어지는 해양 지배적 구간에 해당한다. 이들 지점은 하천과 해양의 상호작용이 복합적으로 작용하는 새만금 내부의 다양한 수리·수질 조건을 반영하고 있어, 전체 시스템의 수질 변화를 파악하고 주요 영향을 규명하는 데 중요한 역할을 한다.

2.2 Data Collection and Variables

본 연구에서는 2011년부터 2024년까지의 수질 모니터링 자료(한국환경공단, 2024)를 활용하였다. 해당 자료는 국가 장기 관측 프로그램을 통해 수집된 것으로, 주요 수질 항목에 대해 1시간 간격으로 측정된 값들을 포함하고 있다. 종속 변수(예측 대상 변수)는 용존산소(Dissolved Oxygen, DO, mg/L)와 총유기탄소(Total Organic Carbon, TOC, mg/L)이며, 설명변수로는 수온(°C), 수소이온농도(pH), 염분(‰), 클로로필 -a(μg/L), 총질소(TN, mg/L), 총인(TP, mg/L), 탁도(NTU), 화학적 산소요구량(COD, mg/L)이 포함되었다. 단, TOC는 2016 - 2017년부터 관측되었으므로(지점마다 상이함), 그 이전의 행들은 모두 결측으로 처리되었다.

모든 변수는 실수형(continuous) 자료로 구성되어 있으며, 모델 학습 과정에서는 변수 간 단위 차이를 보정하기 위해 정규화(normalization)를 수행하였다. Table 1은 지점별 및 모델별(DO, TOC) 변수의 결측률(%)을 요약하여 제시한 것이다. 결측값은 인위적으로 보간하거나 보정하지 않았으며, 전체 데이터 중 70% 이상이 결측인 변수는 분석에서 제외하였다. 이는 머신러닝 기반 수질 예측 연구에서 결측 데이터의 편향을 최소화하기 위한 일반적인 접근으로, 결측률이 높을수록 예측 정확도와 통계적 신뢰도가 저하된다는 선행연구(Sierra-Porta et al., 2024)의 결과를 반영한 것이다. 또한, 연속적으로 결측이 발생한 구간을 인위적으로 보간(interpolation)하는 경우, 실제 수질의 시간적 변동 특성과 상관 없는 인위적 패턴이 모델 학습에 포함되어 예측력의 왜곡(bias amplification)을 초래할 수 있다. 따라서 본 연구에서는 결측값을 임의로 보정하거나 보간하지 않고, 일정 수준 이상의 결측률을 보이는 변수는 과감히 제외하는 방식으로 모델의 신뢰도와 예측 안정성을 확보하였다. 한편, 지점·모델별 결측률은 Table 1 에 제시하였다.

2.3 Modeling Approach

2.3.1 XGBoost Regression

XGBoost(Extreme Gradient Boosting)는 그래디언트 부스팅 결정 트리(Gradient-Boosted Decision Trees)를 기반으로 한 앙상블 학습 알고리즘으로, Chen and Guestrin(2016)에 의해 제안되었다. 이 알고리즘은 단계별로 모델을 점진적으로 추가해 나가며, 예측 정확도와 모델 복잡도 간의 균형을 고려한 정규화 목적함수를 최적화하는 방식으로 작동한다.

t번째 반복에서 예측 모델은 다음과 같은 일반적인 형태를 가진다.

\hat{y_{i}} (t) = \sum_{k = 1}^{t} f_{k} (x_{i}), f_{k} \in F

(1)

여기서, $\hat{y_{i}} (t)$ 는 i번째 샘플에 대한 t단계 누적 예측값이며, F 는 회귀 트리의 함수 공간이다. f_k는 각 반복에서 추가 되는 회귀 트리로, 리프 노드에 결정 규칙이 포함된 구조이다. XGBoost가 최소화하는 목적함수는 다음과 같다.

L (t) = \sum_{i = 1}^{n} l (y_{i}, \hat{y_{i}} (t)) + \sum_{k = 1}^{t} Ω (f_{k})

(2)

여기서, $l (y_{i}, \hat{y_{i}} (t))$ 은 실제값 y_i와 예측값 $\hat{y_{i}} (t)$ 사이의 손실(loss)을 나타내는 미분 가능한 함수(예: 평균제곱오차)이며, $Ω (f_{k}) = γ T + 0.5 λ {‖ w ‖}^{2}$ 는 복잡도에 대한 정규화 항이다. 여기서 T는 트리의 리프 노드 개수, w는 각 리프 노드의 예측값 벡터를 의미하며, γ와 λ는 각각 리프 노드 수 및 리프 가중치 크기에 대한 정규화 강도를 조절하는 하이퍼파라미터이다. 이와 같은 구조를 통해 XGBoost는 높은 예측 성능과 함께 과적합을 방지하는 효과적인 모델 학습이 가능하다.

본 연구에서 사용된 모델은 Python 3.9 환경에서 구현되었으며, 모델 학습에는 xgboost=1.7.6, 데이터 분할 및 평가에는 scikit-learn=1.2.2, 변수 기여도 해석에는 shap=0.41.0이 활용되었고, 데이터 처리 및 시각화를 위해 pandas, numpy, matplotlib 등이 사용되었다. 각 지점 및 연도별로 사용 가능한 데이터의 80%를 학습용(train)으로, 나머지 20%를 검증용(test)으로 활용하여 모델을 구축하였다.

XGBoost 모델의 주요 설정은 Table 2에 요약되어 있으며, 모든 모델에서 부스팅 트리 수(n_estimators)를 100으로, 학습률(learning_rate)을 0.3으로 설정하였다. 또한 트리의 최대 깊이(max_depth)를 6으로 지정하여 모델 복잡도를 제한함으로써 과적합을 방지하고 학습 안정성을 확보하였다. 동일한 설정을 적용하여 연도별 및 지점별 예측 모델을 일관되게 학습하였다.

2.3.2 SHAP Analysis for Feature Importance

본 연구에서는 각 변수(feature)가 모델 예측값에 기여하는 정도를 정량적으로 해석하기 위해 SHAP(SHapley Additive exPlanations) 기법을 적용하였다. SHAP은 협력 게임 이론(cooperative game theory)에 기반한 방법으로, 개별 예측에 대해 각 변수의 기여도를 일관되고 지역적으로 정확하게 할당하는 해석 도구이다(Lundberg and Lee, 2017). SHAP 값은 주어진 모델 f에 대해 특정 변수 j가 하나의 예측값 f(x)에 미치는 영향을 다음과 같이 정의한다.

ϕ_{j} = \sum_{S \in F \ {j}} \frac{| S |! (| F | - | S | - 1)!}{| F |!} [f_{S \cup {j}} (x) - f_{s} (x)]

(3)

여기서, F 는 전체 변수 집합, f_s (x)는 변수 집합 S 만을 이용해 예측한 모델의 출력이다. ϕ_j는 변수 j가 모든 가능한 변수 조합에서 얼마나 추가적인 기여를 하는지를 나타내는 마진 기여도(marginal contribution)이다. 하지만 SHAP 값을 위 공식에 따라 정확하게 계산하는 것은 계산량이 지수적으로 증가하므로 현실적으로 어렵다. 이에 따라 본 연구에서는 XGBoost와 같은 트리 기반 모델에 특화된 Tree SHAP 알고리즘을 사용하여 SHAP 값을 다항 시간 내에 효율적으로 추정하였다. Tree SHAP은 트리 구조를 활용하여 모든 변수 조합에 대한 기여도를 빠르게 계산할 수 있는 알고리즘으로, 예측 결과에 대한 설명 가능성을 확보하면서도 높은 계산 효율성을 제공한다.

본 연구에서는 지점 및 연도별로 학습된 XGBoost 모델에 대해 Python의 shap.TreeExplainer()를 활용하여 각 변수의 SHAP 값을 산정하였다. 이를 바탕으로 해석에 사용된 주요 출력물은 다음과 같다. 첫째, SHAP 요약 플롯(Summary Plot) 을 통해 각 변수의 분포와 예측값에 미치는 영향을 시각화 하였으며, 둘째, 전체 샘플에 대해 변수별 SHAP 절대값 평균(Mean Absolute SHAP Value)을 산정하여 변수의 전역적 중요도를 다음과 같이 정량화하였다.

M e a n (| ϕ_{j} |) = \frac{1}{n} \sum_{i = 1}^{n} | ϕ_{j}^{(i)} |

(4)

이 지표는 개별 변수의 예측 기여도를 평균적으로 나타내는 척도로, 시간 경과에 따른 수질 인자의 상대적 중요도 변화를 파악하는 데 활용되었다. 이러한 SHAP 기반 분석 결과를 2011년부터 2024년까지 연도별로 비교함으로써, 새만금 수계 내 주요 수질 영향 요인이 시간에 따라 어떻게 변화해 왔는지를 정량적으로 도출하였다.

2.3.3 Model Evaluation Metrics

모델의 예측 성능을 평가하기 위해 결정계수(R²)와 평균 제곱오차(MSE)라는 두 가지 대표적인 지표를 활용하였다. 이들 지표는 각 지점 및 연도별로 분할된 테스트 데이터셋에 대해 계산되었다.

먼저, 결정계수(R²)는 모델이 종속변수의 분산을 얼마나 잘 설명하는지를 나타내는 지표로, 다음과 같은 식으로 정의된다.

R^{2} = 1 - \frac{\sum_{i = 1}^{n} {(y_{i} - \hat{y_{i}})}^{2}}{\sum_{i = 1}^{n} {(y_{i} - \bar{y})}^{2}}

(5)

여기서 y_i는 관측값, $\hat{y_{i}}$ 는 예측값, y 는 관측값의 평균, n은 샘플 수를 의미한다. R² 값이 1에 가까울수록 모델이 종속변수의 변동을 잘 설명하며, 예측 정확도가 높음을 의미한다.

다음으로, 평균제곱오차(MSE)는 예측값과 관측값 간의 차이를 제곱하여 평균한 값으로, 다음과 같이 정의된다.

M S E = \frac{1}{n} \sum_{i = 1}^{n} {(y_{i} - \hat{y_{i}})}^{2}

(6)

MSE는 예측 오차의 크기를 수치적으로 평가하는 지표로, 오차가 클수록 값이 크게 나타나며, 값이 작을수록 모델의 예측력이 우수함을 나타낸다. 특히, 큰 오차에 대해 더 큰 패널티를 부여하므로 정밀한 예측을 요구하는 환경에서 중요한 평가지표로 활용된다.

3. Results and Analysis

3.1 Sitewise Correlation Structure of Water Quality Variables

분석에 앞서, 각 지점에서 수집된 수질 항목의 시계열 특성을 확인하여 계절 변화가 자연스럽게 나타나고 있는지와 이상값이 적절하게 제거되었는지 등을 검토하였다. Fig. 2는 Dongjin, Garyeok, Mangyeong, Sinsi 지점에서 DO, TOC, T-N, T-P, COD의 농도 변화를 나타낸 것이다. 각 항목은 mg/L 단위로 표기되었으며, 자료의 시간 범위는 2011년부터 2024년 까지이다. 시계열 분석 결과, 각 지점의 수질 항목들은 자연스러운 계절 경향을 보여주었고, 이상치가 잘 제거된 시계열 분포를 보였다.

다음으로, 각 지점에서 주요 수질 항목 간의 상관관계를 파악하기 위해 Pearson 상관계수를 산출하고, 그 결과를 Fig. 3에 시각화하였다. 또한 상관계수의 통계적 유의성(p < 0.05) 은 Fig. 3에서 별표(^*)로 함께 표시하였다. 이를 통해 수온, pH, 염분, 총질소(TN), 총인(TP), COD 등의 변수들이 DO 및 TOC와 어떤 관계를 가지는지 시각적으로 확인할 수 있으며, 지점별 수질 구조의 뚜렷한 차이를 확인할 수 있었다. 이러한 차이는 이후의 XGBoost 기반 예측 성능 및 SHAP 해석 결과의 공간적 차이를 이해하는 데 기초 정보를 제공한다. 상관관계 분석 결과, 하천지점인 만경강과 동진강은 공통적으로 pH–DO 간 양의 상관이 통계적으로 유의하게(p < 0.05) 나타났다. 하천 지점에서 나타난 pH와 용존산소의 양의 상관성은 하루 동안 반복되는 광합성과 호흡 과정에 의해 설명된다(He et al., 2024). 낮에는 광합성으로 이산화탄소가 줄어들어 pH가 오르고, 동시에 산소 생산이 증가해 용존산소 농도도 함께 상승한다. 밤에는 호흡이 우세해져 두 변수 모두 감소하는 방향으로 움직인다. 반면 DO–수온 간 상관관계는 음(-)의 방향으로 나타나(만경 r = –0.23, 동진 r = –0.50), 온도 상승 시 용존산소 용해도가 감소하는 일반적인 하천 수체 특성을 반영한다. 두 지점 모두 염분과 DO 간에는 비교적 낮은 수준의 상관(0.30–0.39)이 나타났으며, 염분–수온 간에는 음의 경향이 통계적으로 유의하게(p < 0.05) 확인되어, 외해수 유입보다는 고수온 시기에 염분이 낮아지는 담수 우세 환경임을 보여준다. 또한 TOC–COD 간 상관이 0.34 –0.48로 나타나, p-value 결과에서도 유의수준(p < 0.05)을 만족하며, 유기물 농도의 증감이 산화성 물질 소모량(COD) 변화로 직접 반영되는 경향을 보였다. 이는 외부 기원의 유기물 부하가 수체 내 유기물 농도 변동을 주도함을 의미한다.

반면, 신시갑문과 가력갑문은 기수역에 위치하며, 하천보다 해수의 영향이 상대적으로 뚜렷하다. 두 지점 모두에서 DO–수온 간 강한 음의 상관이 통계적으로 유의하게(p < 0.01) 나타나, 용존산소의 증감이 계절적 수온 변동에 크게 좌우됨을 보여준다. 특히 신시에서는 염분–수온(r = –0.60, p < 0.05)과 염분–TOC(r = –0.34, p < 0.05)의 음의 상관이 동시에 나타나, 하절기 담수 유입 증가 시 유기물 농도가 높아지고 염분이 감소하는 혼합수체의 특성을 반영한다. 반대로 가력갑문에서는 TOC–chlorophyll-a 간 상관(r = 0.67)이 매우 유의한 수준(p < 0.01)으로 나타나, 기수역의 높은 일차생 산활동이 유기물 축적에 직접적으로 기여하고 있음을 시사한다. 갑문 지점(신시·가력)에서는 pH가 TOC와 강한 양의 상관성을 보였는데, 기수역에서 pH와 TOC가 함께 증가하는 것은 플랑크톤 기반 내부생산성의 영향으로 해석된다. Jiang et al.(2022)은 pH가 플랑크톤 생물량을 증가시키고, 플랑크톤이 TOC의 주요 공급원으로 작용하기 때문에, pH가 TOC에 간접적인 양의 영향을 미친다고 보고하였다.

요약하면, 하천하구(만경, 동진)에서는 수온 및 용존산소의 기초적 물리 반응이 우세한 반면, 기수역(신시, 가력)에서는 염분 변동과 생물학적 반응(chlorophyll-a, TOC)의 결합 효과가 지배적으로 나타난다. 이러한 해석은 단순 상관계수(r) 크기뿐 아니라 통계적 유의수준(p-value)을 함께 고려한 결과로, 변수 간 신뢰도 있는 관계를 제시한다. 이는 담수–해수 혼합의 정도가 수질변동의 주요 제어 인자로 작용함을 보여 주는 결과이다.

3.2 Overall Predictive Accuracy of XGBoost Models across Sites

XGBoost 모델은 각 지점의 2011–2024년 관측자료를 이용하여 DO와 TOC를 예측하도록 학습되었으며, 이를 통해 변수별 예측 성능을 평가하였다.

전 기간(2011년부터 2024년까지)에 대한 DO 및 TOC 예측 성능을 지점별로 평가한 결과는 Fig. 4 및 Fig. 5에 제시하였다. Fig. 4는 각 지점에서의 DO 관측값과 예측값 간의 산점도를 보여주며, 모든 지점에서 높은 예측 정확도를 나타냈다. 특히 R² 값은 만경강(a) 0.92, 동진강(b) 0.95, 신시갑문(c) 0.90, 가력갑문(d) 0.89로, 하천 지점에서 상대적으로 높은 예측 성능을 보였으며, 이는 하천 지점에서의 DO 변화 패턴이 보다 안정적으로 모델링되었음을 시사한다.

한편, Fig. 5는 TOC 예측 결과를 나타낸다. TOC는 지점에 따라 2016년 또는 2017년부터 관측이 시작되어 DO보다 관측 기간이 훨씬 짧음에도 불구하고, 모델은 전반적으로 우수한 예측 성능을 보였다. R² 값은 만경강(a) 0.95, 동진강(b) 0.88, 신시갑문(c) 0.92, 가력갑문(d) 0.94로, 대부분의 지점에서 0.9 이상의 높은 결정계수를 기록하였다. 이러한 결과는 XGBoost가 수질 변수들 간의 비선형적인 상호작용을 효과적으로 반영하여 예측 성능을 확보할 수 있음을 시사한다.

이러한 높은 예측 정확도는 곧이어 수행되는 SHAP 기반 변수 기여도 분석의 신뢰성을 확보하는 근거로 작용한다. 즉, 모델이 실제 값을 정밀하게 예측할 수 있을 정도로 학습되었기 때문에, 해당 모델의 예측값을 분해하여 얻은 변수별 기여도 해석 또한 타당성을 갖는다.

3.3 SHAPbased Interpretation of Feature Importance (Full Period)

Fig. 6과 7은 전체 기간 데이터를 기반으로 XGBoost 모델을 통해 예측된 DO 및 TOC에 대해 SHAP 분석을 수행한 결과를 나타낸다. 각 서브플롯은 개별 지점에서의 변수별 SHAP 값 분포를 보여주며, x축은 모델 출력(DO 또는 TOC)에 대한 영향력(SHAP value), y축은 변수 이름, 색상은 해당 변수의 실제 값 고저를 나타낸다(붉은색: 높은 값, 푸른색: 낮은 값).

DO 예측(Fig. 6)에서는 네 지점 모두에서 수온(temperature) 과 pH가 가장 높은 기여도를 보였으며, 특히 수온의 영향은 모든 지점에서 일관되게 강하게 나타났다. 이는 용존산소의 물리적 특성상 수온에 민감하게 반응하는 특성과 일치한다. 탁도(turbidity), COD 등의 영향력은 지점에 따라 차이를 보였으며, 염분(salinity)은 갑문 지점에서 상대적으로 기여도가 높게 나타났다.

TOC 예측(Fig. 7)에서는 지점에 따라 주요 기여 변수가 뚜렷하게 달라지는 공간적 이질성을 보여준다. 하천 지점인 만경(a)과 동진(b)에서는 COD의 SHAP 값이 상대적으로 높게 나타났으며, 그 다음으로 chlorophyll-a의 SHAP 값이 높은 수준을 보였다. 이는 하천 구간에서 TOC와 COD가 함께 변동 하는 경향이 뚜렷하고, chlorophyll-a 역시 일정한 설명력을 가진다는 점을 시사한다.

반면, 갑문 지점인 신시(c)와 가력(d)에서는 chlorophyll-a의 SHAP 값이 가장 높게 나타났으며, pH와 salinity도 상대적으로 높은 수준을 보였다. 이러한 결과는 기수역에서 내부 생물활동(chlorophyll-a, pH)과 염분 변화(salinity)가 TOC와의 공 변동성 측면에서 중요한 설명 변수가 됨을 의미한다. 특히, COD의 SHAP 값은 두 갑문 지점에서 낮게 나타나, 하천에 비해 외부 유기물 농도지표(COD)와 TOC의 공변동성이 약화된 양상을 보였다.

이러한 분석 결과는 TOC 관련 변수들의 상대적 설명력 구조가 하천에서 갑문으로 이동함에 따라 달라짐을 보여주며, 외부 유기물 농도지표(COD) 중심에서 내부 생물·물리 요인(chlorophyll-a, salinity, pH)의 상대적 중요성이 커지는 공간적 특성을 반영한다.

이러한 결과는 앞서 평가된 높은 R² 값에 기반하여 모델의 예측 성능이 충분히 신뢰할 수 있는 수준임을 전제로, SHAP 값이 각 변수의 상대적 설명 기여도를 나타내는 통계적 지표로서 물리적 및 생지화학적 해석의 보조 수단으로 활용될 수 있음을 시사한다. 다만, SHAP 값은 변수 간의 상관구조를 정량화하는 지표이며, 인과관계를 직접적으로 의미하지는 않는다는 점에 유의할 필요가 있다.

3.4 Interannual Trends in Model Accuracy and Feature Contribution

Fig. 8은 4개 지점에서 DO 및 TOC에 대한 XGBoost 예측 모델의 R²(결정계수)의 연도별 변화를, Fig. 9는 MSE(평균제 곱오차)를 시각화한 것이다.

DO 예측의 경우, 모든 지점에서 전체적으로 안정적인 예측 성능을 유지하였으며, 대부분의 연도에서 R² 값은 0.90 이상을 기록하였다. 이는 XGBoost 모델이 연도별 환경 변화에도 불구하고 DO의 동적 변화를 일관성 있게 포착할 수 있음을 의미한다. 특히 동진(b)과 신시(c) 지점에서는 DO 예측의 R²가 거의 일정하게 0.95 내외로 유지되었으며, MSE 또한 매우 낮은 수준에서 변동하였다.

TOC 예측의 경우, 만경(a)에서는 초기 관측 연도(2017년)에 R²가 상대적으로 낮게 나타났다. 그러나, 2019년 이후에는 모든 지점에서 R²가 대체로 0.9 내외로 유지되어 예측 성능이 안정적으로 확보되었다.

이러한 결과는 DO와 TOC 모두에 대해 연도별로 신뢰도 있는 예측 모델이 구성되었으며, 특히 최근 연도에 가까울수록 입력 데이터의 품질 향상과 함께 모델 예측 정확도가 개선되었음을 시사한다. 이는 향후 SHAP 분석을 통한 변수 기여도 해석에 있어서 연도별 신뢰 수준을 정량적으로 뒷받 침하는 기반 자료가 된다.

Fig. 10과 Fig. 11은 각각 DO와 TOC 예측에서 사용된 변수들의 연도별 평균 절대 SHAP 값을 나타낸 것이다. 이 도면들은 특정 변수의 예측 설명력이 시간에 따라 어떻게 변화 해왔는지를 정량적으로 보여주며, 수질 예측에 영향을 미치는 주요 요인이 시기 및 지점에 따라 달라짐을 시사한다.

Fig. 10에서 만경강(a)은 하천 지점으로, DO 변동은 pH와 수온이 거의 전 기간을 높은 설명력을 보였다. 연도별 평균 절대 SHAP 값(이하, 평균 기여도)는 pH 1.20, 수온 0.71이며, 연도별 1순위 점유율은 pH 12/14년(86%), 수온 2/14년(14%)으로 pH 우세가 뚜렷하다. 극대 연도는 pH는 2021년(1.68), 수온은 2013년(1.58)이었다. 염분의 평균 기여도는 평균 0.13(최대 0.25)으로 낮은 수준을 유지하여, 해수 관련 변수의 상대적 설명력은 제한적임을 보여준다. chlorophyll-a(0.24), T-P(0.22), COD(0.20)는 보조적인 수준의 설명력을 나타냈다.

동진강(b) 역시 만경강과 마찬가지로 하천 지점으로, 전 기간(2011–2024)에 걸쳐 pH와 수온이 DO 예측에서 가장 높은 상대적 설명력을 보였다. 평균 기여도는 pH 1.25, 수온 0.94로 나타났고, 연도별 1순위 점유율은 pH 9/14년(64%), 수온 5/14년(36%)이었다. 극대 연도는 pH: 2020년(1.81), 수온은 2023년(2.07)로 기록되었다. 반면 염분의 평균 기여도는 0.04 (최대 0.12)에 불과하여, DO에 대한 해수 유입 변수의 설명력은 전반적으로 미미하였다. COD(평균 0.11), T-P(0.15), chlorophyll-a(0.17)는 부수적인 설명 변인으로 작용하였으나, pH·수온에 비해 일관성은 제한적이었다.

신시갑문(c)은 방조제 인근의 외해 영향 지점으로, 수온이 DO 변동에 대해 가장 높은 상대적 설명력을 보였다. 수온의 평균 기여도는 1.73, 1순위 점유율 13/14년(93%)(극대: 2013년 2.22)이었고, pH는 평균 0.53으로 부차적이며, 염분의 경우 평균 0.32(최대 1.68)이면서 1순위 빈도는 1/14년으로 드물었다.

가력갑문(d)은 기수 환경 특성상 수온이 DO 예측에서 가장 높은 설명 기여를 보였다. 수온의 평균 기여도는 1.69였고, 연도별 1순위 점유율은 13/14년(93%)에 달했다(극대: 2024년 2.28). pH는 평균 0.74로 두 번째 수준을 보였다. 염분의 경우 평균 0.28(최대 0.56)로 하천 지점보다 다소 높았으나, 연도별 최상위 변수로 등장하는 빈도는 낮았다.

즉, DO 예측에 있어서 동진·만경(하천)은 pH–수온이 전 기간의 주요 설명 변수이며 염분의 설명력은 낮고(평균 0.04 –0.13), 가력·신시(기수)는 수온의 설명력이 절대적으로 높 으며, 염분은 보조적 수준임을 알 수 있다.

DO에 대한 연도별 기여도를 살펴보면, 하천 지점(만경강, 동진강)에서는 pH와 수온이 전 기간에 걸쳐 가장 높은 설명력을 보였으며, 두 변수의 상대적 비중은 해마다 다소 변동하였으나 특정 구간에서 어느 한 변수가 뚜렷하게 우세해지 는 패턴은 확인되지 않았다. 반면 기수 지점(신시, 가력)에서 는 분석 초기부터 수온의 높은 설명력이 지속적으로 유지되었고, 그 다음으로 pH가 안정적인 기여도를 보였다. 염분과 영양염(T-N, T-P)의 기여도는 모든 연도에서 낮은 수준으로 나타나, 외해수 유입이나 부영양화 관련 요인이 DO 예측에 미치는 영향은 제한적인 것으로 해석된다. 이러한 결과는 DO 예측 요인의 연도별 상대적 기여도가 시기별로 일부 변동하였으나, 전체적으로 일관된 증가나 감소 추세는 나타나지 않음을 보여준다.

Fig. 11은 TOC 예측에 대한 SHAP 기반 변수 기여도 분석 결과를 연도별로 제시한 것으로, 각 지점에서 TOC 농도 예측치를 결정하는 주요 요인이 시기별로 어떻게 변화하였는 지를 보여준다.

만경강(a)의 TOC 예측에는 여러 요인이 비교적 고르게 개입한다. 평균 기여도는 수온 0.70, 염분 0.33, COD 0.32, T-P 0.30, chlorophyll-a 0.21이며, 연도별 1순위는 T-P 2년, 수온 2 년, COD/염분/chlorophyll-a/T-N 각 1년으로 분산되었다. 이는 TOC와 관련된 주요 변수들의 상대적 설명력이 시기별로 교대로 높아지는 양상을 보여준다.

동진강(b)의 TOC 예측에는 COD–T-P–chlorophyll-a가 핵심 3요인으로 요약된다. 평균 기여도는 COD 0.49(1순위 4/8 년, 50%), chlorophyll-a 0.35(2/8년, 25%), T-P 0.30(1/8년, 13%)이며, 수온은 평균 0.27(1/8년, 13%), pH 0.11, 염분 0.08로 상대적으로 작다. 극대 연도는 COD가 2021년(0.86), T-P 2024년 (0.79), chlorophyll-a 2023년(0.92)로, 유기물 부하(COD)와 인 부하(T-P), 생산성 지표(chlorophyll-a) 변수들이 시기에 따라 교대로 높은 설명력을 보이는 양상이 확인된다. 염분의 TOC 설명력은 평균·극대 모두 낮다(평균 0.08, 최대 0.24).

신시갑문(c)의 TOC 예측에는 chlorophyll-a와 염분의 설명력이 가장 높았다. 평균 기여도는 chlorophyll-a 0.57, 염분 0.49이며, 두 변수가 각 3/6년(50%+50%)의 1순위를 차지하였다(극대: chlorophyll-a 2019년 1.35, 염분 2023년 0.77). 수온·pH의 평균 기여도는 각각 0.21, 0.23 수준으로 보조적이며, COD·T-P 역시 상대적으로 낮다. 이는 외해와의 교환(염분)과 내부생산(chlorophyll-a)의 결합이 신시갑문 지점의 TOC 변동을 설명할 수 있음을 시사한다.

가력갑문(d)의 TOC도 chlorophyll-a와 염분의 상대적 설명력이 가장 높았다. 평균 기여도는 chlorophyll-a 0.83, 염분 0.62로 높고, 연도별 1순위도 두 변수가 각각 3/6년(50%+50%)을 차지하였다(극대: chlorophyll-a 2019년 0.97, 염분 2020년 1.02). 그 외의 수온(0.29), COD(0.20), T-P(0.15), pH(0.16)는 부 차적이다.

TOC 예측의 연도별 기여도를 정리해보면, 하천 지점(동진강, 만경강)에서는 COD의 SHAP 값이 2017–2018년에 다소 낮았다가 2019–2021년 사이 일시적으로 높아졌으며, 2022년 이후 다시 감소하는 양상을 보였다. 기수 지점(신시, 가력)에서는 COD의 영향이 전반적으로 낮은 수준에서 유지 되었으며, 특정 연도에 뚜렷한 변동은 확인되지 않았다. chlorophyll-a와 T-P는 일부 연도에서 상대적 기여도가 상승하였으나, 지속적 증가나 구조적 전환으로 보기에는 어려웠다. 따라서 TOC 변동의 결정 요인은 연도별로 부분적인 변동이 존재하나, 전체적으로 일관된 변화 경향은 나타나지 않았으며, 이는 수계 내 유기물 부하와 내부 생산성 간의 상대적 영향이 단기적 환경 조건에 따라 주기적으로 달라질 가능성을 시사한다.

즉, TOC 예측에서는 동진강에서는 COD, T-P, chlorophyll-a 가 연도별로 교대로 상대적으로 높은 설명력을 보였고(염분의 기여도는 전반적으로 낮음), 만경강은 특정 변수의 우세 없이 여러 요인이 분산적으로 작용하였다. 반면 가력·신시 지점에서는 chlorophyll-a와 염분의 연도별 SHAP 패턴이 동일한 방향으로 변동하지는 않았으나, 두 변수의 중요도가 시기별로 상대적인 강약을 보이며 변동하는 특성이 나타났고, 이는 기수역의 생산성(Chl-a)과 혼합(염분) 구조가 TOC 변동에 서로 다른 방식으로 기여한 결과로 해석된다.

이상의 결과는 DO 및 TOC 농도가 단일 요인보다는 여러 변수가 상호작용하며 변동한다는 점을 보여주며, SHAP 기반 분석이 각 변수의 상대적 설명력을 통해 공간적 맥락과 시기별 환경 변동성을 함께 해석할 수 있는 효과적인 도구임을 시사한다.

4. Conclusion

본 연구는 새만금 지역의 네 개 주요 지점을 대상으로 DO와 TOC 예측을 위한 XGBoost 모델을 구축하고, 예측 결과의 신뢰도를 기반으로 SHAP 값을 활용하여 변수별 상대적 설명력을 시공간적으로 해석하였다. SHAP 분석 결과, 동진강과 만경강의 하천 지점에서는 pH와 수온이 DO 예측에서 상대적으로 높은 설명력을 보였으며, 염분의 기여는 미미하여 외해수 유입의 영향이 제한적이었다. 반면, 가력 및 신시의 기수 지점에서는 수온이 DO 예측에서 가장 높은 설명력을 보였고, TOC 예측에서는 두 지점 모두 chlorophyll-a와 염분이 높은 설명력을 공유하여, 기수 교환과 생산성 변화가 상대적으로 중요한 설명 인자임을 시사하였다.

본 연구의 XGBoost 기반 예측 모델은 DO에서 R² 0.89– 0.95, TOC에서 0.88–0.95의 높은 예측 성능을 보였다. Li et al.(2025)는 Tai Lake Basin을 대상으로 XGBoost-SHAP 모델을 적용하여 DO, TP, CODMn 등의 수질 항목을 직접 예측하였고, 정확도(accuracy) 96.4–98.1 % 및 높은 재현율·정밀도·F1-score를 보고하며 모델의 안정성과 일반화 능력을 입증하였다. 또한, Choudhary et al.(2025)는 Scientific Reports에서 스태킹 앙상블과 SHAP을 이용해 WQI(수질지수) 를 예측한 결과 R² = 0.9952의 매우 높은 적합도를 제시하였다. 다만, 해당 연구는 여러 항목을 종합한 지수 형태의 단일 종속변 수를 예측한 것으로, 본 연구처럼 개별 변수(DO, TOC)의 시계열 값을 직접 예측하는 경우보다 상대적으로 예측 안정성이 높게 나타날 수 있다. 이러한 차이를 감안하더라도, 두 연구 모두 XGBoost 기반 모델이 수질 예측에서 높은 신뢰도 를 확보할 수 있음을 보여주며, 본 연구의 결과 역시 이러한 검증된 경향과 일관성을 보인다.

따라서 본 연구는 XGBoost 기반 예측모델의 높은 설명력을 바탕으로, 지점별 환경 특성 및 시기적 변동성을 고려한 수질 영향요인의 상대적 기여를 정량적으로 해석할 수 있음을 제시하였다. 또한, 지점별 환경 특성과 시기적 변동성을 함께 고려한 해석이 중요함을 시사하며, 본 연구는 XGBoost 기반 수질 예측과 해석 가능성을 실제 환경에 적용한 사례로서, 향후 예측 기반 수질 관리 및 의사결정 지원 체계의 과학적 근거를 강화하는 데 기여할 것으로 기대된다.

Figure

Fig. 1.

Locations of the four water quality monitoring stations in the Saemangeum area.

Fig. 2.

Hourly time-series variations of key water quality parameters at four sites in Saemangeum (2011–2024): (a) Mangyeong River (freshwater), (b) Dongjin River (freshwater), (c) Sinsi Sluice Gate (brackish), and (d) Garyeok Sluice Gate (brackish).

Fig. 3.

Correlation heatmaps of water quality variables at the four monitoring sites in the Saemangeum estuarine system: (a) Mangyeong River (freshwater), (b) Dongjin River (freshwater), (c) Sinsi Sluice Gate (brackish), and (d) Garyeok Sluice Gate (brackish). Only statistically significant correlations (p < 0.05) are marked with an asterisk (^*).

Fig. 4.

XGBoost-based prediction performance of DO across four monitoring sites. (a) Mangyeong River, (b) Dongjin River, (c) Sinsi Sluice Gate, and (d) Garyeok Sluice Gate.

Fig. 5.

XGBoost-based prediction performance of TOC across four monitoring sites. (a) Mangyeong River, (b) Dongjin River, (c) Sinsi Sluice Gate, and (d) Garyeok Sluice Gate.

Fig. 6.

SHAP value distributions for DO prediction at each monitoring site. (a) Mangyeong River, (b) Dongjin River, (c) Sinsi Sluice Gate, and (d) Gareok Sluice Gate.

Fig. 7.

SHAP value distributions for TOC prediction at each monitoring site. (a) Mangyeong River, (b) Dongjin River, (c) Sinsi Sluice Gate, and (d) Garyeok Sluice Gate.

Fig. 8.

Annual variation of R² values for DO and TOC prediction using XGBoost models at four monitoring sites. (a) Mangyeong River, (b) Dongjin River, (c) Sinsi Sluice Gate, and (d) Garyeok Sluice Gate.

Fig. 9.

Annual variation of Mean Squared Error (MSE) for DO and TOC prediction using XGBoost models at four monitoring sites. (a) Mangyeong River, (b) Dongjin River, (c) Sinsi Sluice Gate, and (d) Garyeok Sluice Gate.

Fig. 10.

Annual variation in mean absolute SHAP values for DO prediction across four monitoring sites. (a) Mangyeong River, (b) Dongjin River, (c) Sinsi Sluice Gate, and (d) Garyeok Sluice Gate.

Fig. 11.

Annual variation in mean absolute SHAP values for TOC prediction across four monitoring sites. (a) Mangyeong River, (b) Dongjin River, (c) Sinsi Sluice Gate, and (d) Garyeok Sluice Gate.

Table

Table 1.

Variable-wise missing data rates (%) classified by site and model (DO and TOC)

Feature	DO model	TOC model
pH	0.06	0.10	0.21	0.07	0.49	1.11	1.29	4.92
DO	0.00	0.00	0.00	0.00	2.37	2.11	4.51	6.50
temperature	0.04	0.19	0.15	0.17	0.43	1.13	1.37	4.99
turbidity	2.16	1.77	1.26	1.20	4.27	3.70	2.63	7.12
TOC	56.04	45.73	63.21	61.79	0.00	0.00	0.00	0.00
T-N	5.03	5.75	18.90	17.11	8.93	9.06	30.75	31.07
T-P	4.02	4.72	6.77	5.49	7.72	7.40	9.29	8.57
chlorophyll-a	0.98	0.58	1.05	1.42	2.24	1.90	2.44	7.18
salinity	0.10	0.08	0.70	0.20	0.25	0.69	2.00	4.96
COD	5.65	5.80	6.13	5.71	10.28	9.08	11.95	11.42

Table 2.

Summary of XGBoost model configurations used in this study, including the key hyperparameters applied consistently across all sites and years

Parameter	Description	Value
n_estimators	Number of boosting rounds (trees)	100
max_depth	Maximum tree depth	6
learning_rate	Step size shrinkage	0.3
subsample	Subsample ratio of the training data	1.0
colsample_bytree	Subsample ratio of features per tree	1.0
gamma	Minimum loss reduction to make a split	0
reg_lambda	L2 regularization term on weights	1
reg_alpha	L1 regularization term on weights	0
random_state	Random seed for reproducibility	42

Reference

Chen, T. and C. Guestrin ( 2016), XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD ’16), pp. 785-794,
Choi, Y., M. -Y. Lee, and T. -H. Kim ( 2024), Evaluating total organic carbon as an indicator for organic pollutant management in the marine environment: A case study on wastewater treatment plant effluent input into the coastal ocean. Science of the Total Environment, 919, 170704.
Choudhary, S., A. Verma, and R. Yadav ( 2025), Predicting water quality index using stacked ensemble regression and SHAP-based explainable artificial intelligence. Scientific Reports, 15(1), 9442,
Ganju, N. K., M. J. Brush, B. Rashleigh, A. L. Aretxabaleta, P. del Barrio, J. S. Grear, L. A. Harris, S. J. Lake, G. McCardell, J. O’Donnell, D. K. Ralston, R. P. Signell, J. M. Testa, and J. M. P. Vaudrey ( 2015), Progress and challenges in coupled hydrodynamic–ecological estuarine modeling: A review. Estuaries and Coasts, 39(2), pp. 311-332,
He, J., T. Xiang, M. Jackson, and A. Porporato ( 2024), Analyzing spatio-temporal dynamics of dissolved oxygen for the River Thames using superstatistical methods and machine learning. Scientific Reports, 14, 19457,
Jiang, Y., K. He, Y. Li, M. Qin, Z. Cui, Y. Zhang, Y. Yao, X. Chen, M. Deng, A. Gray, and B. Li ( 2022), Driving Factors of Total Organic Carbon in Danjiangkou Reservoir Using Generalized Additive Model. Water, 14(6), 891,
Lee, Y. -W., Y. H. Oh, S. H. Lee, D. Kim, and D. Joung ( 2023), Assessment of Water Quality in a Coastal Region of Sea Dike Construction in Korea and the Impact of Low Dissolved Oxygen Concentrations on pH Changes. Journal of Marine Science and Engineering, 11(6), 1247,
Li, W., M. Deng, C. Liu, and Q. Cao ( 2025), Analysis of Key Influencing Factors of Water Quality in Tai Lake Basin Based on XGBoost-SHAP. Water, 17(11), 1619,
Lundberg, S. M. and S. -I. Lee ( 2017), A unified approach to interpreting model predictions. Advances in Neural Information Processing Systems (NeurIPS), 30, pp. 4765-4774.
Merabet, K., F. Di Nunno, F. Granata, S. Kim, R. Adnan, S. Heddam, O. Kisi, and M. Zounemat-Kermani ( 2025), Predicting water quality variables using gradient boosting machine: Global versus local explainability using SHapley Additive Explanations (SHAP). Earth Science Informatics, 18, Article 1796.
Moores, N. ( 2018), Saemangeum Estuarine System (Republic of Korea): Before and After Reclamation. In C. M. Finlayson, G. R. Milton, R. C. Davidson, & N. C. Davidson (Eds.), The Wetland Book (pp. 405-412). Springer.
Park, J. -K., E. -S. Kim, K. -T. Kim, S. -R. Cho, T. -Y. Song, J. -K. Yoo, S. -S. Kim, and Y. -C. Park ( 2009), Characteristics in organic carbon distribution in the Saemangeum area during construction of artificial sea dike, Korea. Journal of the Korean Society for Marine Environmental Engineering, 12(2), pp. 75-83.
Sierra-Porta, D. ( 2024), Assessing the impact of missing data on water quality index estimation: a machine learning approach.Discover Water, 4(1), 11.
U.S. Environmental Protection Agency ( 2025), Indicators: Dissolved Oxygen. National Aquatic Resource Surveys. Retrieved 2025, from [epa.gov].
Zhang, J. ( 2024), Comparative Analysis of Water Applicability Predictions Explained by the LightGBM Model Using SHAP and LIME. Applied and Computational Engineering, 104, 151-159,
Zhang, Y., P. Tiňo, A. Leonardis, and K. Tang ( 2021), A survey on neural network interpretability. IEEE Transactions on Emerging Topics in Computational Intelligence, 5(5), pp. 726-742,
Zhu, M., J. Wang, X. Yang, Y. Zhang, L. Zhang, H. Ren, B. Wu, and L. Ye ( 2022), A review of the application of machine learning in water quality evaluation. Eco Environment & Health, 1(2), pp. 107-116.

Feature	DO model				TOC model

	Mangyeong	Dongjin	Sinsi	Garyeok	Mangyeong	Dongjin	Sinsi	Garyeok

pH	0.06	0.10	0.21	0.07	0.49	1.11	1.29	4.92
DO	0.00	0.00	0.00	0.00	2.37	2.11	4.51	6.50
temperature	0.04	0.19	0.15	0.17	0.43	1.13	1.37	4.99
turbidity	2.16	1.77	1.26	1.20	4.27	3.70	2.63	7.12
TOC	56.04	45.73	63.21	61.79	0.00	0.00	0.00	0.00
T-N	5.03	5.75	18.90	17.11	8.93	9.06	30.75	31.07
T-P	4.02	4.72	6.77	5.49	7.72	7.40	9.29	8.57
chlorophyll-a	0.98	0.58	1.05	1.42	2.24	1.90	2.44	7.18
salinity	0.10	0.08	0.70	0.20	0.25	0.69	2.00	4.96
COD	5.65	5.80	6.13	5.71	10.28	9.08	11.95	11.42

Temporal Changes in the Contributions of Determinants for DO and TOC Using XGBoost Prediction and SHAP Analysis: A Case Study in theSaemangeum Estuarine System