【学术沙龙】DCAI视角下的地下水数据质量问题识别
2025年3月14日下午,资环学院“求实导师学术沙龙”讲座在实验楼B座517顺利举行,曹海龙老师以《DCAI视角下的地下水数据质量问题识别》为题展开学术报告,为在场研究生分享了数据质量的重要性以及如何通过以数据为中心的人工智能(DCAI)识别潜在的数据质量缺陷。

随着机器学习在地源性污染地下水建模中变得越来越重要,解决预测误差仍然是一个基本挑战。全面文献综述揭示了一个显著的研究空白:虽然几乎所有研究都量化了误差,但对误差类型、特征及根本原因的系统性研究仍然明显缺失。除了优越的算法外,当前的以模型为中心(MCAI)的范式强调获取更多数据和更好的预测因子以提高模型准确性。但是,地下水系统的数据匮乏环境限制了追求“更多”和“更好”的可行性。
以DCAI思想为基础开发一个框架,基于误差与关键性能决定因素的关系建立错误剖面,并辅以与模型无关的后验分析定位数据质量问题。以印度地下水氟数据为例,该框架发现人为引入的标签噪声是预测错误的主要来源。去除这些噪声样本不仅维持了模型性能,还增强了模型对过拟合的的鲁棒性。这些发现表明,精细的数据管理可以实现“少即是多”的效果。追求“更多”和“更好”并不是提高模型性能的唯一途径。
交流环节气氛热烈,与会师生就“MCAI和DCAI的核心区别”、“数据质量缺陷的常见类别”和“MCAI与地下水建模的融合”等问题展开讨论。师生一致认为,人工智能与地球科学的结合将是未来助力认识地球系统规律的重要途径。