NIR-2 · SCADA K1 · baseline

targetB v6 baseline по CO₂
после КлПК

Строгий воспроизводимый контур для прогноза target1 по SCADA-данным колонны K1. Ветка зафиксирована как методическая опора: 98 агрегированных наблюдений, 769 признаков и лучший рабочий результат R² = 0.165.

98 наблюдений 769 w60-признаков top_100 baseline 4 temporal folds
98 агрегированных наблюдений
0.165 лучший R²
3.997 лучший RMSE
0.146 walk-forward mean R²

Почему v6 важен

Ветка нужна не для максимизации метрики любой ценой, а для корректного baseline-контура: чтобы иметь воспроизводимую опорную точку, которую можно переносить в следующий этап исследования без утечки и без раздувания признаков.

Постановка

Прогноз CO₂ после КлПК

Целью был target1 на основе SCADA колонны K1. Лабораторный контроль идёт раз в смену, поэтому нужен ранний и стабильный прогноз, а не постфактум-отчёт.

Размер

Малый объём данных

В распоряжении только 98 агрегированных строк. При 769 исходных признаках любая лишняя сложность быстро превращается в переобучение.

Роль

Методическая опора

v6 полезна как calibration track: она фиксирует базовую конфигурацию, на которой можно честно сравнивать будущие изменения в признаках и моделях.

Лестница baseline-экспериментов

Лучший результат Random Forest + w60_only + top_100 features by train importance

Эта конфигурация дала лучший баланс качества и устойчивости: R² = 0.165 на одном разбиении и mean R² = 0.146 ± 0.075 в walk-forward.

Конфигурация Признаков RMSE Вывод
w60__ + w120_30__ 1538 4.150 0.099 Исходный baseline, показал нелинейный сигнал
w60_only 769 4.117 0.114 Упрощение признаков улучшило baseline
Light tuning 769 4.217 0.070 Тюнинг без работы с признаками не помог
mean + last only 256 4.157 0.096 Компактный fallback-вариант
top_30 30 4.129 0.108 Почти baseline, но не лучший
top_50 50 4.057 0.139 Лучше полного и w60_only, но ниже top_100
top_100 100 3.997 0.165 Лучший baseline
Walk-forward mean 100 4.157 0.146 Рабочая устойчивость на 4 временных фолдах

Новая стадия shift_baseline_v6_new

Исторический target1-baseline остаётся в витрине как опорная точка, но в ветке v6 появился более свежий слой с новой постановкой и более актуальными метриками из reports/shift_baseline_v6_new/summary.md.

target_cl

Ridge

MAE = 0.4404, RMSE = 0.5665, R² = 0.3107.

target_nh3

RandomForest

MAE = 1.2061, RMSE = 1.6229, R² = 0.2710.

target_t

Ridge

MAE = 1.2860, RMSE = 1.7251, R² = 0.0499.

Почему потолок близко

Текущий результат не выглядит случайностью, но и не обещает быстрого скачка качества без новых датчиков или другой постановки задачи.

Мало строк

  • 98 наблюдений на 769 признаков.
  • Любой лишний шум быстро ломает устойчивость.
  • Поэтому здесь важнее воспроизводимость, чем агрессивный тюнинг.

CO₂ не авторегрессивен

  • Таргет задаётся составом сырья и режимом, а не только текущей историей колонны.
  • Потенциал лагов ограничен самим процессом.
  • Прямая линейная экстраполяция здесь не работает.

Скрытое возмущение

  • Качество известкового молока не измеряется онлайн.
  • Часть вариации остаётся ненаблюдаемой для SCADA.
  • Именно это удерживает v6 в роли calibration track.

Навигация по пакету

Сначала откройте README, затем витрину и результаты. Это самый короткий маршрут к контексту, экспериментам и числам.