Поигрался в оптимизацию на BB.
Исходный вариант с Blur2DArray: 0.77 fps.
Переход к 3D (ARRAY W, H, 3 OF BYTE): 0.73 fps, зато обнаружились ошибки (пропущено +color).
DIV 4 вместо *0.25 : 1.4 fps.
Раскрутка цикла по color : 2.09 fps. (по идее здесь устраняются и проверки последнего индекса)
Выравнивание данных (ARRAY W, H, 4 OF BYTE): 2.48 fps.
Статический массив вместо динамического: 2.65 fps.
Отключение проверок: 2.73 fps.
Здесь фантазия иссякла.
Без выравнивания, но с отключеными проверками дает 2.54 fps, что чуть лучше, чем tcc (2.22 fps).