Потому что у нас есть цифры 0-9, между которыми могут быть заданы операции (например, ответ - это 9 минус инпут). Но сами цифры подавать на вход сетки не лучшая идея - они становятся слишком близкими друг к другу. А если предсказывать аутпут цифрами, то они могу оказаться дробными, плюс ошибка даже в одном пикселе приводит к тому, что задача становится не решенной. Поэтому кажется, что правильнее относиться к ним все же как к категориям. Но тогда проблема с операциями над ними.