выяснилось, что автор использовал в го int64 вместо int32, поэтому медленнее. с int32 версия на го обошла c++
я уверен, что в использовании плюсов тоже какая-нибудь лажа, неоптимальные типы, копирования на ровном месте и пр
там не очень сложно писать оптимизированный код, на го, кажется, сложнее