Попробовал распознать по спикерам через отправку запросов через php на api гугла, распознать текст получилось, а по спикерам нет. Может быть где то ошибся, т.к. примеров не было на php, но делал аналогично как было указано на python и nodejs. Попробую еще на nodejs, еще может. Но заметил интересную штуку, если трек в моно, то нельзя выставить параметр количества спикеров больше 1, похоже гугл разбивает стерео в моно и каждый моно распознает отдельно, что в моем случае не подходит. Хотя, может, я ошибаюсь.