Size: a a a

AI / Big Data / Machine Learning

2020 March 03

RB

Radion Bikmukhamedov in AI / Big Data / Machine Learning
есть же предобученные gpt для русского
https://github.com/vlarine/transformers-ru
источник

RB

Radion Bikmukhamedov in AI / Big Data / Machine Learning
я файнтюнил для задачи диалога, для medium модели у меня вышло perplexity 50
источник

AY

Alexey Yurasov in AI / Big Data / Machine Learning
Это для продолжения текста, или для диалога?
источник

RB

Radion Bikmukhamedov in AI / Big Data / Machine Learning
эта модель для продолжения, но можно попробовать сделать для диалога
источник

PO

Point Of Something in AI / Big Data / Machine Learning
Ну а так он связно писал или высыпал бред? У меня помню при генерации описания товаров такое выдало, что я подумал о восстании машин.
"Перчатки сделаны из прочного пластика, который прослужит десятилетиями. Это будет длиться долго и сохранятся годами. Вы будете их носить на свадьбы ваших друзей и мероприятия. Перчатки очень прочные. Вы будете носить их годами. Это будет длиться вечно. Это создано что бы длиться тысячилетиями и будет длиться вечно.  Единственная проблема что я не могу вытащить из них рук. "
источник

PO

Point Of Something in AI / Big Data / Machine Learning
Концовка помню вообще меня убила
источник

PO

Point Of Something in AI / Big Data / Machine Learning
По моему весьма крипово тогда вышло
источник

AY

Alexey Yurasov in AI / Big Data / Machine Learning
Point Of Something
Ну а так он связно писал или высыпал бред? У меня помню при генерации описания товаров такое выдало, что я подумал о восстании машин.
"Перчатки сделаны из прочного пластика, который прослужит десятилетиями. Это будет длиться долго и сохранятся годами. Вы будете их носить на свадьбы ваших друзей и мероприятия. Перчатки очень прочные. Вы будете носить их годами. Это будет длиться вечно. Это создано что бы длиться тысячилетиями и будет длиться вечно.  Единственная проблема что я не могу вытащить из них рук. "
😄
источник

D🐈

Dan 🐈 Capybara in AI / Big Data / Machine Learning
Point Of Something
Ну а так он связно писал или высыпал бред? У меня помню при генерации описания товаров такое выдало, что я подумал о восстании машин.
"Перчатки сделаны из прочного пластика, который прослужит десятилетиями. Это будет длиться долго и сохранятся годами. Вы будете их носить на свадьбы ваших друзей и мероприятия. Перчатки очень прочные. Вы будете носить их годами. Это будет длиться вечно. Это создано что бы длиться тысячилетиями и будет длиться вечно.  Единственная проблема что я не могу вытащить из них рук. "
Отличная завязка для киберпанк-романа
источник

AY

Alexey Yurasov in AI / Big Data / Machine Learning
Point Of Something
Ну а так он связно писал или высыпал бред? У меня помню при генерации описания товаров такое выдало, что я подумал о восстании машин.
"Перчатки сделаны из прочного пластика, который прослужит десятилетиями. Это будет длиться долго и сохранятся годами. Вы будете их носить на свадьбы ваших друзей и мероприятия. Перчатки очень прочные. Вы будете носить их годами. Это будет длиться вечно. Это создано что бы длиться тысячилетиями и будет длиться вечно.  Единственная проблема что я не могу вытащить из них рук. "
Одно из 10 сообщений было более или менее интересным. Остальные бестолковые. Но и обрезал все после второй точки. А за второй точкой бывало что нибудь осмысленное начиналось
источник

PO

Point Of Something in AI / Big Data / Machine Learning
Alexey Yurasov
Одно из 10 сообщений было более или менее интересным. Остальные бестолковые. Но и обрезал все после второй точки. А за второй точкой бывало что нибудь осмысленное начиналось
У него ж вывод везде должен быть одинаков по длине. Все что после точки никак не связано с вводом. Я просто регуляркой резал.
источник

AY

Alexey Yurasov in AI / Big Data / Machine Learning
Point Of Something
У него ж вывод везде должен быть одинаков по длине. Все что после точки никак не связано с вводом. Я просто регуляркой резал.
Идея была такая:
Пользователь ввел сообщение
Бот взял его сообщение на вход в GPT-2
Сгенерировал длиннющий текст
Отрезал от него начало (сообщение пользователя)
Вставил в чат в качестве ответа

т.к. длиннющий текст читать никто не захочет, от результата оставлял только первые два предложения. Все что справа отрезал
источник

AY

Alexey Yurasov in AI / Big Data / Machine Learning
Хотел сделать обучение на диалогах сообществ. Что бы для каждой группы была своя модель. Но руки не дошли. Распарсить переписку можно, а вот потом обучение на Русском не представляю сколько моих человекочасов займет. Боюсь больше нескольких месяцев
источник

PO

Point Of Something in AI / Big Data / Machine Learning
Я склоняюсь к тому что в одиночку без больших ресурсов это и вовсе невозможно
источник

RB

Radion Bikmukhamedov in AI / Big Data / Machine Learning
Point Of Something
Ну а так он связно писал или высыпал бред? У меня помню при генерации описания товаров такое выдало, что я подумал о восстании машин.
"Перчатки сделаны из прочного пластика, который прослужит десятилетиями. Это будет длиться долго и сохранятся годами. Вы будете их носить на свадьбы ваших друзей и мероприятия. Перчатки очень прочные. Вы будете носить их годами. Это будет длиться вечно. Это создано что бы длиться тысячилетиями и будет длиться вечно.  Единственная проблема что я не могу вытащить из них рук. "
ну так дообучать надо на диалоговых парах. сама модель обучена на классической литературе и пелевине. поэтому такие тексты генерируются. если есть достаточно много пар (миллион), то будет что-то похожее на общение.
источник

RB

Radion Bikmukhamedov in AI / Big Data / Machine Learning
вся проблема в том, что для русского языка нет в отркытом доступе большого датасета разговорных пар. я дообучал на датасете Козиева, там худ. лит-ра, поэтому бот вышел  аристократом, у которого флешбеки войны случаются
источник

AS

Alex Surname in AI / Big Data / Machine Learning
Alexey Yurasov
Хотел сделать обучение на диалогах сообществ. Что бы для каждой группы была своя модель. Но руки не дошли. Распарсить переписку можно, а вот потом обучение на Русском не представляю сколько моих человекочасов займет. Боюсь больше нескольких месяцев
простой запуск русского репозитория для гпт 2 почему не пробовали?
источник

RB

Radion Bikmukhamedov in AI / Big Data / Machine Learning
Alex Surname
простой запуск русского репозитория для гпт 2 почему не пробовали?
простой запуск не сработает, надо токенизацию менять, чтобы было разграничение запрос-ответа
источник

AS

Alex Surname in AI / Big Data / Machine Learning
https://github.com/vlomme/Russian-gpt-2 вот вроде поменяли, не знаю правда насколько умпешно
источник

AY

Alexey Yurasov in AI / Big Data / Machine Learning
Alex Surname
простой запуск русского репозитория для гпт 2 почему не пробовали?
На тот момент не нашел подходящего
источник