Size: a a a

2021 November 03

T

Tishka17 in Data Engineers
По сути нынче крон иногда этим ж системд и эмулируется
источник

kk

k k in Data Engineers
То есть bash?
источник

AZ

Anton Zadorozhniy in Data Engineers
любой, если у вас openbsd то можно на ksh к примеру
источник

ИК

Иван Калининский... in Data Engineers
А чем можно петабайт паркета трансформировать? Чтобы не тормозное было и корректное и опен сорс. Арроу я сам поставлю на первое место, но что ещё?
источник

kk

k k in Data Engineers
*/1 * * * * /home/spiderman/anaconda3/bin/python && cd /home/spiderman/Desktop/avito/ && scrapy crawl my_scraper -o MonthDay_Year006.csv >> /home/spiderman/Desktop/avito/cron3.log 2>&1


Я прописал эту команду , но в логах только

/bin/sh: 1: scrapy: not found
/bin/sh: 1: scrapy: not found
/bin/sh: 1: scrapy: not found
источник

AZ

Anton Zadorozhniy in Data Engineers
смотря что делать конечно, для каких-то задач спарк будет лучшим вариантом
источник

AZ

Anton Zadorozhniy in Data Engineers
у вас PATH не полный, лучше запихните все в скрипт где активируйте свое окружение нормально
источник

kk

k k in Data Engineers
Я думал путь pwd покажет полный
источник

kk

k k in Data Engineers
Как узнать полный путь ?
источник

AZ

Anton Zadorozhniy in Data Engineers
pwd показывает путь, а у вас список путей в переменной PATH не полный (потому что в кроне профиль полный не схватывается)
источник

AZ

Anton Zadorozhniy in Data Engineers
это уже сильный офтопик, мб вам какая-то добрая душа напрямую поможет, а тут заниматься базовым скриптингом это моветон
источник

kk

k k in Data Engineers
which python делал , он мне этот путь и выдал
источник

kk

k k in Data Engineers
Погуглю..
источник

AZ

Anton Zadorozhniy in Data Engineers
на чем угодно прекрасно работает, скачал датасет, применил модельку, запихнул результат обратно
источник

ЕГ

Евгений Глотов... in Data Engineers
Скачал 1тб, применил модельку, залил 1тб...)
источник

AZ

Anton Zadorozhniy in Data Engineers
Конечно, спарк тоже самое делает, можно сделать в чем угодно
источник

ЕГ

Евгений Глотов... in Data Engineers
Спарк позволяет с милимальными усилиями сделать это параллельно, масштабируемо и [более-менее] отказоустойчиво
источник

AZ

Anton Zadorozhniy in Data Engineers
я бы сказал что те у кого надо регулярно скорить терабайтные датасеты - им лучше со спарком

но есть еще одна или две компании у которых нет терабайтных датасетов каждый день для скоринга
источник

ЕГ

Евгений Глотов... in Data Engineers
Чё за компании)
источник

ЕГ

Евгений Глотов... in Data Engineers
Смоллдата)
источник