Size: a a a

SOС Технологии

2020 April 29

RI

Ruslan Ivanov in SOС Технологии
$t3v3;0)
Мы сейчас сова скатимся ко вчерашней нашей дискуссии на тему выбора поискового алгоритма в зависимости от...
А Горчаков отказался учить матчасть)
Да-да, опять цепи Маркова и вот это вот всё. День сурка
источник

m

muslim in SOС Технологии
Ruslan Ivanov
Не, ты не понял про что я. Если у тебя один конкретный URL - его парсинг всегда будет узким местом.
если у тебя прилетел всего один URL - это не проблема, а URL - по RFC имеет ограниченную длину. параллелиться TCP Stream
источник

m

muslim in SOС Технологии
на одном URL задача параллелизма обычно не стоит
источник

NA

Nikolai Arefiev in SOС Технологии
vbengin
Много ли фидов на URLы? по сравнению с Доменами? и вообще количественные характеристики очень интересы. Расскажешь?
из того, что ме сейчас удалось набрать, фидов с доменами больше. не сильно, но все же.
источник

NA

Nikolai Arefiev in SOС Технологии
Ruslan Ivanov
Потому что нужны сигнатуры второго порядка - которые не по списку смотрят, есть или нет в базе, а смотрят попадает в генерацию алгоритма или нет
+
источник

$

$t3v3;0) in SOС Технологии
Nikolai Arefiev
из того, что ме сейчас удалось набрать, фидов с доменами больше. не сильно, но все же.
Это ты про вообще или уже про очищенные?
источник

NA

Nikolai Arefiev in SOС Технологии
$t3v3;0)
Это ты про вообще или уже про очищенные?
вообще
источник

RI

Ruslan Ivanov in SOС Технологии
muslim
если у тебя прилетел всего один URL - это не проблема, а URL - по RFC имеет ограниченную длину. параллелиться TCP Stream
Ну вот представь себе, что у тебя мультиплексированный http2, а в нём тьма потоков URL. Если домены ты, худо-бедно, ещё можешь ускорить, то с URL сложность растёт сильнее
источник

$

$t3v3;0) in SOС Технологии
Ruslan Ivanov
Ну вот представь себе, что у тебя мультиплексированный http2, а в нём тьма потоков URL. Если домены ты, худо-бедно, ещё можешь ускорить, то с URL сложность растёт сильнее
Сложность не растет. Растёт нормализация и разбивка
источник

$

$t3v3;0) in SOС Технологии
А дальше - хоть усложнёнными хэш-таблицами фигачь
источник

$

$t3v3;0) in SOС Технологии
Время конечное и прогнозируемое
источник

m

muslim in SOС Технологии
Ruslan Ivanov
Ну вот представь себе, что у тебя мультиплексированный http2, а в нём тьма потоков URL. Если домены ты, худо-бедно, ещё можешь ускорить, то с URL сложность растёт сильнее
тут есть симметрия с конечной точкой, которая принимает такой поток. сложность в парсинге одинакова и для нее. если ты выходишь за пределы разумного, то парсингом уже начинают заниматься не General purpose CPU, а FPGA
источник

m

muslim in SOС Технологии
muslim
тут есть симметрия с конечной точкой, которая принимает такой поток. сложность в парсинге одинакова и для нее. если ты выходишь за пределы разумного, то парсингом уже начинают заниматься не General purpose CPU, а FPGA
я опускаю развернутого ответа, т.к. ты должен понимать суть сказанного
источник

NA

Nikolai Arefiev in SOС Технологии
если интересно как вопрос с поиском множества подстрок в строке порешали в clickhouse https://habr.com/ru/company/yandex/blog/466183/
источник

RI

Ruslan Ivanov in SOС Технологии
$t3v3;0)
Сложность не растет. Растёт нормализация и разбивка
И всё требует процессорных циклов
источник

RI

Ruslan Ivanov in SOС Технологии
muslim
я опускаю развернутого ответа, т.к. ты должен понимать суть сказанного
Само собой
источник

$

$t3v3;0) in SOС Технологии
Ruslan Ivanov
И всё требует процессорных циклов
Да, но нет :)
И ой фсё
Тут дискуссия явно не для чата и не на один час
источник
2020 April 30

m

muslim in SOС Технологии
расходимся на мысли, что глупости эти ваши мысли грузить DGA в TIP)
источник

$

$t3v3;0) in SOС Технологии
muslim
расходимся на мысли, что глупости эти ваши мысли грузить DGA в TIP)
В чистом виде - да, глупости :)
И да, в tip в классическом понимании :)
источник

v

vbengin in SOС Технологии
считаю что пока не взлетел классический TIP обсуждать TIP NG преждевременно
источник