f
Парсинг не основная сложность, основной гемор в сопоставлении. Признаков много сейчас 30к в дальнейшем будет где то 600+к. А точность сопоставления нужна 99.9%))
Ищу человека имеющего опыт в работе с большими данными, переборе больших объемов информации. Нужно будет написать нормальных алгоритм сопоставления.
Подробность пм
---
p/s немного по говнокодил, написал своего паучка, но мне не особо нравится скорость его работы. Сопоставление 3к страниц с базой признаков в 30к заняло порядка 20 минут, просто парсинг этого сайта занимает меньше минуты. упрощая алгоритм увеличивается скорость но уменьшается точность сопоставления :-(