Один из наших клиентов работает по достаточно интересной схеме: у него интернет-магазин, на котором сосредоточены товары от различных поставщиков. У этих поставщиков есть свои интернет-ресурсы (у некоторых даже целые интернет-магазины), на которых представлена продукция (фото+характеристики+описания).
Поставщики особо не балуют какими-либо архивами контента или же YML фидами хотя бы. Соответственно, львиную долю товаров и торговых предложений приходится наполнять вручную. Разумеется, от меня сразу последовало предложение: Давайте мы Вам напишем парсер сайта, который просто прогуляется по сайту поставщика, соберет всю необходимую информацию и сформирует YML выгрузку. Выгрузка будет полноценной, по всем правилам яндекс.маркета, будет содержать в себе по сути точную копию выбранных разделов сайта поставщика (при желании полную копию сайта).
Клиент сперва подумал что это разводка, такого не бывает. Но все же внес аванс )
Начали мы разрабатывать программу. Первое что нам помешало - блокировка по IP при большом кол-ве запросов к базе данных сайта поставщика. Обошли с помощью выдержки по времени между запросами. Второе - это различие в структуре кода у некоторых разделов. Сайт вроде сделан очень по уму, но в то же время видно, что его разрабатывал один разработчик, а дорабатывал другой, который видимо "Поленился" сделать все по логике битрикса. Ну да не суть.
Проблем больше не было, программа закончила парсинг, на выходе мы получаем файл "выгрузка.xml" который легко импортируется на сайт клиента. Остается только настроить соответствие разделов и запустить импорт.
Конечный результат - на сайте клиента появилось свыше 100 новых товаров и более 1000 торговых предложений. Все с картинками, описаниями и характеристиками. Все собраны в вариативные товары, присутствует выбор торговых предложений в карточке товара.
Клиент чертовски доволен, мы тоже довольны своевременной и полной оплатой работы. Это была интересная разработка Побольше бы таких творческих заказов ))