[room] Парсинг google prc

Aleksey Birukov aebirukov на gmail.com
Вт Фев 28 12:26:43 MSK 2012


Понадобилось скачать http://www.google.ru/search?q=ipad+3&hl=ru&tbm=prc
Похоже, что страница формируется динамически (javascript) и поэтому wget не
работает.
Пробовал использовать wkhtmltopdf. И, похоже, что она бы сработала если бы
в ней была возможность изменить User-Agent на Firefox, но к сожалению, этой
возможности в ней нет(?).

Что можно предпринять? Есть ли ещё программы, которые могли бы мне подойти?

Выходной формат данных должен подходить для парсинга. Лучше если это будет
html.


-- 
Ответьте, пожалуйста, что-нибудь если получили это письмо.

--
С уважением,
Бирюков Алексей
----------- следующая часть -----------
Вложение в формате HTML было удалено...
URL: <http://lists.altlinux.org/pipermail/smoke-room/attachments/20120228/54896a54/attachment-0001.html>


Подробная информация о списке рассылки smoke-room