Парсеры (поисковиков, серча)

Опубликовано 5 апреля, 2010 в PHP, СЕО

В продолжение темы парсинга различных СЕО параметров (начало – тИЦ и PR). Решил кое-чего еще выложить.

Вот php функции, которые определяют количество проиндексированных страниц в Гугле и Яндексе. В качестве параметра передается домен, возвращается количество проиндексированных страниц. Информация берется прямо со страницы выдачи.

<?php
function getyaindex($domain) {
    $serp = file_get_contents("http://yandex.ru/yandsearch?date=&text=&site=$domain&lr=213");
    preg_match('/<title>(.*)<\/title>/Usi', $serp, $res);
    $res[1] = iconv('UTF-8', 'windows-1251//IGNORE', $res[1]);
    preg_match('/ (.*) стран/Usi', $res[1], $res);
    return str_replace(array('тыс.', 'млн'), array('000', '000000'), $res[1]);
}
function getgindex($domain) {
    $serp = file_get_contents("http://www.google.ru/search?q=site%3A$domain");
    preg_match('/<p id=resultStats>(.*)\(<b>/Usi', $serp, $res);
    preg_match_all('/<b>(.*)<\/b>/Usi', $res[1], $res);
    return str_replace('&nbsp;', ' ', $res[1][2]);
}
echo 'Я:'.getyaindex('php.name').'<br />Г:'.getgindex('php.name');
?>

Абсолютный говнокод. Но за это я и люболю различные мелкие парсилки – нет необходимости искать красивое, тривиальное решение, достаточно конвертировать поток мысли в код, один фиг когда-нибудь изменят формат выдачи и все придется переписывать :) Надо сказать, этим функциям уже несколько месяцев, пока работают, что редкое явления для парсеров поисковиков.

Кстати, год назад я написал ради фана парсер серча – http://php.name/demo/se/. Удивился, что он все еще работает. Достаточно чувствительная к изменению шаблона штуковина. Выбираем раздел, потом тему – и читаем первый пост выбранной темы. Вот исходник парсера серча - http://php.name/demo/se/index.txt Также говнокод ради фана.




Комментарии «Парсеры (поисковиков, серча)»:
Комментариев: 2. Обязательно оставьте свой!

С гуглом сложнее, бывает что парсить не будет,
ибо постоянно меняются адреса дата-центров для определения pr!


Раскрутка и продвижение сайтов в сети Интернет – гарантированный результат, дешевле чем у других, роботы, биржи, SEO-оптимизация: http://www.FeLinta.ru/

Ваш комментарий: