В продолжение темы парсинга различных СЕО параметров (начало – тИЦ и PR). Решил кое-чего еще выложить.
Вот php функции, которые определяют количество проиндексированных страниц в Гугле и Яндексе. В качестве параметра передается домен, возвращается количество проиндексированных страниц. Информация берется прямо со страницы выдачи.
<?php
function getyaindex($domain) {
$serp = file_get_contents("http://yandex.ru/yandsearch?date=&text=&site=$domain&lr=213");
preg_match('/<title>(.*)<\/title>/Usi', $serp, $res);
$res[1] = iconv('UTF-8', 'windows-1251//IGNORE', $res[1]);
preg_match('/ (.*) стран/Usi', $res[1], $res);
return str_replace(array('тыс.', 'млн'), array('000', '000000'), $res[1]);
}
function getgindex($domain) {
$serp = file_get_contents("http://www.google.ru/search?q=site%3A$domain");
preg_match('/<p id=resultStats>(.*)\(<b>/Usi', $serp, $res);
preg_match_all('/<b>(.*)<\/b>/Usi', $res[1], $res);
return str_replace(' ', ' ', $res[1][2]);
}
echo 'Я:'.getyaindex('php.name').'<br />Г:'.getgindex('php.name');
?>
Абсолютный говнокод. Но за это я и люболю различные мелкие парсилки – нет необходимости искать красивое, тривиальное решение, достаточно конвертировать поток мысли в код, один фиг когда-нибудь изменят формат выдачи и все придется переписывать
Надо сказать, этим функциям уже несколько месяцев, пока работают, что редкое явления для парсеров поисковиков.
Кстати, год назад я написал ради фана парсер серча – http://php.name/demo/se/. Удивился, что он все еще работает. Достаточно чувствительная к изменению шаблона штуковина. Выбираем раздел, потом тему – и читаем первый пост выбранной темы. Вот исходник парсера серча - http://php.name/demo/se/index.txt Также говнокод ради фана.
Комментариев: 2. Обязательно оставьте свой!
С гуглом сложнее, бывает что парсить не будет,
ибо постоянно меняются адреса дата-центров для определения pr!
Раскрутка и продвижение сайтов в сети Интернет – гарантированный результат, дешевле чем у других, роботы, биржи, SEO-оптимизация: