Или - как оно все на самом деле работает
В сегодняшней статье я хочу рассказать Вам о том, как мой сайт выпал из индекса Яндекса, почему это произошло и что делать чтобы не попасть в подобную историю? Если Вы будете готовы к этому, то не окажетесь в том положении, в которое угодил я. А поверьте, когда сайт выпадает из индекса поисковой системы это - очень неприятно! :)
Что такое есть этот самый "индекс", мы затрагивали в предыдущей статье, посвященной поисковым алгоритмам. Коротко говоря, если сайт не индексируется это значит, что он "не видим" для самой поисковой системы, а следовательно, - и для всех пользователей, которые ей пользуются. Получается что сайта - нет! Точнее фактически он-то есть, но вот найти его в результатах поисковой выдачи нельзя.
В начале июня этого (2012-го) года я стал замечать плавное, но неуклонное падение поискового трафика. Это показал счетчик статистики от «LiveInternet». В тот момент я занимался ремонтом в квартире и списал происходящее на какие-то сезонно-отпускные колебания трафика, короче о том, что мой проект выпал из индекса я не подозревал вообюще.
Но! Когда я по прошествии нескольких дней еще раз заглянул в статистику, то понял что творятся реально не хорошие вещи:
Все понятно и без объяснений :) Вот здесь я, признаюсь, озадачился серьезно. Потому как только накануне имел разбор полетов с «Google» и вот теперь - «Яндекс»!.
Первым делом, закрадывается мысль: а что если сайт не индексируется Яндексом вообще? Проверим это предположение. Открываем поисковик и прямо в строке запроса набираем такую конструкцию site:sebeadmin После двоеточия, естественно, подставляете адрес своего ресурса. Нажимаем "найти". Этот же метод работает и в поисковике Гугл.
Что это за команда? Она позволяет увидеть все страницы, которые были проиндексированы поисковым роботом (ботом, краулером, индексатором) и попали в базу самой ПС.
Полюбуемся на результат:
Из индекса (поисковой базы) выпали все страницы. Фактически весь сайт выпал из индекса. Итог: для "зеркала Рунета" его вообще нет! Что тут скажешь? За-ши-бись... Вот примерно так я и подумал, только - чуть более лаконично :)
Решил еще раз "потрясти" Интернет-статистику, но уже по запросу "трафик с поисковых систем". Вот что я увидел:
Вот хуже этого зрелища для владельца уже, наверное, ничего быть не может :) Сайт полностью выпал из индекса и, как следствие, - трафик с Яндекса упал практически до нуля.
Возникает резонный вопрос: почему не индексируется сайт? Никаких "работ" на нем в последнее время не проводилось, "запрещенных" методов не использовалось, так где, спрашивается, собака порылась? :)
Первым делом решаю зайти в панель веб-мастера. В данном случае - сюда: webmaster.yandex.ru Ввожу логин и пароль, указанный при регистрации в ней, и сходу вижу еще одно подтверждение того, что сайт выпал из индекса:
Только одна страница участвует в поиске (присутствует в базе, по которой и ищет поисковая система - ПС).
Нажимаем на знак вопроса возле количества страниц столбца "Страниц в поиске". Видим вот такое всплывающее окно:
Также - обратим внимание на правую часть панели интерфейса веб-мастера. Там собраны сообщения, требующие нашего внимания, новости, различные анонсы и т..д.
Нажимаем на ссылку "Сообщения" и убеждаемся в том, что сайт выпал из индекса еще около двух недель назад, а то что поисковый трафик начал снижаться только сейчас можно объяснить остаточным присутствием страниц в кеше ПС.
Кликабельно:
Так, ситуация проясняется! Оказывается дело - в настройках веб-сервера хостинга, на котором расположен мой проект.
Примечание: хостинг - место для размещения ресурса, за деньги арендуемое его владельцем у компании предоставляющей такие услуги (хостинговая компания - "хостер"). Тоесть, - сайт физически расположен на их сервере, который управляется их админами. Вот этот момент надо всегда держать в голове!
Похоже - придется связываться со службой поддержки моего "хостера" и выяснять в чем дело? Но, для начала, напишем письмо в поддержку самого Яндекса, просто чтобы посмотреть как быстро и что именно они скажут :)
Это можно сделать через ту же панель сообщений, нажав на ссылку: "Задать вопрос службе поддержки" (один из скриншотов выше). На нужно будет заполнить вот такую форму:
Картинка - кликабельна.
Вдумчиво делаем это, подробно описываем возникшую ситуацию, говорим, что сайт выпал из поиска, прикрепляем графический файл с подтверждением этого прискорбного события и нажимаем кнопку "отправить".
Саппорт (поддержка) работает по нумерованным "тикетам" (запросам от пользователей), поэтому на боле-менее адекватный "тикет" ответ прийти обязан. В среднем его придется ждать 2-3 дня, но, скорее всего, он таки придет!
Вот как выглядел заголовок входящего письма в моем случае:
А вот - сам текст, который объясняет почему не индексируется сайт.
Видим, что был заблокирован доступ для индексирующего робота поисковой системы. Надо выяснить почему.
Вот теперь с "чистой совестью", мы можем писать в поддержку нашего хостера и разбираться дальше. Пишем через обычную почту, объясняем ситуацию, "пугаем" поддержку письмом Яндекса :)
В результате получаем вот такой ответ:
Здесь давайте притормозим и вкратце разберем, как поисковик составляет свою базу? Поисковый робот (краулер или - паук) "гуляет" по сети Интернет и, находя новые сайты, заносит их содержимое в поисковую базу своей ПС. Причем "паук" регулярно возвращается на проиндексированные им уже ресурсы, посмотреть не появилось ли на них какой-либо новой информации? Можно сказать что он - "питается" их контентом.
Робот это - программа, выглядящая для программного обеспечения, которое управляет показом сайта, как интернет-браузер пользователя. Визит бота это - одно соединение с сайтом с одного IP адреса в один момент времени. И вот здесь - важный момент!
Если по какой-либо причине краулер не сможет получить доступ к сайту (временные проблемы у хостера, неправильная настройка веб-сервера на котором расположен сайт и т.д.) он может сообщить своей поисковой системе, что такого сайта просто нет и она влегкую исключит его из своей индексной базы (он из нее выпадет). Причем сайт, в принципе, будет у Вас прекрасно функционировать и Вы (до последнего момента) и знать ни о чем не будете!
В моем случае произошла немного другая история: робот не смог (почему? - поддержка хостера тут глухо молчит) "зайти" на сайт и не придумал ничего лучше, как начать быстро соединяться с ним с разных IP адресов (он такое умеет), а настройки безопасности серьезного дата-центра хостера возьми и посчитай, что такое поведение есть признак хакерской атаки и забанила (заблокировала) все эти IP адреса.
В итоге - все сработало на ура! Поисковик посчитал что ресурса больше нет и сайт выпал из индекса, система безопасности дата-центра отрапортовала об успешно отбитой хакерской атаке а я остался с... результатом взаимодействия этих двух "интеллектуальных" систем! Помните такие строчки одной из песен Владимира Высоцкого: "Доктор действовал во благо, жаль что благо - не мое" :)
Короче говоря, пишу еще раз в службу поддержки "зеркала Рунета". Так мол и так, Ваш робот добавлен в "белый список" и больше блокироваться не будет. Через пару дней получаю вот такой ответ:
Кликабельно:
Ну, слава богу! Процесс - пошел! Правда АП (апдейт, оно же - обновление) поисковой базы Яндекса происходит (в среднем) раз в пять дней, но - подождем, что еще остается?
А пока - заходим в панель нашего веб мастера и видим вот такое радостное извещение:
Запись буквально означает: выпавший из индекса сайт готов к переиндексации. В результатах выдачи его по прежнему нет, но после того, как на него очередной раз "зайдет" поисковый робот и занесет его в базу - появится там. А это дней 5-7, не меньше!.
А пока - обратите Ваше внимание на приписку в ответном письме от сотрудников Яндекса: "С уважением, Платон Щукин". Письма от этого "человека" Вы будете получать часто (если будете переписываться с тех-поддержкой, разумеется). Это - псевдоним, который призван придать "человечности" нашему общению с бездушной машиной. Впрочем, (если Вы умудритесь поставить в тупик искусственный интеллект Платона) Вам может ответить действительно реальный человек :)
И вот, заглянув по прошествии недели в веб-мастер я с удовольствием обнаружил вот такую картину:
Робот за первый заход загрузил (проиндексировал) 75 страниц моего сайта. Остальные, будем надеяться, - подтянутся после следующего "апа" (апдейта) поисковой базы.
Проверим для пущей убедительности это через строку поиска. Введем в нее команду: site:sebeadmin
Видим - все нормально. Страницы действительно присутствуют и индексе ПС.
А вот как выглядит график посещаемости моего ресурса по отдельным ПС за вчерашний день:
Как видите, дней за 10 ресурс полностью выбрался из "ямы" и это, без сомнения, - замечательно! Проблема в другом: почему он, собственно, в нее угодил? Ведь то, что сайт выпал из индекса это никак не потому, что он - не соответствует каким-то (придуманным кем-то) требованиям, а в силу откровенной "кривизны" работы поисковой системы (в данном случае - «Яндекс»).
Ну, неужели, дожившись до 2012-го года, нельзя до сих пор придумать адекватный способ проверки того, прекратил ресурс свое существование или нет? Зачем столь слепо доверять несовершенной программе, которая послала ПС сигнал о его недоступности и выбрасывать сайт из индекса? Можно, в конце концов, асессору и утрудиться - вручную зайти на страницу, удостоверившись в ее абсолютной доступности.
Примечание: асессор - человек, имеющий право вручную корректировать результаты выдачи и отвечающий за "обучение" машинного интеллекта. "Зеркало Рунета" располагает целым штатом асессоров.
Но, почему-то мне кажется, что эти мои вопросы так останутся риторическими. Не в этом суть, а в том, что Вы должны знать о такой схеме поведения ПС и, по возможности, не дать ей шанса сделать так, чтобы Ваш сайт выпал из индекса! :) Почаще заглядывайте в панель веб-мастера и получайте в ней только приятные сообщения!