Поисковый робот google: какую работу выполняет. Поисковой робот Google

Удаление сайта целиком

Чтобы удалить сайт из поисковых систем и запретить всем роботам в дальнейшем его сканировать, разместите в корневом каталоге сервера файл robots.txt следующего содержания:

User-agent: *
Disallow: /

Чтобы удалить сайт только из Google и запретить поисковому роботу Google в дальнейшем его сканировать, разместите в корневом каталоге сервера файл robots.txt со следующим содержанием:

User-agent: Googlebot
Disallow: /

Для каждого порта должен быть создан собственный файл robots.txt. В частности, если используются протоколы http и https, для каждого из них потребуются отдельные файлы robots.txt. Например, чтобы разрешить поисковому роботу Google индексировать все страницы http и запретить сканировать https, файлы robots.txt должны выглядеть следующим образом.

Для протокола http (http://yourserver.com/robots.txt ):

User-agent: *
Allow: /

Для протокола https (https://yourserver.com/robots.txt ):

User-agent: *
Disallow: /

Если файл robots.txt останется в корневом каталоге веб-сервера, в дальнейшем Google не будет сканировать сайт или его каталоги. Если у Вас нет доступа к корневому каталогу сервера, можно поместить файл robots.txt на одном уровне с теми файлами, которые требуется удалить. После того как Вы это сделаете и воспользуетесь системой автоматического удаления URL, сайт будет временно, на 180 дней, удален из индекса Google независимо от того, будет ли удален файл robots.txt после обработки запроса. (Если оставить файл robots.txt на том же уровне, URL потребуется удалять с помощью автоматической системы каждые 180 дней.)

Удаление части сайта

Вариант 1. Robots.txt

Чтобы удалить каталоги или отдельные страницы сайта, можно поместить файл robots.txt в корневом каталоге сервера. О том, как создать файл robots.txt, рассказывается в Стандарт исключений для роботов. Создавая файл robots.txt, учитывайте следующие моменты. Принимая решение о том, какие страницы сканировать на том или ином хосте, поисковый робот Google действует в соответствии с первой записью в файле robots.txt, где параметр User-agent начинается со слова "Googlebot". Если такой записи нет, выполняется первое правило, в котором User-agent – «*». Кроме того, Google позволяет использовать файл robots.txt более гибко за счет применения звездочек. В шаблонах запрета символ «*» может означать любую последовательность символов. Шаблон может оканчиваться символом «$», который обозначает конец имени.

Чтобы удалить все страницы того или иного каталога (например, "lemurs"), добавьте в файл robots.txt такую запись:

User-agent: Googlebot
Disallow: /lemurs

Чтобы удалить все файлы определенного типа (например, .gif), добавьте в файл robots.txt такую запись:

User-agent: Googlebot
Disallow: /*.gif$

Чтобы удалить динамически создаваемые страницы, добавьте в файл robots.txt такую запись:

User-agent: Googlebot
Disallow: /*?

Вариант 2. Мета-теги

Другой стандарт, более удобный для работы со страницами, предусматривает использование на странице формата HTML мета-тега, запрещающего роботам индексировать страницу. Этот стандарт описан на странице .

Чтобы запретить всем роботам индексировать страницу сайта, добавьте в раздел этой страницы следующий мета-тег:

Чтобы запретить индексировать страницу только роботам Google, а остальным разрешить, используйте следующий тег:

Чтобы разрешить роботам индексировать страницу, но запретить переходить по внешним ссылкам, используйте следующий тег:

Примечание. Если Ваш запрос срочный и ждать следующего сканирования Google невозможно, воспользуйтесь автоматической системой удаления URL.. Чтобы запустить этот автоматический процесс, веб-мастер должен сначала вставить в код страницы HTML соответствующие метатеги. После этого каталоги будут временно, на 180 дней, удалены из индекса Google независимо от того, удалите ли Вы файл robots.txt или метатеги после обработки запроса.

Удаление фрагментов (сниппетов)

Фрагмент (сниппет) – это текст, который показывается под названием страницы в списке результатов поиска и описывает содержание страницы.

Чтобы запретить Google выводить фрагменты с Вашей страницы, добавьте в раздел следующий тег:

Примечание. При удалении фрагментов удаляются также и сохраненные в кэше страницы.

Удаление сохраненных в кэше страниц

Google автоматически создает и архивирует снимок каждой сканируемой страницы. Наличие таких сохраненных в кэше версий позволяет конечным пользователям находить страницы, даже если они недоступны (из-за временной неполадки на сервере, где размещена страница). Пользователи видят сохраненные в кэше страницы в том виде, в каком они были в момент сканирования роботом Google. Вверху страницы выводится сообщение о том, что это сохраненная в кэше версия. Чтобы получить доступ к такой странице, пользователь должен выбрать ссылку «Сохранено в кэше» на странице результатов поиска.

Чтобы запретить всем поисковым системам выводить эту ссылку на Ваш сайт, добавьте в раздел следующий тег:

Примечание. Если Ваш запрос срочный и дождаться следующего сеанса сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического удаления URL. Чтобы запустить этот автоматический процесс, веб-мастер должен сначала вставить в код HTML страницы соответствующие метатеги.

Удаление картинки из системы поиска картинок Google

Чтобы удалить картинку из индекса картинок Google, разместите в корневом каталоге сервера файл robots.txt. (Если это невозможно, поместите его на уровне каталога).

Пример: Если требуется удалить из индекса Google изображение sobaki.jpg, размещенное на Вашем сайте по адресу www.vash-sajt.ru/kartinki/sobaki.jpg, создайте страницу www.vash-sajt.ru/robots.txt и добавьте на нее следующий текст:

User-agent: Googlebot-Image
Disallow: /images/sobaki.jpg

Чтобы удалить из индекса все имеющиеся на сайте картинки, разместите в корневом каталоге сервера файл robots.txt со следующим содержанием:

User-agent: Googlebot-Image
Disallow: /

Это стандартный протокол, который соблюдает большинство сканеров; он позволяет удалить из индекса сервер или каталог. Дополнительная информация о robots.txt представлена на странице

Кроме того, Google позволяет использовать файл robots.txt более гибко за счет использования звездочек. В шаблонах запрета символ «*» может означать любую последовательность символов. Шаблон может оканчиваться символом «$», который обозначает конец имени. Чтобы удалить все файлы определенного типа (например, чтобы оставить картинки в формате.jpg, а в формате.gif удалить), добавьте в файл robots.txt такую запись:

User-agent: Googlebot-Image
Disallow: /*.gif$

Примечание. Если Ваш запрос срочный и дождаться следующего сеанса сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического удаления URL. Чтобы запустить этот автоматический процесс, веб-мастер должен сначала создать файл robots.txt и поместить его на соответствующем сайте.

Если файл robots.txt останется в корневом каталоге веб-сервера, Google и в дальнейшем не будет сканировать сайт или его каталоги. Если у Вас нет доступа к корневому каталогу сервера, можно поместить файл robots.txt на одном уровне с теми файлами, которые требуется удалить. После того как Вы это сделаете и воспользуетесь системой автоматического удаления URL, временно, на 180 дней, будут удалены каталоги, указанные в файле robots.txt, из индекса Google независимо от того, удалите ли Вы файл robots.txt после обработки запроса. (Если оставить файл robots.txt на том же уровне, URL потребуется удалять с помощью автоматической системы каждые 180 дней.)

Друзья, я снова приветствую Вас! Сейчас мы разберем, что такое поисковые роботы и подробно поговорим про поисковый робот google и как с ними дружить.

Сначала надо понимать, что вообще такое поисковые роботы, еще их называют пауки. Какую работу выполняют пауки поисковых систем?

Это программы, которые проверяют сайты. Они просматривают все записи и страницы на вашем блоге, собирают информацию, которую потом передают в базу той поисковой системы, на которую они трудятся.

Не надо знать весь список поисковых роботов, самое главное знать, что у гугла сейчас появились два основных паука, которые называются «панда» и «пингвин». Они борются с некачественным контентом и мусорными ссылками и надо знать как отражать их атаки.

Поисковый робот google «панда» создан для того, чтобы продвигать в поиске только качественный материал. Все сайты с низкопробным контентом понижаются в поисковой выдаче.

Первый раз этот паук появился в 2011 году. До его появления можно было продвинуть любой сайт публикуя в статьях большой объем текста и используя огромный объем ключевых слов. В совокупности эти два приема выводили на верх выдачи поиска не качественный контент, а хорошие сайты понижались в выдаче.

«Панда» сразу навел порядок проверив все сайты и расставил всех по своим заслуженным местам. Хотя она и борется с низкопробным контентом, зато сейчас можно продвинуть даже небольшие сайты с качественными статьями. Хотя раньше такие сайты продвигать было бесполезно, они не могли конкурировать с гигантами у которых большое количество контента.

Сейчас мы с вами разберемся, как можно избежать санкций «панды». Надо сначала понять что ей не нравится. Я уже писал выше, что она борется с плохим контентом, но какой текст для нее плохой, давайте разберемся в этом, чтобы не публиковать такой на своем сайте.

Поисковый робот google стремиться чтобы в этом поисковике выдавалась только качественные материалы для соискателей. Если у вас есть статьи в которых мало информации и они не привлекательные внешне, то срочно перепишите эти тексты, чтобы «панда» не добралась до вас.

Качественный контент может иметь как большой объем, так и маленький, но если паук видит длинную статью с большим количеством информации значит она больше принесет пользы читателю.

Затем надо отметить дублирование, а другими словами плагиат. Если вы думаете что будете переписывать чужие статьи себе на блог, то можете сразу поставить крест на своем сайте. Копирование строго наказывается наложением фильтра, а проверяется плагиат очень легко, я писал статью на тему как проверять тексты на уникальность .

Следующее что надо заметить, это перенасыщение текста ключевыми словами. Кто думает, что напишет статью из одних ключей и займет первое место в выдаче – очень сильно ошибается. У меня есть статья, как проверять страницы на релевантность, прочитайте обязательно.

И еще что может привлечь к вам «панду», так это старые статьи, которые устарели морально и не приносят трафик на сайт. Их нужно обязательно обновить.

Существует так же поисковый робот google «пингвин». Этот паук борется со спамом и мусорными ссылками на вашем сайте. Так же он вычисляет купленные ссылки с других ресурсов. Поэтому, чтобы не бояться этого поискового робота, надо не заниматься закупом ссылок, а публиковать качественный контент, чтобы люди сами на вас ссылались.

Сейчас давайте сформулируем, что надо сделать чтобы сайт глазами поискового робота смотрелся идеально:

Для того чтобы сделать качественный контент, сначала хорошо изучите тему, прежде чем писать статью. Затем надо понимать, что данной темой реально интересуются люди.

Используйте конкретные примеры и картинки, это сделает статью живой и интересной. Разбивайте текст на мелкие абзацы, чтобы читать было легко.Вот например, если вы открыли в газете страницу с анекдотами, то какие сначала прочитаете? Естественно каждый человек сначала читает короткие тексты, затем подлиньше и в самую последнюю очередь уже длинные портянки.

Любимая придирка «панды» — это не актуальность статьи в которой содержится устаревшая информация. Следите за обновлениями и изменяйте тексты.

Следите за плотностью ключевых слов, как определить эту плотность я написал выше, в сервисе о котором я рассказал вы получите точное необходимое количество ключей.

Не занимайтесь плагиатом, всем известно что нельзя воровать чужие вещи или текста – это одно и то же. За воровство будете отвечать попаданием под фильтр.

Тексты пишите минимум на две тысячи слов, тогда такая статья будет выглядеть глазами роботов поисковых систем информативной.

Не уходите от темы вашего блога. Если вы ведете блог по заработку в интернете, то не надо печатать статьи про пневматическое оружие. Это может снизить рейтинг вашего ресурса.

Красиво оформляйте статьи, делите на абзацы и добавляйте картинки, чтобы приятно было читать и не хотелось побыстрее уйти с сайта.

Закупая ссылки, делайте их на самые интересные и полезные статьи, которые реально будут читать люди.

Ну вот сейчас вы знаете какую работу выполняют роботы поисковых систем и сможете с ними дружить. А самое главное поисковый робот google и «панда» и «пингвин» вами подробно изучен.

Яндекс сегодня является самой популярной поисковой системой русскоязычного Интернета, которой каждый день пользуется более миллиона человек. Такая популярность объясняется тем, что база Яндекса содержит огромное количество проиндексированных страниц Интернета, содержащих самую разнообразную и порой уникальную информацию. Вкупе с алгоритмом поиска это приводит к высокой релевантности документов, найденных по запросу пользователя и, в конечном счете, к полному удовлетворению информационной потребности пользователя.

На 17.07.09 Яндексом было проиндексировано 3 558 614 259 веб-страниц. Получение информации с сайтов Интернета и отправка ее в базу поисковой системы – задача специального робота-индексатора. Во многом благодаря высокой скорости его работы на сегодняшний день Яндекс имеет такую обширную базу документов для поиска.

История роботов Яндекса

Яндекс появился в 1996 году. Но не в качестве поисковой системы, а в виде нескольких обособленных продуктов. Например, Яndex.Site – программа, производящая поиск на сайте, Яndex.CD – программа поиска документов на сd-диске.

Сама же поисковая система возникла осенью 1997 года. 23 сентября на выставке Softool Яндекс был официально представлен уже в качестве полнофункциональной поисковой системы Интернета. С тех пор объем Рунета непрерывно возрастал, что вынуждало совершенствовать алгоритмы индексирования и поиска информации.

Поэтому в 1999 году был создан новый поисковый робот, который помимо значительного увеличения скорости индексации позволил пользователям искать информацию по разным зонам документа – в URL, в заголовках, в ссылках и т.п.

Сейчас официально анонсировано 11 роботов Яндекса, каждый из которых специализируется на определенной задаче.

Роботы Яндекса

Робот каждой поисковой системы имеет свое имя. Например, у Рамблера - «StackRambler/2.0», у Гугла – «Googlebot/2.1». Яндекс в своем составе имеет несколько специализированных роботов, выполняющих строго определенные задачи. Вот каких роботов Яндекса можно встретить:

Yandex/1.01.001 (compatible; Win16; I) - основной индексирующий робот Яндекса. Это самый важный робот, функция которого – поиск и индексирование информации, найденной на просторах российского Интернета. Для всех seo-специалистов очень важно отслеживать появление на своих сайтах робота-индексатора. Обычно робот заходит со следующих ip-адресов: 213.180.206.4, 213.180.206.1, 213.180.216.4, 213.180.206.248, 213.180.216.28. Поэтому, увидев в логах своего сайта заветное слово yandex, обратите свое внимание на ip-адрес, потому как в Интернете сейчас существует достаточное большое количество сервисов тестирования сайта, которые позволяют заходить на странички, представляясь как user agent: Yandex/1.01.001 (compatible; Win16; I) Может оказаться, что вовсе и не Яндекс посетил Ваш сайт.

Yandex/1.01.001 (compatible; Win16; P) - индексатор картинок, которые впоследствии будут доступны в поиске на http://images.yandex.ru . Для поисковой системы самым простым путем определения, соответствует ли картинка запросу пользователя, является анализ тега alt. Второй путь, который как и первый скорее всего использует сервис Яндекс.Картинки – анализ имени файла. Например, посмотрите на замечательные лотосы на странице http://en.npftravel.ru/news/issue_117.html . Ни одного упоминания слова «лотос» в теле документа, однако картинка все-таки была найдена по запросу «лотос» благодаря тому, что файл имеет имя lotos.jpg!

Yandex/1.01.001 (compatible; Win16; H) - робот, определяющий зеркала сайтов. Задача этого робота – определение степени схожести двух документов. Если документы очень похожи друг на друга, в результатах выдачи Яндекс скорее всего покажет только один сайт.

Yandex/1.03.003 (compatible; Win16; D) - робот, на страницу при добавлении ее через форму «Добавить URL» , определяет доступность страницы для индексации.

Yandex/1.03.000 (compatible; Win16; M) - робот, обращающийся при открытии страницы по ссылке «Найденные слова».

YaDirectBot/1.0 (compatible; Win16; I) - робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса.

Yandex/1.02.000 (compatible; Win16; F) - робот, индексирующий иконки сайтов (favicons), которые показываются потом в результатах поиска слева от ссылки на найденный сайт.

Кроме того у Яндекса есть группа роботов, которые определяют, доступен ли в данный момент сайт или документ, на который стоит ссылка в соответствующем сервисе.

Yandex/2.01.000 (compatible; Win16; Dyatel; C) - «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.

Yandex/2.01.000 (compatible; Win16; Dyatel; Z) - «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.

Yandex/2.01.000 (compatible; Win16; Dyatel; D) - «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.

Yandex/2.01.000 (compatible; Win16; Dyatel; N) - «простукивалка» Яндекс.Новостей. Она формирует отчет для контент-менеджера, который оценивает масштаб проблем и, при необходимости, связывается с партнером.

В отличие от роботов первой группы, эти работы не забирают содержимое странички, а фиксируют лишь ответ сервера. Поэтому они делают несколько другой запрос к серверу. Например, посещение робота Dyatel может быть зафиксировано в логах сервера в виде строки следующего содержания:

213.180.193.53 - - "HEAD / HTTP/1.0" 200 0 "-" "Yandex/2.01.000 (compatible; Win16; Dyatel; C)".

Как видно, используется директива Head, запрашивающая только лишь заголовки сервера. В данном случае сайт доступен, работает, так как отдался статусный код 200 ОК.

Также кроме перечисленных роботов, Яндекс имеет в своем составе так называемого «быстрого робота» - частота индексации им документа больше в несколько раз, чем у обычного робота-индексатора. По заявлению главного редактора компании "Яндекс" Елены Колмановской: «Быстрый робот нужен для индексации актуальных документов, наиболее востребованных пользователями».

Узнать, посещал ли сайт быстрый робот, можно только одним путем – в результатах поиска рядом с адресом страницы сайта должна появиться небольшая приписка, обозначающая, сколько часов назад страницу посетил быстрый робот. Например, «5 часов назад».

Процесс индексации документа

Процесс индексации документа роботами поисковых систем в общем случае начинается с добавления сайта в форму на специальной странице. Для Яндекса это страница http://webmaster.yandex.ru/ . Здесь требуется ввести лишь адрес сайта, никаких дополнительных данных вносить не требуется. А вот в Рамблере, например, требуется указывать еще и название сайта, короткое описание регистрируемого сайта и контактное лицо.

Если сайт добавляется впервые, то Яндекс выдаст сообщение:

«Адрес http://example.com/ успешно добавлен. По мере обхода робота он будет проиндексирован и станет доступным для поиска»

Если сайт уже посещался роботом-индексатором, то появится сообщение:

Документ http://example.com/ уже проиндексирован и доступен для поиска.
Вы можете посмотреть, какие страницы сайта http://example.com/ доступны в Яндексе к настоящему времени (* страниц).

После добавления нового сайта через форму, его тут же посетит робот Yandex/1.03.003 (compatible; Win16; D). Он определит доступность сайта для индексирования, а также установит, удовлетворяет ли сайт требованиям Яндекса, основным из которых является требование русскоязычности ресурса. Поэтому, как пример, может возникнуть такая ситуация:

Адрес http://www.example.com/ не был внесен в базу Яндекса, так как сайт http://www.example.com/ находится вне доменов стран СНГ, при этом наш робот не смог распознать в нем русский текст.

Если же все хорошо, то в логах сайта можно будет обнаружить строку:

213.180.206.223 - - "GET /robots.txt HTTP/1.1" 404 296 "-" "Yandex/1.03.003 (compatible; Win16; D)"
213.180.206.223 - - "GET / HTTP/1.1" 200 2674 "-" "Yandex/1.03.003 (compatible; Win16; D)"

Видно, что сначала робот обратился к файлу robots.txt чтобы определить, не запрещен ли сайт к индексации. Затем уже обратился к главной странице.

После добавления сайта на странице http://webmaster.yandex.ru/ менее чем через два дня сайт посетит робот-индексатор Yandex/1.01.001 (compatible; Win16; I). И еще через некоторое время сайт будет доступен для поиска в Яндексе.

Возможные препятствия при индексации документа

Есть несколько причин, препятствующих правильной индексации сайта в Яндексе.

Технические неполадки:

Некорректная работа

Искусственный запрет индексации:

отдельных страниц

Другое:

маленький размер

Следует отметить, что Яндекс индексирует не только документы html. Кроме них доступными для индексации являются документы следующих типов: PDF (файл Adobe Acrobat), DOC (MS Word), RTF (Reach text format). Также Яндекс индексирует сайты, созданные на основе Flash-технологий. А вот Рамблер индексирует только файлы html, htm, shtml, а динамические страницы и flash сайты индексирует плохо.

Просмотреть, в каком виде хранится web-страничка в базе Яндекса, можно следующим образом.

Сначала нужно сделать так, чтобы страница попала в выдачу. Проще всего воспользоваться «расширенным поиском Яндекса». Вписать в поле «находятся на сайте» url сайта, например, www.seonews.ru и далее в окно поиска ввести слово с требуемой страницы, например, «мастер-класс».

Найти в результатах поиска нужную страницу и нажать на ссылку «найденные слова».

Далее в верхней части документа нажать на ссылку «сохраненная копия»:

В новом окне откроется так называемая «сохраненная копия Яндекса». Можно посмотреть и сравнить с оригиналом документа. Может оказаться, что некоторые слова Яндексом не проиндексированы.

Неиндексация некоторых элементов страницы может быть вызвана несколькими причинами:

Текст заключен в тег . Это специальный тег, запрещающий индексацию текста роботу Яндекса.

Текст расположен в скрипте, т.е между тегами

Текст расположен в комментариях

Заключение

Каждому, кто ведет в Интернете серьезный проект, необходимо понимать основные принципы работы роботов-индексаторов поисковых систем. Знание о том, когда робот приходит на сайт, что индексирует, что не индексирует, позволит избежать многих проблем, прежде всего технических, уже на стадии создания сайта и далее – при его сопровождении.

Чтобы не задаваться вопросом, почему в очередной раз сайт пропал из выдачи по некоторому запросу, прежде всего, стоит проанализировать, а что же на данный момент проиндексировал робот на сайте? Не могло оказаться так, что некоторая информация стала недоступна роботу по тем или иным причинам?

Знание основным моментов процесса индексирования документа позволит правильно произвести регистрацию ресурса в поисковой системе и грамотно осуществлять его дальнейшее продвижение, чтобы пользователи всегда находили Ваш сайт на просторах Интернета.

Как можно повлиять на робота, чтобы он индексировал то, что нам нужно или наоборот не индексировал? Это одна из самых популярных тем, которую кто только не разбирал, и в тоже время мы постоянно видим ошибки в файле robots.txt. Что же не так? Давайте разберемся.

Сам файл robots.txt – это строгий набор инструкций для индексирующего робота, показывающий, что можно индексировать, а что нет. Этот файл находится в корне вашего сайта, обязательно имеет название robots.txt и начинается со строки User-agent. Эта директива показывает какие правила, перечисленные ниже, будут использоваться для того или иного робота.

Распространенные директивы disallow/allow запрещают или разрешают индексирование страниц. Здесь можно запрещать и дублирующие страницы, и служебные, и скрипты, и все что угодно. Особенно важна эта директива, если у вас на сайте хранятся какие-то пользовательские данные: договор, адреса доставки, мобильный телефон и др. Эту информацию нужно закрыть от индексирующего робота, чтобы она не попала в результаты поиска.

Директива Clean-param позволяет удалять ненужные параметры из URL-адресов страниц, если вы их используете для отслеживания того, откуда пришел на ваш сайт индексирующий робот.

Директива Crawl-delay задает интервал между окончанием запроса одной страницы роботом и началом запроса другой. Очень эффективная директива, если вы открыли новый раздел на вашем сайте; робот пришел и начал скачивать кучу страниц, создавать дополнительную нагрузку сайту, ресурс перестает отвечать, недоступен для посетителей, и вы теряете своих клиентов.

Директива Sitemap указывает на наличие и адрес, т.е. местоположение соответствующего файла карты на вашем сайте. Директива Host указывает адрес главного зеркала.

Вот пример типичного файла robots.txt

Начинается файл с директивы User-agent: * . Где * — показывает, что используется для всех индексирующих роботов, если не указано иначе. Во втором блоке указано User-agent: Yandex. Это означает, что он предназначен только для индексирующих роботов Яндекса.

Директива Disallow:/admin указывает на то, что нужно запретить обход всех страниц, которые начинаются с admin . Disallow:*=? cart* запрещает любые действия, любые GET-параметры, содержащие этот адрес.

GET-параметры – это параметры, которые передаются серверу, когда совершается запрос. Со стороны пользователя это выглядит, как часть интернет адреса. Например, такой запрос http://www.examle.com/test?param1=value1¶m2=value2¶m3=value3.
Все, что идет после? это GET-параметры. Они представляют собой список пар – ключ-значение, разделенные &. В данном случае это три пары: (param1, value1) (param2, value2) (param3, value3).

Дополнительные директивы: Clean-param: sid/ – очищает идентификатор сессии.
Crawl-delay: 0.5 – в данном случае робот будет запрашивать две страницы в 1 секунду.

Какие самые распространенные ошибки допускаются при работе с файлом robots.txt?

Самый распространенный случай ошибки, например, если ваш сайт лютикицветочки.рф, и в директиве Host – вы его указали не в закодированном виде. Хотя нужно указывать в закодированном понекоде (Punycode).

Punycode — алгоритм, который определяет однозначное преобразование символов Юникода (символы национального алфавита, например, россия.рф) в строки ASCII-символов.

А как мы знаем, URL отправляются в интернет в ASCII-кодировке . Данная кодировка используется для передачи информации между компьютерами в интернете. ASCII расшифровывается как Американский Стандартный Код для Обмена информацией.

Все эти ошибки можно предотвратить, если пользоваться простейшим инструментом в «Яндекс.Вебмастер» — Анализатор robots.txt .

Вставляете адрес вашего сайта, нажимаете загрузить robots.txt, теперь можете увидеть, то, что сейчас там находится, добавляете список URL-адресов страниц, нажимаете кнопку проверить. Можно редактировать, посмотреть, как робот воспримет то или иное изменение. Если вы вносите какие-то серьезные изменения в файл robots.txt, даже если знаете и делали это много раз, то перестрахуйтесь, воспользовавшись этим инструментом.

Что такое карта сайта и как её рисовать?

Итак, мы с вами запретили роботу посещать те или иные страницы на сайте, но теперь нужно показать, какие страницы нужно индексировать и включать в поисковую выдачу.

Для этого существует специальный файл Sitemap – карта вашего сайта. Это текстовый или XML-файл, содержащий адреса страниц, которые необходимо индексировать. Ниже приведен пример файла sitemap.

Файл должен начинаться со служебной строки, указывающей на кодировку. Обязательно стандарт, с которым он составлен, и обязательно тэг Url и Loc (location – показывает адрес страницы). Это самый простой файл, здесь всего одна страница – это «морда» (главная страница сайта). Плюс есть необязательные тэги, которые тоже можно передавать роботу, и которые робот может учитывать (lastmode – дата последнего изменения страницы, changefreq – периодичность ее изменения, priority – приоритет при обходе вашего сайта в целом).

Ошибки при работе с Sitemap

В работе с файлом sitemap вам так же пригодится Валидатор в «Яндекс.Вебмастер», в котором можно проверить все эти ошибки, проверить ваш готовый файл, размещенный на сервере либо на компьютере. Поможет Стандарт файлов sitemap , переведенный на русский язык. И, конечно, раздел «Помощь вебмастеру» .

Зеркала сайтов

Следующий вопрос, о котором хочется поговорить – это зеркала сайтов. Попробуем с ними разобраться. Как правило, любой сайт в интернете доступен по двум адресам: http://www.site.ru и http://site.ru. Для индексирующего робота это два изначально независимых ресурса, они индексируются независимо, и участвуют в поиске независимо друг от друга. Что это значит? Что у одного сайта может быть проиндексировано определенное количество страниц, они будут находиться по таким-то запросам. У второго сайта может быть совсем другая ситуация. И для того, чтобы избежать такого дублирования и перемешки, непонимания, мы используем зеркала сайтов.

Зеркала сайтов – это несколько сайтов, которые обладают одинаковым контентом. В данном случае, это сайты с www или без www, сайты по протоколу https, и адрес сайта на кириллице. Это все распространенные случаи.

Зачем все это нужно? Основная причина, по которой сейчас используются зеркала сайтов – это перенос сайта на новый адрес с сохранением характеристик старого адреса. Например, вы решили сменить доменное имя по каким-либо причинам. Потому что выбрали его 10 лет назад, и сейчас он кажется вам не современным, так как сложно писать пользователям, которые вбивают его в адресную строку, постоянно делают ошибки. Во-вторых, для того, чтобы предотвратить ошибочные переходы по другим адресам.

В первом случае, если мы совершаем переезд с использованием зеркал, мы сохраняем все характеристики старого сайта для нового. Соответственно, мы минимизируем какие-либо возможные проблемы.

Каким образом сайты можно сделать зеркалами?

Допустим ситуацию, что у нас есть два сайта: Сайт А (главное зеркало) и сайт В (не главное зеркало). Сайт А индексируется, участвует в результатах поиска, участвует по запросам. Есть сайт В, сейчас это не главное зеркало, и в выдаче мы его не видим. Мы принимаем решение, что нам нужно включать в результаты поиска именно сайт В. И устанавливаем перенаправление с сайта А на сайт В. Что происходит дальше? Главное наше зеркало (сайт А) перестает участвовать в результатах поиска, потому что сейчас на нем установлено перенаправление и его страницы не доступны для робота. Они начинают исключаться из поисковой выдачи. Сайт В при этом (поскольку является не главным зеркалом) в поиске не участвует, не индексируется и не показывается по каким-либо запросам.

А теперь немного данных из «Яндекс.Метрики». После установки редиректа буквально в течение двух недель страницы сайта начали исключаться из поисковой выдачи, и переходы на сайт снизились. Все это продолжалось до того момента, когда изменился адрес главного зеркала.

Исключение страниц сайта из поисковой выдачи при неправильной работе с зеркалами сайтов. Типичные ошибки при работе с зеркалами.

Помимо установки редиректа для смены адреса главного зеркала, допускаются еще ряд многочисленных ошибок, основные из которых:

В подобных ситуациях можно открывать раздел на вашем большом ресурсе, после того как эти страницы начнут индексироваться можно установить 301 редирект с вашего маленького сайта на этот раздел. К сожалению, склеить сайты в такой ситуации не получится.

Чтобы сайты могли быть склеены, они должны быть доступны для индексирования и находиться в вашем управлении.

Просматривая логи сервера, иногда можно наблюдать чрезмерный интерес к сайтам со стороны поисковых роботов. Если боты полезные (например, индексирующие боты ПС) — остается лишь наблюдать, даже если увеличивается нагрузка на сервер. Но есть еще масса второстепенных роботов, доступ которых к сайту не обязателен. Для себя и для вас, дорогой читатель, я собрал информацию и переделал ее в удобную табличку.

Кто такие поисковые роботы

Поисковый бот , или как еще их называют, робот, краулер, паук — ни что иное, как программа, которая осуществляет поиск и сканирование содержимого сайтов, переходя по ссылкам на страницах. Поисковые роботы есть не только у поисковиков. Например, сервис Ahrefs использует пауков, чтобы улучшить данные по обратным ссылкам, Facebook осуществляет веб-скраппинг кода страниц для отображения репостов ссылок с заголовками, картинкой, описанием. Веб-скраппинг — это сбор информации с различных ресурсов.

Использование имен пауков в robots.txt

Как видим, любой серьезный проект, связанный с поиском контента, имеет своих пауков. И иногда остро стоит задача ограничить доступ некоторым паукам к сайту или его отдельным разделам. Это можно сделать через файл robots.txt в корневой директории сайта. Подробнее про настройку роботса я писал ранее, рекомендую ознакомиться.

Обратите внимание — файл robots.txt и его директивы могут быть проигнорированы поисковыми роботами. Директивы являются лишь рекомендациями для ботов.

Задать директиву для поискового робота можно, используя секцию — обращение к юзер-агенту этого робота. Секции для разных пауков разделяются одной пустой строкой.

User-agent: Googlebot Allow: /

User - agent : Googlebot

Allow : /

Выше приведен пример обращения к основному поисковому роботу Google.

Изначально я планировал добавить в таблицу записи о том, как идентифицируют себя поисковые боты в логах сервера. Но так как для SEO эти данные имеют мало значения и для каждого токена агента может быть несколько видов записей, было решено обойтись только названием ботов и их предназначением.

Поисковые роботы G o o g l e User-agent Функции

Googlebot	Основной краулер-индексатор страниц для ПК и оптимизированных для смартфонов
Mediapartners-Google	Робот рекламной сети AdSense
APIs-Google	Агент пользователя APIs-Google
AdsBot-Google	Проверяет качество рекламы на веб-страницах, предназначенных для ПК
AdsBot-Google-Mobile	Проверяет качество рекламы на веб-страницах, предназначенных для мобильных устройств
Googlebot-Image (Googlebot)	Индексирует изображения на страницах сайта
Googlebot-News (Googlebot)	Ищет страницы для добавления в Google Новости
Googlebot-Video (Googlebot)	Индексирует видеоматериалы
AdsBot-Google-Mobile-Apps	Проверяет качество рекламы в приложениях для устройств Android, работает по тем же принципам, что и обычный AdsBot

Поисковые роботы Я ндекс User-agent Функции

Yandex	При указании данного токена агента в robots.txt, обращение идет ко всем ботам Яндекса
YandexBot	Основной индексирующий робот
YandexDirect	Скачивает информацию о контенте сайтов-партнеров РСЯ
YandexImages	Индексирует изображения сайтов
YandexMetrika	Робот Яндекс.Метрики
YandexMobileBot	Скачивает документы для анализа на наличие верстки под мобильные устройства
YandexMedia	Робот, индексирующий мультимедийные данные
YandexNews	Индексатор Яндекс.Новостей
YandexPagechecker	Валидатор микроразметки
YandexMarket	Робот Яндекс.Маркета;
YandexCalenda	Робот Яндекс.Календаря
YandexDirectDyn	Генерирует динамические баннеры (Директ)
YaDirectFetcher	Скачивает страницы с рекламными объявлениями для проверки их доступности и уточнения тематики (РСЯ)
YandexAccessibilityBot	Cкачивает страницы для проверки их доступности пользователям
YandexScreenshotBot	Делает снимок (скриншот) страницы
YandexVideoParser	Паук сервиса Яндекс.Видео
YandexSearchShop	Скачивает YML-файлы каталогов товаров
YandexOntoDBAPI	Робот объектного ответа, скачивающий динамические данные

Другие популярные поисковые боты User-agent Функции

Baiduspider	Спайдер китайского поисковика Baidu
Cliqzbot	Робот анонимной поисковой системы Cliqz
AhrefsBot	Поисковый бот сервиса Ahrefs (ссылочный анализ)
Genieo	Робот сервиса Genieo
Bingbot	Краулер поисковой системы Bing
Slurp	Краулер поисковой системы Yahoo
DuckDuckBot	Веб-краулер ПС DuckDuckGo
facebot	Робот Facebook для веб-краулинга
WebAlta (WebAlta Crawler/2.0)	Поисковый краулер ПС WebAlta
BomboraBot	Сканирует страницы, задействованные в проекте Bombora
CCBot	Краулер на основе Nutch, который использует проект Apache Hadoop
MSNBot	Бот ПС MSN
Mail.Ru	Краулер поисковой системы Mail.Ru
ia_archiver	Скраппит данные для сервиса Alexa
Teoma	Бот сервиса Ask

Поисковых ботов очень много, я отобрал только самых популярных и известных. Если есть боты, с которыми вы сталкивались по причине агрессивного и настойчивого сканирования сайтов, прошу в комментариях указать это, я добавлю их также в таблицу.