SEO для начинающих /поисковые системы

Как работают поисковые системы?

Как мы уже упоминали в главе 1 , поисковые системы  являются автоответчиками. Они существуют для того, чтобы находить, понимать и организовывать интернет-контент. Чтобы предлагать наиболее релевантные ответы для вопросов, который задает поисковик.

поисковые системы

Чтобы отображаться в результатах поиска, ваш контент должен быть сначала видимым для поисковых систем. Возможно, это самая важная часть SEO: если ваш сайт не может быть найден. Вы нигде не попадете в поисковую выдачу (Страница результатов поисковой системы).

Робот Googlebot начинает с загрузки нескольких веб-страниц, а затем переходит по ссылкам на этих веб-страницах, чтобы найти новые URL-адреса. Перемещаясь по этому пути ссылок, сканер может найти новый контент и добавить его в свой индекс под названием Caffeine – огромную базу данных обнаруженных URL-адресов – для последующего извлечения и использования.

Что такое индекс поисковой системы?

Поисковые системы обрабатывают и хранят информацию, которую они находят, в индексе, огромной базе данных всего обнаруженного ими контента. Который, по их мнению, достаточно хорош, чтобы быть использованным .

Рейтинг в поисковых системах

Когда кто-то выполняет поиск, поисковые системы просматривают свой индекс для очень релевантного контента. Затем упорядочивают этот контент в надежде на решение поискового запроса. Такое упорядочение результатов поиска по релевантности называется ранжированием. В целом, вы можете предположить, что чем выше рейтинг сайта, поисковик считает тем более релевантный контент на нем. И ,  что он соответствует запросу.

Можно заблокировать поисковые роботы от части или всего вашего сайта или дать указание поисковым системам избегать сохранения определенных страниц в своем индексе. Хотя для этого могут быть причины. Чтобы ваш контент был найден поисковиками, вы должны сначала убедиться, что он доступен сканерам и индексируется. В противном случае он будет просто невидимым.

Вы , можете ускорить индексирование страницы :

поисковые системы

Просто добавьте страницу в Google и Яндекс вебмастер для индексирования.

К концу этой главы вы получите контекст, необходимый для работы с поисковой системой, а не против нее!

Могут ли поисковые системы найти ваши страницы?

Как вы только что узнали, предварительная проверка того, что ваш сайт сканируется и индексируется. Является обязательным условием для отображения в результатах поиска. Если у вас уже есть веб-сайт, неплохо было бы начать с просмотра количества ваших страниц в индексе. Это поможет лучше понять, сканирует ли Google все страницы, которые вы хотите, и те, которые вам не нужны в поиске.

Один из способов проверить ваши проиндексированные страницы ;  Перейдите в Google и введите “site: ваш домен” в строку поиска. И , вы увидите результаты, которые Google имеет в своем индексе для указанного сайта:

Как работают поисковые системы?

Количество результатов, отображаемых Google (см. «О результатах XX» выше), не является точным, но оно дает четкое представление о том, какие страницы проиндексированы на вашем сайте и как они в настоящее время отображаются в результатах поиска.

Для получения более точных результатов отслеживайте и используйте отчет «Покрытие индекса» в консоли поиска Google. Вы можете подписаться на бесплатную учетную запись Google Search Console, если у вас ее еще нет. С помощью этого инструмента вы можете, помимо прочего, отправлять карты сайта и отслеживать, сколько фактически отправленных страниц было добавлено в индекс Google.

Если ваш сайт не отображается в результатах поиска, есть несколько возможных причин:

  • Ваш сайт новый и еще не просканирован.
  • Ваш сайт не связан ни с какими внешними сайтами.
  • Навигация вашего сайта мешает роботу эффективно сканировать его.
  • Ваш сайт содержит некоторый базовый код, называемый директивами для сканеров, который блокирует поисковые системы.
  • Ваш сайт был оштрафован Google за спам.

Расскажите поисковым системам, как сканировать ваш сайт

Если вы использовали консоль поиска Google или  «site: domain.com» и обнаружили, что некоторые из ваших важных страниц отсутствуют в индексе  или некоторые из ненужных страниц были ошибочно проиндексированы.  Если вы скажете поисковым системам, как сканировать ваш сайт, вы сможете лучше контролировать то, что попадает в индекс.

Чтобы это осуществить используйте файл robots.txt.

Robots.txt

Файлы Robots.txt расположены в корневом каталоге веб-сайтов (например, yourdomain.com/robots.txt) и указывают, какие части поисковых систем вашего сайта должны и не должны сканировать, а также скорость, с которой они сканируют ваш сайт. Делается это через определенные директивы robots.txt .

  • Если робот Googlebot не может найти файл robots.txt для сайта, он продолжает сканирование сайта.
  • Если робот Googlebot находит файл robots.txt для сайта, он, как правило, придерживается указаний файла и приступает к сканированию сайта.
  • Если робот Googlebot обнаружит ошибку при попытке доступа к файлу robots.txt сайта и не сможет определить, существует он или нет, он не будет сканировать сайт.

Не все веб-роботы следуют robots.txt. Люди с плохими намерениями (например, скребки адресов электронной почты) создают ботов, которые не следуют этому протоколу. Фактически, некоторые ″плохие люди″ используют файлы robots.txt, чтобы найти, где вы разместили свой личный контент.

Хотя может показаться логичным блокировать сканеры с личных страниц, таких как страницы входа и администрирования, чтобы они не отображались в индексе, размещение этих URL-адресов в общедоступном файле robots.txt также означает, что люди со злым умыслом легче найти их. Лучше использовать NoIndex для этих страниц и скрыть их за формой входа, а не помещать их в файл robots.txt.

Могут ли поисковые системы следить за навигацией по вашему сайту?

Точно так же, как сканер должен находить ваш сайт по ссылкам с других сайтов, ему нужен путь ссылок на вашем собственном сайте, чтобы направлять его со страницы на страницу. Если у вас есть страница, которую нужно найти поисковым системам, но она не связана ни с какой другой страницей, она не хуже, чем невидимая.

Многие владельцы сайтов совершают критическую ошибку, структурируя свою навигацию способами, недоступными для поисковых систем, что затрудняет их возможность попадания в список результатов поиска.

SEO- поисковые системы

Ошибки навигации, которые могут мешать сканерам видеть весь ваш сайт:

  • Наличие мобильной навигации, которая показывает результаты, отличные от навигации на рабочем столе
  • Любой тип навигации, где элементы меню отсутствуют в HTML, например, навигация с поддержкой JavaScript. Google стал намного лучше в сканировании и понимании Javascript, но это все еще не идеален . Более надежный способ гарантировать, что что-то будет найдено, понято и проиндексировано Google – это поместить его в HTML.
  • Персонализация или показ уникальной навигации для определенного типа посетителей по сравнению с другими, может показаться скрытым для поискового робота.
  • Забыть ссылку на главную страницу вашего сайта через навигацию – помните, что ссылки – это пути, по которым сканеры переходят на новые страницы!

Вот почему важно, чтобы на вашем сайте была понятная навигация и структуры папок URL.

Чистая информационная архитектура

Информационная архитектура – это практика организации и маркировки контента на веб-сайте для повышения эффективности и доступности для пользователей. Лучшая информационная архитектура интуитивно понятна, а это означает, что пользователям не нужно слишком много думать, чтобы просматривать ваш сайт или что-то находить.

Используете файлы Sitemap?

Карта сайта – это то, на что это похоже: список URL-адресов на вашем сайте, которые сканеры могут использовать для обнаружения и индексирования вашего контента. Один из самых простых способов убедиться, что Google находит ваши страницы с самым высоким приоритетом, – это создать файл, соответствующий стандартам Google, и отправить его через Google Search Console. Хотя отправка карты сайта не заменяет необходимость хорошей навигации по сайту, она, безусловно, может помочь сканерам проследить путь ко всем важным страницам. Все это за вас может сделать плагин плагин WordPress – Yoast SEO . О нем более подробно рассказано в одной из статей блога.

Убедитесь, что вы включили только те URL-адреса, которые вы хотите проиндексировать поисковыми системами, и не забудьте дать сканерам непротиворечивые указания. Например, не включайте URL-адрес в карту сайта, если вы заблокировали этот URL-адрес с помощью robots.txt, или не включайте URL-адреса в карту сайта, которые являются дубликатами, а не предпочтительной канонической версией ( о канонизации более подробно поговорим в главе 5 ).

Ошибки при попытке получить доступ к вашим URL-адресам

В процессе сканирования URL-адресов на вашем сайте сканер может столкнуться с ошибками. Вы можете перейти к отчету «Ошибки сканирования» Google Search Console, чтобы определить URL-адреса, по которым это может произойти – этот отчет покажет вам ошибки сервера, а не найденные.

Файлы журнала сервера также могут показать вам это, а также сокровищницу другой информации, такой как частота сканирования, но поскольку доступ к файлам журнала сервера и их распространение – более сложная тактика, мы не будем подробно обсуждать ее в Руководстве для начинающих.

Коды 4xx: когда сканеры поисковых систем не могут получить доступ к вашему контенту из-за ошибки клиента

Ошибки 4xx – это ошибки клиента. Это означает, что запрошенный URL-адрес содержит неверный синтаксис или не может быть выполнен. Одной из самых распространенных ошибок 4xx является ошибка «404 – not found». Это может произойти из-за опечатки URL-адреса, удаленной страницы или неправильного перенаправления, и это лишь несколько примеров. Когда поисковые системы попадают на 404, они не могут получить доступ к URL. Когда пользователи получают ошибку 404, они могут вообще уйти с сайта.

Коды 5xx: когда сканеры поисковых систем не могут получить доступ к вашему контенту из-за ошибки сервера

Ошибки 5xx – это ошибки сервера, то есть сервер, на котором расположена веб-страница, не смог выполнить запрос поискового сервера или поисковой системы на доступ к странице. В отчете Google Search Console «Ошибка сканирования» есть вкладка, посвященная этим ошибкам. Обычно это происходит из-за истечения времени ожидания запроса URL-адреса, поэтому робот Googlebot отклонил запрос. Посмотреть документы Google, чтобы узнать больше о решении проблем с подключением сервера.

К счастью, есть способ сообщить и поисковикам, и поисковым системам, что ваша страница переместилась – перенаправление 301 (постоянное).

Создайте пользовательскую 404 страницу

Когда страница исправно функционирует, приходит невидимый читателю «200 ОК», в противном случае сервер отвечает кодом 404.

Ошибка 404 означает, что пользователь перешел на страницу, где на данный момент отсутствует нужный текст и какой-либо контент. Несуществующая страница могла быть здесь раньше, возможно, ее удалили, переместили в другую категорию или подкорректировали название, в результате чего изменился URL. И здесь возникает проблема: если на нее вели внешние и внутренние ссылки, в результате переходов читатели увидят неутешительное сообщение «страница не найдена».

По умолчанию страница 404  является для читателя бесполезной. В то время как достойное оформление сгладит негативное впечатление, станет своеобразным извинением. Кроме того, грамотно настроенная страница — подсказка и ориентир для дальнейших действий.

В ваших силах сделать несуществующую страницу своим преимуществом. Например, онлайн-представительству фирмы можно добавить сюда контакты и месторасположение, а интернет-магазину — поисковую строку.
С учетом специфики ресурса предложите посетителю перейти на главную страницу, воспользоваться поиском, ознакомиться с акциями и т.д.

Страница 404 обязана решать следующие задачи:

привлекать внимание,
объяснять пользователям ситуацию,
подсказывать возможные варианты.

Пользователи попадают на 404 ошибки в основном из-за наличия «битых» ссылок на сайте. То есть чтобы избавиться от такого рода ошибок необходимо найти их источник.

Для этого потребуется краулинг специализированной программой. Далее просто поправить код страницы, изменив битые ссылки на работающие.(301)

Роботы Гугла и Яндекса не в восторге от большого количества страниц «не найдено». Они воспринимают это как сигнал о том, что сайт теряет в качестве и не соответствует требованиям посетителей. Следовательно, такой сайт необходимо понизить в результатах поиска.

Для проверки всех ссылок на сайте можно воспользоваться бесплатной программой SiteAnalyzer

После того, как вы убедились, что ваш сайт оптимизирован для сканирования, вы должны убедиться, что его можно проиндексировать.

Как поисковые системы интерпретируют и хранят ваши страницы?

После того, как вы убедились, что ваш сайт просканирован, следующий порядок действий – убедиться, что он может быть проиндексирован. Это верно – то, что ваш сайт может быть обнаружен и сканирован поисковой системой, не обязательно означает, что он будет сохранен в их индексе.

В предыдущем разделе о сканировании мы обсуждали, как поисковые системы обнаруживают ваши веб-страницы. Индекс – это место, где хранятся ваши обнаруженные страницы. После того, как сканер находит страницу, поисковая система отображает ее так же, как браузер. В процессе этого поисковая система анализирует содержимое этой страницы. Вся эта информация хранится в своем индексе.

Индексация

Читайте дальше, чтобы узнать о том, как работает индексация и как вы можете сделать так, чтобы ваш сайт попал в эту важную базу данных.

Могу ли я увидеть, как сканер Googlebot видит мои страницы?

Да, сохраненная в кэше версия вашей страницы будет отражать снимок последнего сканирования роботом Google.

Google сканирует и кэширует веб-страницы с различной частотой. Более авторитетные, хорошо известные сайты, которые часто публикуют посты, сканируются чаще. Вы можете посмотреть, как выглядит ваша кэшированная версия страницы, щелкнув стрелку раскрывающегося списка рядом с URL-адресом в поисковой выдаче и выбрав «Сохраненная копия»:

кэш версия вашей страницы

Вы также можете просмотреть текстовую версию своего сайта, чтобы определить, эффективно ли сканируется и кэшируется ваш важный контент.

Когда страницы удаляются из индекса?

Да, страницы могут быть удалены из индекса! Вот некоторые из основных причин, по которым URL может быть удален:

  • URL-адрес возвращает ошибку «not found» (4XX) или ошибку сервера (5XX) – это может быть случайным (страница была перемещена и перенаправление 301 не было настроено) или преднамеренным (страница была удалена и 404ed для того, чтобы удалить его из индекса)
  • В URL добавлен метатег noindex. Владельцы сайтов могут добавить этот тег, чтобы поисковая система пропустила страницу из своего индекса.
  • URL был оштрафован вручную за нарушение Руководства для веб-мастеров поисковой системы и в результате был удален из индекса.
  • URL заблокирован для сканирования с добавлением пароля, необходимого для доступа посетителей к странице.

Расскажите поисковым системам, как проиндексировать ваш сайт

Мета-директивы роботов

Мета-директивы (или «метатеги») – это инструкции, которые вы можете дать поисковым системам относительно того, как вы хотите, чтобы ваша веб-страница обрабатывалась.

Вы можете указать поисковым механизмам такие вещи, как «не индексировать эту страницу в результатах поиска» или «не передавать никакие ссылки на любые ссылки на странице». Эти инструкции выполняются через метатеги Robots в <head> ваших HTML-страниц (наиболее часто используемые) или через X-Robots-Tag в заголовке HTTP.

Метатег роботов

Метатег robots можно использовать в <head> HTML-кода вашей веб-страницы. Это может исключить все или конкретные поисковые системы. Ниже приведены наиболее распространенные мета-директивы, а также ситуации, в которых вы можете их применять.

index / noindex сообщает движкам, следует ли сканировать страницу и сохранять ее в индексе поисковых систем для поиска. Если вы решите использовать «noindex», вы сообщаете сканерам, что вы хотите, чтобы страница была исключена из результатов поиска. По умолчанию поисковые системы предполагают, что они могут индексировать все страницы, поэтому использование значения «index» не нужно.

  • Когда вы можете использовать: Вы можете пометить страницу как «noindex», если вы пытаетесь обрезать тонкие страницы из индекса Google вашего сайта (например, сгенерированные пользователем страницы профиля), но вы все равно хотите, чтобы они были доступны посетителям.

follow / nofollow сообщает поисковым системам, следует ли переходить по ссылкам на странице . «Follow» приводит к тому, что боты переходят по ссылкам на вашей странице и этим передается индекс цитирования (этим вы увеличиваете ссылочный вес  страницы на которую она переправляет). Или, если вы решите использовать «nofollow», поисковые системы не будут следовать по этим ссылкам. Атрибут “Nofollow” как раз и отвечает за то, чтобы страница, на которую вы ссылаетесь, не увеличила свой ссылочный вес благодаря этой ссылке. Иными словами, по этой ссылке не передается индекс цитирования (который использует Яндекс) и PageRank (который использует Google). По умолчанию предполагается, что все страницы имеют атрибут «follow».

  • Когда вы можете использовать: nofollow часто используется вместе с noindex, когда вы пытаетесь предотвратить индексацию страницы, а также запретить сканеру переходить по ссылкам на странице.

noarchive используется для того, чтобы запретить поисковым системам сохранять кэшированную копию страницы. По умолчанию движки сохраняют видимые копии всех проиндексированных страниц, доступные для поисковиков через кэшированную ссылку в результатах поиска.

Если вы пользуетесь сайтом электронной коммерции и ваши цены регулярно меняются, вы можете рассмотреть возможность использования тега noarchive, чтобы пользователи не видели устаревшие цены.

Вот пример мета-робота noindex, тега nofollow: <! DOCTYPE html> <html> <head> <meta name = “robots” content = “noindex, nofollow” /> </ head> <body> … </ body> </ html> В этом примере все поисковые системы не индексируют страницу и не переходят по ссылкам на странице. Если вы хотите исключить несколько сканеров, например, googlebot и bing, можно использовать несколько тегов исключения роботов.

Совет по WordPress:

В Dashboard> Настройки> Чтение убедитесь, что поле «Видимость поисковой системы» не отмечено. Это блокирует доступ поисковых систем к вашему сайту через ваш файл robots.txt!

Рейтинг: Как поисковые системы ранжируют URL?

Как поисковые системы гарантируют, что когда кто-то вводит запрос в строку поиска, он получает соответствующие результаты в ответ? Этот процесс известен как ранжирование или упорядочение результатов поиска по наиболее релевантным или наименее релевантным для конкретного запроса.

Для определения релевантности поисковые системы используют алгоритмы, процесс или формулу, с помощью которых хранимая информация извлекается и упорядочивается осмысленными способами. Эти алгоритмы претерпели множество изменений за последние годы, чтобы улучшить качество результатов поиска.

Почему алгоритм меняется так часто? Google просто пытается держать всех в напряжении? Хотя Google не всегда раскрывает детали того, почему они делают то, что делают, мы знаем, что цель Google при внесении изменений в алгоритм – улучшить общее качество поиска. Вот почему в ответ на вопросы об обновлении алгоритма Google ответит что-то вроде: «Мы постоянно делаем качественные обновления». Это указывает на то, что, если ваш сайт пострадал после корректировки алгоритма, сравните его с Руководством по качеству Google или Руководством по качеству поиска , оба они очень красноречивы с точки зрения потребностей поисковых систем.

Роль ссылки в SEO

Когда мы говорим о ссылках, мы можем иметь в виду две вещи. Обратные ссылки или «входящие ссылки» – это ссылки с других веб-сайтов, которые указывают на ваш веб-сайт, а внутренние ссылки – это ссылки на вашем собственном сайте, которые указывают на другие ваши страницы (на том же сайте).

Ссылки играют большую роль в SEO. Очень рано поисковым системам понадобилась помощь, чтобы выяснить, какие URL-адреса были более надежными, чем другие, чтобы помочь им определить, как ранжировать результаты поиска. Подсчет количества ссылок, указывающих на любой  сайт, помог им сделать это.

Вот почему PageRank был создан. PageRank – это алгоритм анализа ссылок, названный в честь одного из основателей Google, Ларри Пейджа. PageRank оценивает важность веб-страницы, измеряя качество и количество ссылок, указывающих на нее. Предполагается, что чем более уместна, важна и заслуживает доверия веб-страница, тем больше ссылок она заработает.

Чем больше естественных обратных ссылок у вас есть из авторитетных (надежных) веб-сайтов, тем выше ваши шансы на более высокий рейтинг в результатах поиска.

Роль контента в SEO

Не было бы никакого смысла в ссылках, если бы они не направляли поисковиков к чему-либо. Это что-то содержание! Содержание – это больше, чем просто слова; это все, что предназначено для поисковиков – есть видеоконтент, контент с изображениями и, конечно же, текст. Если поисковые машины – это машины ответов, контент – это средство, с помощью которого эти машины доставляют эти ответы.

Каждый раз, когда кто-то выполняет поиск, появляются тысячи возможных результатов. Так как же поисковые системы решают, какие страницы поисковик найдет ценными? Большая часть определения того, где ваша страница будет оцениваться по заданному запросу, зависит от того, насколько контент на вашей странице соответствует цели запроса. Другими словами, совпадает ли эта страница со словами, которые искали, и помогает выполнить задачу, которую пытался выполнить поисковик?

Из-за этого акцента на удовлетворенности пользователей и выполнении задач не существует строгих критериев того, каким объемом  должен быть ваш контент. Сколько раз он должен содержать ключевое слово или что вы вставляете в теги заголовка. Все они могут сыграть роль в том, насколько хорошо страница выполняет поиск. Но, основное внимание следует уделить пользователям, которые будут читать контент. (получат они ответ на свой вопрос или нет)

Сегодня, с сотнями  рейтинговых сигналов,  три являются достаточно последовательными:

  1. ссылки на ваш сайт (которые служат сторонними авторитетными сигналами),
  2. контент на странице (качественный контент, который соответствует целям поисковика)
  3. и RankBrain.

Что такое RankBrain?

RankBrain – это компонент машинного обучения основного алгоритма Google. Машинное обучение – это компьютерная программа, которая со временем продолжает улучшать свои прогнозы с помощью новых наблюдений и данных обучения. Другими словами, это всегда обучение, и, поскольку это всегда обучение, результаты поиска должны постоянно улучшаться.

Например, если RankBrain замечает, что URL с более низким рейтингом обеспечивает лучший результат для пользователей, чем URL с более высоким рейтингом, следовательно RankBrain будет корректировать эти результаты, перемещая более релевантный результат выше.

Что это значит для SEO?

Поскольку Google будет продолжать использовать RankBrain для продвижения наиболее релевантного и полезного контента, нам нужно сосредоточиться на достижении цели поисковика больше, чем когда-либо прежде. Предоставьте максимально возможную информацию  для искателей (тех кто ищет информацию), которые могут попасть на вашу страницу. Этим вы  сделаете большой первый шаг к успешной работе в мире RankBrain.

Показатели вовлеченности

Когда мы говорим о показателях вовлеченности, мы имеем в виду данные, которые представляют, как поисковики взаимодействуют с вашим сайтом из результатов поиска. Это включает в себя такие вещи, как:

  • Клики (посещения из поиска)
  • Время на странице (количество времени, которое посетитель провел на странице, прежде чем покинуть ее)
  • Показатель отказов (процент всех сеансов веб-сайта, на которых пользователи просматривали только одну страницу)
  • Pogo-sticking (нажав на обычный результат, а затем быстро вернувшись к поисковой выдаче, чтобы выбрать другой результат)

С точки зрения ранжирования веб-страниц показатели вовлеченности действуют как проверка фактов. Объективные факторы, такие как ссылки и контент, сначала ранжируют страницу, а затем показатели вовлеченности помогают Google понять что что страница ценна для посетителя. Сайты имеющие  высокий рейтинг, как правило имеют хорошие показатели вовлеченности.

Вам не нужно знать все тонкости алгоритма Google (это загадка практически для всех). Но к настоящему времени вы должны иметь базовые знания о том, как поисковая система находит, интерпретирует, хранит и оценивает контент. 

В следующей главе (глава 3) пойдет разговор о выборе ключевых слов, на которые будет ориентироваться ваш контент.


ВажноЕсли статья  «SEO для начинающих/поисковые системы»  вам понравилась, то стоит поделиться с друзьями? Тогда, нажмите одну (можно и больше) из кнопок соц. сетей.

ИНОГДА НАШИ НОВОСТИ И АКЦИИ ОБХОДЯТ ВАС СТОРОНОЙ .

Подпишитесь, и мы будем держать вас в курсе важной информации.
Получать информацию
close-link
Пролистать наверх