Robots.txt Sitemap.xml rss.xml помогаем поисковикам индексировать нас

Сегодня поговорим о том как улучшить индексацию сайта и как ее ускорить с помощью 3 простых файлов. Возможно вы где-нибудь слышали о них, но не знали зачем они. Так вот я объясню принцип ихней работы и зачем они.

Начнем с простого файла robots.txt. Использования этого файла полностью добровольное. Этот стандарт был принят консорциумом  30 января 1994 года и с того момента его использует большинство известных поисковых машин. Что же это за файл? На самом деле очень прост, в нем мы вписывает команды для поисковиков, такие как запрет индексации сайт или какой либо папки, или даже файла. Или же наоборот разрешаем индексацию. Это очень полезная вещь так как некоторые папки индексировать не нужно. Например папку где лежат какие-нибудь скрипты, или системные файлы, логи… То есть чтобы поисковик не терял время на индексацию ненужного хлама который он все равно отклонит мы ему указываем что индексировать не нужно. Также с помощью этого файла мы можем указать что индексировать нужно в первую очередь. Сейчас мы разберем подробней какие команды есть.

User-agent: *
Disallow: /

Выше мы видим запрет на индексацию всего сайта.

User-agent: googlebot
Disallow: /logs/

Выше мы видим запрет на индексацию папки logs поисковиком Google.

Очень часто многие стыкались  с проблемой перегрузки сервера, из-за очень частого посещения сайта поисковыми роботами.  Это можно легко устранить указав в нашем файле промежуток времени между посещениями сайта поисковыми роботами, или указать время в которое они должны заходить на сайт. Это делается так:

User-agent: *
Crawl-delay: 10

Промежуток между посещениями 10 секунд.

В 1996 году был принят распространенный стандарт robots.txt.
Выглядит он так:

User-agent: *
Disallow: /downloads/
Request-rate: 1/5                   # загружать не более одной страницы за пять секунд
Visit-time: 0600-0845         # загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.

В стандарт включили такие директивы как Request-rate и Visit-time, в данном примере указанно что папку /downloads/ индексировать не нужно, так как там нету страниц а только файлы. Перейдем к ознакомлению с sitemap.xml. Этот файл был создан для улучшения индексации страниц сайта. Состоит этот файл из xml кодов и ссылок на страницы сайт, по мере наполнения сайта этими страницами нужно дополнять файл saitmap.xml. Кодировка у этого файла должна быть UTF-8, в других кодировка он не будет прочитан. Указывая в этом файле адрес новой страницы мы как бы подталкиваем поисковик к тому чтобы просмотреть указанную страницу более разумно. Наличие файла saitmap.xml не гарантирует индексацию страницы, он только подталкивает поисковую машину просмотреть ее. Вот пример файла который вмещает несколько адресов и некоторые не обязательные теги:

<?xml version=”1.0″ encoding=”UTF-8″?>
<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>
<url>
<loc>http://www.example.com/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/catalog?item=12&amp;desc=vacation_hawaii</loc>
<changefreq>weekly</changefreq>
</url>
<url>
<loc>http://www.example.com/catalog?item=73&amp;desc=vacation_new_zealand</loc>
<lastmod>2004-12-23</lastmod>
<changefreq>weekly</changefreq>
</url>
<url>
<loc>http://www.example.com/catalog?item=74&amp;desc=vacation_newfoundland</loc>
<lastmod>2004-12-23T18:00:15+00:00</lastmod>
<priority>0.3</priority>
</url>
<url>
<loc>http://www.example.com/catalog?item=83&amp;desc=vacation_usa</loc>
<lastmod>2004-11-23</lastmod>
</url>
</urlset>

В файле Sitemap.xml можно использовать до 50 000 адресов, и его размер не должен превышать 10 мегабайт. Для уменьшения размера можно использовать сжимание файла tar.gz, это поможет уменьшить размер файла. Если у вас все таки будет больше 50000 адресов, то нужно создать еще один файл Sitemap. Чтобы поисковики смогли найти наш файл, его нужно создавать в корне нашего сайта. Чтобы он был доступен по адресу такого вида news-itec.com/sitemap.xml. После чего поисковикам нужно сообщить о его создании, для этого нужно ввести в адресной строке такой адрес:

Для Google

http://google.com/webmasters/sitemaps/ping?sitemap=адрес_где_лежыт_файл_сайтмап

Для Яндекс

http://webmaster.yandex.ru/wmconsole/sitemap_list.xml?host=адрес_где_лежыт_файл_сайтмап

Для Yahoo!

http://search.yahooapis.com/SiteExplorerService/V1/updateNotification?appid=SitemapWriter&url=адрес_где_лежыт_файл_сайтмап

Для Ask.com

http://submissions.ask.com/ping?sitemap=адрес_где_лежыт_файл_сайтмап

Для
Live Search    http://webmaster.live.com/ping.aspx?siteMap=адрес_где_лежыт_файл_сайтмап

Другой формой файла Sitemap может быть rss лента, а также atom 1.0 или 0.3.

Раз уж я заговорил о rss, то я расскажу вам что он из себя представляет, как вы поняли из предыдущего предложения, это разновидность файла Sitemap. На RSS ленты можно подписываться,   как например на мою ленту можно подписаться и получать все мои статьи по мере их написания(пример моей RSS ленты http://news-itec.com/feed/). RSS – это семейство xml файлов, для преставления новостей вашего сайт в удобной для посетителей форме через программы-агрегаторы.

В разные времена эта аббревиатура расшифровывалась по разному:

  • Rich Site Summary (RSS 0.9x) — обогащённая сводка сайта;
  • RDF Site
    Summary (RSS 0.9 и 1.0) — сводка сайта с применением инфраструктуры описания ресурсов;
  • Really Simple
    Syndication (RSS 2.x) — очень простое приобретение информации.

На данный момент многие браузеры имеют читалки для RSS лент. Если вы перейдете на мою ленту вы сверху увидите кнопку подписаться, в дальнейшем например в опере вы сможете видеть появление свежих статей не заходя на сайт, и при этом читать их. А сейчас немного истории, основная идея о реорганизации информации о веб сайтах припадает на 1995, то что мы называет RSS появилось в 1997 году, компания Netscape создала первую RSS ленту версии 0.9, после чего ее начали использовать много популярных сайтов. Но вскоре многим это показалось достаточно сложным и Netscape выпустили упрощенную версию 0.91. В 2000 году произошло разделение на форматы 1.0 и 2.0. Уже в 2006 был создан конкурент RSS – Atom. Данный формат возник позже и работал примерно также как RSS но он учел много минусов и доработал их. Сейчас же формат Atom активно поддерживается Google.

Читайте также: Apple выпустит свой ​​первый телевизор

Оставить комментарий к записи: "
Robots.txt Sitemap.xml rss.xml помогаем поисковикам индексировать нас
"