Правильный robots.txt для REVO?

Друзья, поделитесь, пожалуйста, правильным robots.txt, который вы используете на своих проектах.
Для Гугла и Яши. Заранее спасибо за конфиги и ссылки «напочитать».
r5uY40
08 марта 2016, 13:04
modx.pro
1
12 178
0

Комментарии: 28

    r5uY40
    09 марта 2016, 09:51
    0
    Спасибо, Сергей.
      Николай Савин
      09 марта 2016, 10:19
      0
      У них конфиг заточенный под их проект
      В частности у них есть каталог /inc/ и каталог /sub/
      Также clean-parametr применяется, который не везде нужен.

      Короче этот конфиг не универсален
      Ниже предлагаю свой.
      Николай Савин
      09 марта 2016, 10:16
      1
      +1
      User-agent: *
      Disallow: /manager/
      Disallow: /assets/components/
      Disallow: /core/
      Disallow: /mgr/
      Disallow: /connectors/
      Disallow: /index.php
      Disallow: *?
      Host: site.ru
      Sitemap: site.ru/sitemap.xml
        r5uY40
        09 марта 2016, 10:18
        0
        Спасибо, Николай. Сделал.
          @ndrew
          09 марта 2016, 13:03
          1
          0
          Robots.txt это палка о двух концах.
          Одни переименовывают каталоги manager, connectors.
          А другие в роботсе палят, особенно смешно когда переименованные и палят))) ну не индексируют их поисковики, зачем в роботсе хакерам палить?
            Дмитрий Иванов
            09 марта 2016, 13:05
            0
            Если каталоги не переименованы, то и палить тут нечего. Кому надо, те сами найдут.
              @ndrew
              09 марта 2016, 13:06
              0
              Так они закрыты от индексации. Где локика?)
                @ndrew
                09 марта 2016, 13:06
                0
                Так они закрыты от индексации. Где локика?)
                Ссори за дубль, пишу со смартфона.
                r5uY40
                09 марта 2016, 13:37
                0
                Я тоже про это подумал. Сначала все секреты бодро записал в файл, потом потёр :)
                  Николай Савин
                  09 марта 2016, 16:17
                  0
                  Напиши свой вариант.
                    Максим Кузнецов
                    09 марта 2016, 16:34
                    +1
                    Вариант 1:
                    — вынести директории за пределы доступной с браузера области (тогда robots.txt можно вообще не трогать)

                    Вариант 2:
                    — создать папку с нейтральным названием, допустим, system (и закрыть к ней доступ через robots.txt)
                    — засунуть в нее переименованные manager, connectors
                      r5uY40
                      09 марта 2016, 16:45
                      0
                      С переносом директорий мне надо ещё поразбираться — нет опыта. Это делается во время первичной установки?
                        Максим Кузнецов
                        09 марта 2016, 16:59
                        +1
                        Нет, не обязательно. Достаточно перенести директории и прописать новые пути в следующих файлах:
                        /core/config/config.inc.php
                        /config.core.php
                        /connectors/config.core.php
                        /manager/config.core.php

                        (manager и connectors, соответственно будут расположены там, где вы их разместили)
                        @ndrew
                        09 марта 2016, 16:49
                        +1
                        и закрыть к ней доступ через robots.txt
                        Зачем ее вообще закрывать в роботсе?

                        Самый простой вариант: переименовать manager и connectors, а в роботсе закрывать только те дериктории которые по умолчанию разрешены для индексации но их надо закрыть!

                        Например необходимо закрыть от индексации новости, тогда:
                        Disallow: /news/
                        И тд.
                        Зачем служебные каталоги закрывать которые и так закрыты ума не приложу))
                          Максим Кузнецов
                          09 марта 2016, 16:58
                          0
                          Вообще — согласен, сам не представляю, как поисковики узнают о системных папках со фронта, если они там нигде не упоминаются.

                          Но порой в темах возникают вопросы, связанные с тем, что эти папки все-таки проиндексировались.
                          Как — не интересовался.
                            @ndrew
                            09 марта 2016, 17:06
                            0
                            В manager если посмотрите исходный код страницы будет метатег запрещающий индексацию, он уже ни как не может индексироваться и запрет в роботсе это всего лишь дубль запрета.
                            А если мы переименовываем каталоги то они темболее не видны поисковикам. Если конечно админка кастомная и нет тега на запрет да и еще в карту сайта каким то образом затисалась…
                        r5uY40
                        09 марта 2016, 16:44
                        0
                        @ Николай Савин Я использовал твой вариант, кроме папки mgr.
                      Вася
                      21 сентября 2016, 17:53
                      0
                      Объясните мне зачем вот это?

                      Disallow: *?
                        Николай Савин
                        21 сентября 2016, 17:59
                        0
                        Запрет индексации страниц с параметрами.
                        Если не включены чпу то адреса же index.html?id=1
                          Вася
                          21 сентября 2016, 18:07
                          0
                          Вот такой url проиндексируется с таким правилом?
                          modx.pro/search?query=robots

                          Ведь в нем есть знак вопроса
                            Владимир
                            21 сентября 2016, 18:13
                            0
                            Именно что бы он не индексировался и добавляется то самое правило
                            Disallow: *?
                              Вася
                              21 сентября 2016, 18:21
                              0
                              Все фильтры msearch, tagmanager в modx работают через get запросы, которые пишутся через знак вопроса. Зачастую через гугол поиск я попадаю на этот сайт со страниц которые формируются на странице /search?query и их запрещают для индексации. Очень интересный подход и этот robots рекомендуется для modx revo.
                                Владимир
                                21 сентября 2016, 18:27
                                0
                                А я и многие другие закрываем что бы не индексировалось это. Я не хочу что бы попадали на сайт по таким /search?query запросам, а только по ЧПУ.
                                Ты же делай как тебе надо.
                                Рекомендуется — да, а не навязывается.
                                Полная свобода!
                                  Вася
                                  21 сентября 2016, 18:33
                                  0
                                  К сожалению эту рекомендацию стали бездумно копировать и вставлять, как правило.
                      Stan Ezersky
                      21 сентября 2016, 20:37
                      1
                      +1
                      Идеальный robots.txt

                      User-agent: *
                      Host: site.ru
                      Sitemap: site.ru/sitemap.xml

                      При указание запрета на служебные директории — вы показываете эти директории злоумышленникам.

                      Поисковики служебные директории не проиндексируют, они 403 возвращают
                        Роман Садоян
                        21 сентября 2016, 20:39
                        +1
                        Согласен.
                        Ну еще можно ограничить конкретного бота, если он грузит сайт, но в моей практике такого не было.
                        Иван Бочкарев
                        16 апреля 2019, 13:04
                        0
                        Вот еще наткнулся на вариант:
                        seogio.ru/robots-txt-dlya-modx/
                          Авторизуйтесь или зарегистрируйтесь, чтобы оставлять комментарии.
                          28