Появились странные дубли страниц

Здравствуйте, очень нужна Ваша помощь. Проблема, в яндекс вебмастере появилось куча дублей страниц, вида
site.ru/?hauth.start=facebook*&hauth.time=<тут цифры>
site.ru/?hauth.start=Google&hauth.time=<тут цифры>
site.ru/?hauth.start=Twitter&hauth.time=<тут цифры>
и т.д для других соц сетей.
Единственный компонент который дает что то похожее, как я понял, это HybridAuth, но для авторизации там ссылки вида ?hauth_action=login&provider=Vkontakte, т.е. не то-же самое.
Код страниц сайта перелопатил, ничего похожего нет. Подскажите откуда взялись и что делать?
Борис И
04 февраля 2016, 17:40
modx.pro
2 097
0

Комментарии: 25

Сергей Шлоков
05 февраля 2016, 10:51
1
+1
Добавьте в robots.txt строчку
Disallow: *?hauth.start
    Борис И
    05 февраля 2016, 18:35
    0
    Здравствуйте. В индекс они не попадают, у меня стоит правило Disallow: /?
    Вопрос, раньше их не было, откуда могли появится и как убрать. Ведь так не должно быть, на сайте таких ссылок найти не могу, а Яндекс их где-то нашел и учел.
      Владимир
      05 февраля 2016, 19:26
      0
      откуда могли появится
      авторизация на сайте через соц сети, например
        Борис И
        05 февраля 2016, 19:29
        0
        Так и есть, авторизация с помощью HybridAuth, но она есть только на одной странице и ссылки там вида
        ?hauth_action=login&provider=Vkontakte, а не /?hauth.start=Vkontakte&hauth.time=<тут цифры>
        А дубли страниц, даже если они закрыт в robots.txt — зло, особенно если они взялись непонятно откуда
          Владимир
          05 февраля 2016, 19:39
          0
          Однако, ?hauth.start=[provider]&hauth.time=[timestamp] присутствует на тысячах сайтов. Увы.
            Борис И
            05 февраля 2016, 19:41
            0
            Это я уже «лопатил». Но, не было, не было (больше года) и бац, вторая смена — куча дублей (пусть и скрытых в роботс)
              Владимир
              05 февраля 2016, 19:47
              0
              А эти дубли ( в вашем случае) проиндексированы Яндексом?
              Честно, я бы при наличии rel=«canonical» на всех страницах не парился бы об этих GET-параметрах (это просто мысль вслух, не рекомендация, конечно).

                Борис И
                05 февраля 2016, 20:02
                +1
                Конечно, может у меня уже и паранойя, есть и rel=«canonical» и настроенный роботс, но как говорится «обжегся на молоке, на воду дую».
                На сайте (другом) был компонент — голосовалка со звездами, давала кучу дублей каждой страницы (canonical тоже был), но на сайте, если память не изменяет по проверки xtool.ru, появилась пометка спамности от яндекса. Ну ни как посещалка не шла, убрал «голосовалку», дубли со временем ушли и трафик стал расти. Конечно может и совпадение, а может и нет
                  Владимир
                  05 февраля 2016, 20:09
                  0
                  Да, понимаю вас. Тоже бьюсь с индексацией.
                  оффтоп: Кстати, не сочтите за рекламу, ибо не мое, но мне понравился SEOTO.ME — много нашел косяков по их отчетам.
            Владимир
            05 февраля 2016, 20:21
            0
            Кстати, а может вынести страницу с авторизацией на поддомен?
              Борис И
              05 февраля 2016, 20:45
              0
              Интересная идея. У меня авторизация используется только для добавления статей с фронта с помощью tickets, ну очень не хочется заморачиваться с поддоменами, не разу не делал авторизацию с поддомена. Сижу чешу репу — ищу ссылки, прям загадка какае-то, на сайте ссылок я не нашел, а яндекс нашел
                Владимир
                05 февраля 2016, 21:17
                0
                Создать поддомен, задать домен для хранения сессии, как бы все.
                  Владимир
                  05 февраля 2016, 21:20
                  0
                  Вот же, на ЭТОМ сайте, тоже авторизация через поддомен id.modx.pro/sub/login?action=remote/auth
                  (и послышалось: «верной дорогой идете, товарищи!»)
                    Владимир
                    05 февраля 2016, 21:30
                    0
                    Параметр session_cookie_domain = ваш основной домен
                    (после этого очистить кеш и в браузере тоже, иначе авторизация не удастся)
                      Борис И
                      05 февраля 2016, 21:51
                      0
                      Спасибо, пока не «вкурил», есть где почитать поподробнее, что бы не мучить глупыми вопросами
                        Борис И
                        05 февраля 2016, 21:54
                        0
                        Вы со мной как со знающим человеком, а я тут туплю, мне нужно разжевать или носом ткнуть :)
              TITAN-UZ
              05 февраля 2016, 19:38
              0
              Постав заметки
              <!--noindex--><!--/!noindex-->
              Вырубай индексацию через метрики
                Борис И
                05 февраля 2016, 19:43
                0
                Попробую, но
                <!--noindex-->
                не вносит в индекс содержимое, а по ссылкам в содержимом может запросто ходить, а значит и пытаться добавить их в индекс
                  TITAN-UZ
                  07 февраля 2016, 09:43
                  0
                  После этого яндекс перестал индексировать
            Сергей Шлоков
            05 февраля 2016, 22:25
            0
            Обратил внимание. У меня тоже каждую статью Яндекс дублирует

            Не понятно как такое получается, но я не парюсь.
              Борис И
              05 февраля 2016, 23:25
              0
              Про свою паранойю я писал выше. А как у Вас с посещаемостью?
              Василий Наумкин
              06 февраля 2016, 07:48
              2
              +2
              У меня настроено вот так — modx.pro/robots.txt
              Вроде всё хорошо.
                Борис И
                06 февраля 2016, 10:15
                +2
                Спасибо.
                Добавил: Clean-param: hauth *
                А вот указать более детальную запись Clean-param: hauth.start * дает ошибку, видимо не нравится точка после hauth.
                Буду ждать, что покажет Яндекс, борьба за правильную индексацию продолжается
                  TITAN-UZ
                  07 февраля 2016, 09:34
                  0
                  Ну у тебя не будет таких проблем как у других потому что вход и регистрация у тебя на поддомене.
                    Николай
                    07 ноября 2016, 10:45
                    0
                    Вот эту конструкцию:
                    Disallow: /manager/
                    Лучше не указывать т.к. она автоматом дает знать, где вход в админку. Достаточно просто робота сделать который обходит сайты и ищет такие функции. Конечно, для хорошо защищенных проектов это не проблема, но для большинства не стоит это указывать.

                    По этой записи часто проверяют CMS и связывают с modx, после того как известна CMS проще взлом.
                    Ну это для параноиков))
                    Авторизуйтесь или зарегистрируйтесь, чтобы оставлять комментарии.
                    25