Предсказание значения сигнала ранжирования поисковой системы

Недавно Google получил патент с широким спектром практических приложений. Патент охватывает то, как с помощью машинного обучения они могут предсказать значение сигнала ранжирования, когда значение неизвестно.

Учитывая огромное количество контента в Интернете и более ежедневно, Google должен найти способ присвоить ценность страницам, даже если они не были сканированы и проиндексированы. Как можно ранжировать страницу, если Google не выполнил ее сканирование? Как Google может использовать новый контент, который не имеет каких-либо входящих ссылок?

Методы в этом патенте касаются того, как алгоритм Google может адресовать и рассчитать неизвестные факторы и использовать их для определения того, где находится страница.

Мы обсудим возможные варианты использования Google и пару проблем, которые он решает для специалистов по поисковой оптимизации (SEOs). Но прежде чем мы начнем, я чувствую себя обязанным предложить свое стандартное заявление об отказе от ответственности.

Просто потому, что что-то запатентовано, это не значит, что оно включено в алгоритм. Нам нужно взвесить вероятности того, что патент или его части используются с тем, что мы видим вокруг нас, и что имеет смысл. Если ничего другого, это дает нам представление о том, что Google работает.

Учитывая тему и методы, изложенные в этом патенте, я бы сказал, что весьма вероятно, что по крайней мере какая-то итерация используется и, вероятно, будет расширяться по мере развития систем машинного обучения.

Патент РФ 20180157758

Начнем с рытья в гайки и болты. Если вас интересует источник, здесь вы можете найти полный патент , но я буду освещать заявки из патента, что они означают и как их можно использовать.

Начнем с изображения из патента, которое теперь не будет иметь смысла, но поможет в следующих объяснениях:

Взгляните на пункты 150 и 160 на изображении выше. Эти два фактора важны, и об этом мы и будем говорить, поскольку машинное обучение используется для решения важных проблем поиска, на которые многие годы жаловались поисковые системы.

Проблема

Хотя система, которую мы будем обсуждать, имеет множество приложений, патент описывает одну основную проблему в разделе 0008:

Система поиска может обновлять индекс поисковой системы, который индексирует ресурсы сгенерированными значениями сигналов ранжирования поисковой системы для ресурсов, а сгенерированные значения затем могут использоваться поисковой системой при ранжировании ресурсов. Таким образом, полнота индекса поисковой системы и, в свою очередь, точность и эффективность поисковой системы могут быть улучшены.

В основном они выявили значительную проблему: в отсутствие известного значения сигнала ранжирования нет способа ранжировать контент, даже если контент лучше всего подходит для конкретного запроса.

Когда нет ссылок

Рассмотрим следующий упрощенный расчет для ссылок на новый фрагмент контента:

Количество ссылок (сигнал a) = неизвестно или недоступно. 
Соответствие содержания «синим виджетам» (сигнал b) = 9,8 / 10. 
Доменное значение передано / Внутренний PageRank (сигнал c) = 9,2 / 10

Основываясь на расчете, мы знаем релевантность страницы и знаем силу, которую домен передает на страницу; но не зная количества ссылок или их веса, как Google может правильно ранжировать страницу? Как Google может оценивать любую страницу, если они не знают, сколько или каких типов входящих ссылок на странице? Любая формула или алгоритм, который использует счетчик ссылок как множитель, будет нулевой.

При неизвестном значении сигнала вычисления не могут быть правильными, и Google не сможет обеспечить наилучшие результаты. В качестве оптимизаторов у нас есть аналогичная проблема: вы не можете оценивать без ссылок, и трудно получить ссылки на контент, который не имеет ранга, даже с лучшим контентом для запроса.

Методы в этом патенте дают алгоритму возможность прогнозирования значения до его подтверждения. Этот фактор прогнозирования может быть самым захватывающим аспектом, поскольку он облегчает быстрое тестирование и ускоряет развертывание исправлений, полученных машинным способом.

Хотя в патенте обсуждаются различные перестановки, по сути, сводится к обучению системы машинного обучения, чтобы генерировать вероятное значение для сигнала ранжирования, когда его нет.

Рассказ о двух индексах

Метод, описанный в патенте, требует двух индексов. Их не следует путать с индексом поиска, который мы используем каждый день. Хотя целью может быть применение этого к общему индексу, до того, как Google будет использовать два закрытых индекса, отдельно от общего индекса поиска.

Для иллюстрации мы будем называть их индексом A и индексом B.

Для индекса A известно значение знака ранжирования и применяется для обучения алгоритма в понимании его начальной точки. Алгоритму также были предоставлены страницы и обратные ссылки. После того как алгоритм был обучен понимать, как веб-страница структурирована и адаптирована к связанным элементам, таким как обратные ссылки, присваивается значение, а затем значения сигнала применяются ко второму индексу.

В индексе B значения сигнала известны алгоритму, но не включены в систему машинного обучения. Индекс B тренирует себя, изучая, где он дает правильный вес фактора и где он не основан на информации из индекса A.

Во втором индексе все становится интереснее, потому что алгоритм также рассматривает дополнительные запросы, которые могут применяться к сигналам ранжирования. Когда алгоритм в индексе B пытается предсказать один результат, он, вероятно, всегда будет немного, но при прогнозировании многих результатов прогнозы становятся более точными. Из-за феномена «мудрости толпы» индексу B разрешено самовосстанавливаться (это элемент машинного обучения в игре) и делает это путем включения дополнительных запросов и того, что он изучил.

Если система в индексе B может определить значение сигнала для ряда связанных запросов, это может помочь в создании неизвестного значения для начального запроса.

Почему это важно?

Всегда полезно понимать, как работают поисковые системы, но более прямо, полезно понять систему, которая позволит быстро ранжировать новые сайты и новые ресурсы.

Двухиндексная система, описанная выше, имеет кодировщики и декодеры. Кодеры посещают веб-страницу и создают кодированное представление. Хотя я, очевидно, не знаю, как это будет выглядеть на заднем плане, на основе множественных ссылок на сущности в патенте, вероятно, это отображение объектов на странице и известных отношений с другими объектами в индексе или в другие источники.

Google получил патент, который позволяет им ранжировать новые ресурсы (страницы) с использованием вероятных сигналов ранжирования. Этот же патент также облегчит создание новых сигналов другими инженерами или системами машинного обучения и позволит общему алгоритму ранжировать страницы, которым еще не присвоено значение.

Новому контенту или ресурсам могут быть присвоены значения на основе ссылок, показателей поведения пользователей и качества контента, которые они могут получить. Или, в основном, они нашли способ предсказать будущее поиска.

Тем не менее, еще более новаторский факт заключается в том, что система предлагает метод, позволяющий машинным системам обучения генерировать сигналы самостоятельно. Люди больше не должны говорить алгоритму, что важно: машинное обучение учит алгоритму находить, идентифицировать и присваивать значение сигналам.

Как вы можете использовать этот патент

Хотя мало что можно сделать непосредственно, чтобы влиять на машинное обучение, вы можете косвенно изменить ситуацию, продолжая производить отличный контент и способствуя развитию хороших ссылок.

Посмотрите контент на своем сайте и выясните типы контента, генерирующего трафик и ссылки, поскольку это показатели, которые Google может измерять с помощью своих инструментов аналитической и поисковой консоли. ИМО, это сигналы, которые система машинного обучения будет использовать.

Если ваш текущий контент хорошо оценивается, генерируя ссылки, клики и акции, новый контент может быть предсказан, чтобы сделать то же самое.

Просмотрите свои аналитики и обратные ссылки и обратите внимание на то, что вы делаете правильно, и пусть это вдохновляет на будущий контент и усилия по созданию ссылок. И наоборот, обратите внимание на то, что не получилось хорошо. Так же, как алгоритм принимает к сведению успехи, он также принимает к сведению ошибки. Если тренд на вашем сайте положительный, вы, скорее всего, будете вознаграждены, а если он отрицательный, то может быть и наоборот.

И если вы не быстро оцениваете, особенно для чувствительного к времени контента, вы, вероятно, не получите сигналов, необходимых для ранжирования следующей части.

 

Оставить ответ