Загрузка...

How Google Works - Reverse Engineering and Major Updates - PART 1

Thread in Social engineering created by ChydikTT Nov 25, 2023. 596 views

  1. ChydikTT
    ( Примечание: Это ОЧЕНЬ длинное руководство с множеством объяснений и исследований, подтверждающих множество сделанных заявлений. Это нелегкое чтение, и многие из вас не станут его читать, но для тех, кто потратит время на то, чтобы переварить его, вы получите действительно уникальную информацию, которую больше нигде в Интернете не найдете, но эта не точна XD.)

    В этом руководстве я собираюсь объяснить, как на самом деле работает Google, познакомить вас с эволюцией Google и дать представление об основных обновлениях.

    Первое, что я скажу, это то, что в 2023 году Google АКТИВНО использует машинное обучение.

    Это означает, что сегодня мы можем сказать :-

    "Обновления Google - это черные ящики, и то, что происходит после них, - это 90% удачи и 10% мастерства".

    Однако, ознакомившись с этим руководством и поняв, как оно работает, вы сможете довести его до 30% удачи и 70% мастерства :)

    В Интернете полно агентств, рассказывающих о EAT, EEAT и EEEAT еще раз. О, подождите, мы ведь только сейчас на 2 E, не так ли? Я виноват.


    ** Реальность такова, что никто понятия не имеет, почему некоторые страницы обновляются, а некоторые нет.**

    Даже Google. Включая меня. Я не знаю. Нет списка факторов ранжирования, которые вы могли бы отметить.

    Это машинное обучение.

    Это как наш мозг. Когда вы смотрите на обезьяну, вы знаете, что это обезьяна. Вы не знаете, почему вы это знаете. Конечно, вы можете перечислить некоторые характеристики обезьяны, но, в конечном счете, вы просто "знаете".

    Это SEO в 2023 году. Машинное обучение просматривает массу данных и принимает решения. Мы никогда не можем знать наверняка, почему страница A занимает место, а страница B - нет.

    НО. Что мы можем сделать, если глубже разберемся в текущем алгоритме Google..(На самом деле это не алгоритм, а скорее массивная система оркестровки, но для простоты мы будем называть это алгоритмом)

    Что мы можем сделать, так это принимать значительно более эффективные решения на каждом этапе кампании нашего веб-сайта, чтобы максимизировать шансы на получение благоприятного результата.

    Читайте дальше, чтобы узнать больше..



    Так было не всегда


    Давайте пройдемся по истории поисковых систем и тому, как они ранжировали страницы, чтобы понять, что изменилось.


    90-е - до Google


    Изначально поисковые системы были просто факторами, влияющими на страницу.


    Это были просто ключевые слова. Повторение ключевых слов. Заголовок, h1, h2, h3, жирный, курсив, первый абзац + повторяйте его чаще.


    Ранжирование страниц в SEO с использованием ключевых слов. Тогда это было просто. Просто было не так много возможностей для монетизации :) Ранжировать было легко, монетизировать - сложно. Полная противоположность 2023 году.


    Google основан в 1998 году


    Что сделало Google гигантом, которым они были, так это то, что они пришли с этим алгоритмом "PageRank" и начали ранжировать веб-страницы в соответствии с их PR, который вычислялся по ссылкам.


    Отчасти поэтому люди все еще думают, что вы ранжируете страницы по ссылкам. Но даже тогда вы технически не ранжировали страницы по ссылкам. Вы просто отправляли PR на страницу, и он перетекал на связанные страницы.


    Результаты в Google были намного лучше, именно поэтому он стал де-факто стандартной поисковой системой.


    Они по-прежнему решали, какие страницы ранжировать по тому или иному ключевому слову, основываясь на простых факторах на странице.


    Представьте, что у вас есть 25 страниц, каждая из которых конкурирует за одно и то же ключевое слово "купить тостеры". Вместо того, чтобы ранжировать те, которые кажутся более релевантными. В случае с оригинальными поисковыми системами это означало, что в них было больше слов "купить тостер", вместо этого Google ранжировал эти 25 страниц на основе их PageRank, рассчитанного по их входящим ссылкам.


    Рождается ссылочный спам


    Как вы можете себе представить, именно тогда началась индустрия рассылки ссылочного спама и началась война SEO против Google.



    Обновление во Флориде - первый удар Google - 2003


    Первое в истории крупное обновление Google, направленное на борьбу со спамерами.


    Он был запущен в ноябре 2003 года перед Рождеством, и было много жертв среди гражданского населения.


    Многие бедные мелкие невинные розничные торговцы были уничтожены..


    Даже тогда Google не мог сделать это правильно.


    Официально это было обновление против спама по ключевым словам, скрытого текста и других, казалось бы, легко обнаруживаемых попыток вопиющих манипуляций.


    Однако неофициально оптимизаторы знали, что это обновление для рассылки спама по ссылкам.


    В 2005 году на мероприятии Pubcon в Новом Орлеане инженеры Google фактически признали, что использовали статистический анализ ссылок для обнаружения спам-сайтов.


    Именно поэтому я продолжаю советовать людям обращать внимание на статистически наиболее естественные якоря, страницы, на которые есть ссылки, шаблоны ссылок, статьи, содержащие ссылки и т.д. Очень немногие люди слушают.


    Разница сегодня в том, что статистически естественные точки данных обнаруживаются с помощью машинного обучения.


    Вот статья 2004 года - https://www.microsoft.com/en-us/research/wp-content/uploads/2004/06/webdb2004.pdf



    Итак, что заставляет кого-либо думать, что Google внезапно перестал использовать этот подход? Это наиболее разумный подход к обнаружению спама. Это просто непросто сделать, и вы всегда получаете ложноположительные результаты и истинные отрицательные, вот почему хорошие сайты удаляются, а плохие - нет во многих случаях.

    Google на самом деле пообещал больше не выпускать никаких основных обновлений до Рождества из-за последствий этого. В наши дни они ЛЮБЯТ свои обновления за ноябрь / декабрь только для того, чтобы расшевелить дерьмо перед Рождеством. Декабрь - худший месяц для основных обновлений с 2020 года.

    Они действительно сдерживали свое обещание, пока не обновили Panda в ноябре 2011 года.


    Джаггер и БигДэдди - 2005

    В 2005 году появилось еще больше обновлений ссылок..

    С 2003 по 23 февраля 2011 года мало что изменилось.

    Это были славные дни SEO. Эх, вернуться бы в 2005-2007 годы. До этого было не так много, поскольку предложений было не так много, а людей в Сети меньше. По крайней мере, в то время можно было легко заработать.

    Ранжирование тогда основывалось просто на ссылках, плотности ключевых слов и EMD. Да, они выпустили несколько обновлений для борьбы со ссылочным спамом, но ранжировать было намного проще. Вам просто нужно было сделать несколько простых вещей, чтобы оставаться незамеченным, и тогда вы могли свободно рассылать спам с помощью xrumer.

    Обновление Panda - 2011

    Это было началом грядущих событий. Обновление было не из приятных, и Google начал становиться агрессивным и соответствовать частоте обновлений.

    Panda была обновлением качества сайта / контента. Это был конец ферм контента. По крайней мере, ферм контента 00-х годов

    Обновление Penguin - 2012

    В 2012 году дела шли все хуже и хуже, когда мы получили обновление Penguin. Это IMO стало официальным завершением дней славы SEO. Последний гвоздь в крышку гроба. Да, 2012-2013 годы все еще были легкой прогулкой по сравнению с сегодняшним днем, но по сравнению с тем, что было раньше, это было намного сложнее.

    Penguin был модификацией основного алгоритма, целью которого было наказание сайтов, использующих тактику создания спам-ссылок.

    Кстати, на сегодняшний день Penguin не существует. Он был внедрен в основной алгоритм.

    Это было началом того, что точные привязки стали опасными.

    В те времена люди говорили о поиске приемлемого соотношения текста привязки и дополнении его словом brand / naked.

    Да, тогда это сработало. Сейчас это не работает, потому что у нас машинное обучение.

    Как вы можете видеть, просматривая обновление за обновлением, Google использует все больше и больше методов для выявления сайтов, рассылающих спам.

    На мой взгляд, все началось с идеи "эй, давайте попробуем статистически определить, что делают качественные веб-сайты, а затем основывать все на этом" - это мощная идея, и она, вероятно, лежит в основе каждого крупного обновления вплоть до обновлений машинного обучения. Это лучший способ сделать это, без исключений.

    Проблема со статистикой в том, что, по статистике, у ребенка, родившегося в стране третьего мира, меньше шансов стать миллионером, чем у ребенка, родившегося в Нью-Йорке. Статистически это верно, но логически это не означает, что "каждый человек, родившийся в стране третьего мира, никогда не станет миллионером". Вот почему обновления попадают на сайты, которые не делают ничего плохого.

    Даже Panda. Работа Panda заключалась в выявлении низкокачественного / тонкого контента. Как вы это делаете? Особенно в 2011 году, задолго до появления современных моделей машинного обучения transformer.

    Скорее всего, они выбрали множество точек данных для оценки качества и статистически сравнили помеченные вручную статьи высокого качества с помеченными вручную статьями низкого качества, а затем внедрили это.

    В конечном счете Google - это компания, занимающаяся обработкой данных и статистикой. Они только что перешли на использование машинного обучения для анализа данных. На самом деле это не поисковая компания. Вся их суть заключается в работе с точками данных, чтобы заставить как можно больше людей возвращаться в поисковую систему и получать наибольшее количество просмотров рекламы.


    Обновление Hummingbird - 2013

    До появления hummingbird вам требовались отдельные страницы для каждого длинного запроса.

    Даже для "лучших тостеров", "обзоров тостеров" и "лучших тостеров" было бы лучше создать отдельные страницы.

    Google просто ранжировал ключевые слова на страницах и искал все ключевые слова на странице. Это было элементарно и просто, и по мере роста Сети все больше обычных людей начали искать, что означало, что поисков на естественном языке стало намного больше.

    В прошлом веб-пользователи были первыми пользователями и научились выполнять поиск таким способом, который понятен компьютерам, как

    список тостеров купить

    Если бы вам нужен был список тостеров для покупки. В 90-х вы бы никогда не стали искать "какой лучший тостер для студентов". Это просто не сработало бы вообще.

    Если бы вы хотели попробовать и найти, что вы бы сделали

    список тостеров покупают студенты

    Hummingbird, по сути, переписал основной алгоритм Google и полностью изменил принцип его работы.

    С этого момента Google теперь пытался сопоставлять намерения пользователя с pages. Да, это было далеко не так хорошо, как сегодня, но это было началом сопоставления намерений пользователя.

    Если вы искали "как я могу почистить старый тостер", то искали бы ключевые слова, такие как "очистить" и "тостер", и попытались бы найти страницу, в которой говорилось о чистке тостера, а не страницу, в названии которой есть слова "Как я могу почистить старый тостер".

    Это было началом изменений в том, как мы делаем SEO, которые в большей степени соответствуют современному SEO.

    Обновление RankBrain - 2015

    Первое обновление Google для машинного обучения.

    Это было создано, чтобы помочь Google определить лучшие страницы для ранжирования поисковых запросов. Именно здесь Google начал выходить за рамки просто ключевых слов.

    Hummingbird больше занимался извлечением важных ключевых слов из поисковых запросов, но все еще основывался на ключевых словах. Это было обновление для машинного обучения, в котором Google будет использовать машинное обучение для разработки

    Вплоть до RankBrain весь алгоритм Google сводился к тому, "Сколько раз ключевое слово поиска появляется на странице и в якорях".

    ВОТ почему якоря раньше были так важны.

    ВОТ почему был создан Penguin.

    Вот почему якоря больше не важны в 95% случаев, кроме как в качестве сигнала для определения того, насколько естественна ваша ссылка. Потому что Google начал использовать машинное обучение для понимания поисковых запросов вместо сопоставления ключевых слов со страницами.

    У Google есть база данных graph, полная объектов и фактов.

    По состоянию на 2023 год он содержит 8 миллиардов сущностей и 800 миллиардов фактов.

    При поиске

    "как я могу сделать контент-маркетинг карьерой"

    Он не ищет ключевые слова на странице.

    Он использует машинное обучение и сущности, чтобы понять, какую страницу вам предоставить.

    Посмотрите.

    Нажмите на это - https://www.google.com/search?kgmid=/m/03qj473

    Вау, посмотрите, что появляется. Результаты поисковой выдачи по "контент-маркетингу". :)

    Это идентификатор машины knowledge graph для контент-маркетинга.

    Теперь нажмите - https://www.google.com/search?kgmid=/m/03ml62y

    Это идентификатор машины kg для карьеры.

    Он понимает эти концепции / темы. У него есть информация / связи по ним.

    Это не просто сопоставление страниц с заголовком "Как я могу заниматься контент-маркетингом в качестве карьеры"

    Эта страница № 1 https://www.reliablesoft.net/get-into-content-marketing /


    Не потому, что в нем много раз встречается слово "карьера".

    Но поскольку Google знает, что одной из сущностей поискового запроса является / m / 03ml62y, и эта сущность, "карьера" связана (вот что такое база данных graph, это набор связей / отношений) с другими сущностями и фактами..

    Он использует знания об этих связанных объектах и фактах, чтобы определить, насколько релевантна страница.

    Давайте посмотрим на эту страницу

    Он содержит такие объекты, как "отрасль", "компания", "доход", "работа".

    Проверьте это - https://share.getcloudapp.com/Z4uG7Azj

    Вы видите, как выделяются "работа", "контент-маркетинг", "степень". Выделяются объекты, которые он считает связанными.

    Так вот, когда был выпущен RankBrain, это было вроде как все, до чего дошло.

    Это был график знаний с помощью RankBrain. Базовое машинное обучение пыталось выяснить, чего хочет поисковик, и использовало объекты графика знаний, чтобы помочь в этом.

    Сегодня он намного продвинут, а Knowedge Graph содержит огромное количество данных. Более 800 миллиардов фактов, и они постоянно растут.

    Кстати, именно так Google может измерять "тематическую авторитетность".

    Я обсуждал это в моем другом руководстве о том, что такое тематический авторитет на самом деле - https://www.blackhatworld.com/seo/a...e-question-what-is-topical-authority.1450324 /

    Именно поэтому сайты PAA доминировали, пока Google не выпустил несколько обновлений, которые помешали им.

    Потому что график знаний - это чистые факты. Это чистые вопросы и ответы. Итак, когда у вас есть сайт с PAA (чистыми вопросами и ответами), он очень точно совпадает с графиком знаний, так что в конечном итоге вы получаете авторитет в астрономической тематике.

    Вы не оцениваете PAA, потому что у них низкая стоимость. Попробуйте создать сайт с 1000 нишами, по 10 статей на нишу, всего 10 тысяч статей. Это не будет особенно хорошо работать.

    Примерно в это же время у вас больше не могло быть отдельных страниц для "лучший тостер", "лучшие тостеры" и "обзоры тостеров", потому что машинное обучение RankBrain с помощью графика знаний может определить объект, которым является toaster, и понимает, что обзоры / best / top очень похожи.

    Можете ли вы доказать то, что вы здесь говорите?

    На самом деле на графике знаний доступно не так уж много информации. Google предоставляет нам доступ к объектам через API, но это лишь малая часть всего комплекса услуг.

    Почти все статьи представляют собой просто переработанную информацию о графиках знаний, в которой говорится одно и то же.

    Давайте проведем здесь небольшое исследование.

    Если мы посмотрим дальше, https://en.wikipedia.org/wiki/Google_Knowledge_Graph там говорится

    "Объем информации, охватываемой графиком знаний Google, быстро вырос после запуска, утроив объем данных в течение семи месяцев (охватывая 570 миллионов объектов и 18 миллиардов фактов"



    Представляем график знаний: вещи, а не строки

    Мы надеемся, что это даст вам более полное представление о вашем интересе, улучшит результаты поиска и пробудит ваше любопытство.[IMG]

    Он говорит

    "В настоящее время он содержит более 500 миллионов объектов, а также более 3,5 миллиардов фактов об этих различных объектах и взаимосвязях между ними. И он настраивается на основе того, что ищут люди, и того, что мы находим в Интернете".

    Конечно, сегодня мы знаем более 800 миллиардов фактов, но ключевым моментом здесь является не число, а другие вещи, которые он говорит.

    Таким образом, мы можем получить подтверждение того, что он содержит не только "сущности", но и факты об этих сущностях, а также взаимосвязи между этими фактами.

    Он говорит

    "График знаний также помогает нам понять взаимосвязи между вещами. Мария Кюри - личность в Графе знаний, и у нее было двое детей, один из которых также получил Нобелевскую премию, а также муж, Пьер Кюри, который претендовал на третью Нобелевскую премию для семьи. Все это связано на нашем графике. Это не просто каталог объектов; он также моделирует все эти взаимосвязи. Ключевым моментом является интеллект между этими различными объектами ".

    "интеллектуальное взаимодействие между этими различными объектами" - Подтверждение того, что они сосредоточены на интеллектуальном взаимодействии между объектами, что означает, что машинное обучение и график знаний тесно взаимосвязаны.

    Мы также узнаем

    "Например, информация, которую мы показываем о Томе Крузе, отвечает на 37 процентов следующих запросов, которые люди задают о нем"

    Это подтверждает, что Google активно изучает цепочку поисковых запросов, чтобы выявить намерения пользователя.

    Это означает, что если люди ищут "руководство для начинающих по seo", а затем ищут "что такое текст привязки", Google узнает, что "руководство для начинающих по seo" должно содержать раздел, отвечающий на вопрос "что такое текст привязки". Чем больше намерений пользователя вы сможете уловить, тем выше ваш рейтинг.

    Мы могли бы обучить наш собственный алгоритм машинного обучения просматривать поисковые запросы и ответы на вопросы в топ-3 результатах и обучить модель на основе этого, чтобы помочь ей понять, что пользователь может захотеть от нового, неизвестного поискового запроса.

    Как насчет вопросов? Куда они вписываются? Пока что в своем блоге Амит Сингхал не упоминал об этом конкретно.

    Я нашел этот патент здесь - https://patents.google.com/patent/US10108700B2 / - "Ответы на вопросы для заполнения базы знаний"

    Вот одно из изображений - https://patentimages.storage.googleapis.com/5b/e8/e3/480c86196c5660/US10108700-20181023-D00000.png

    Как вы можете видеть, он пытается заполнить недостающую информацию. Итак, на изображении у него отсутствует бит данных "architect", для которого он генерирует вопрос, затем передает этот вопрос в "обработку запросов", которая может быть только одной - поиском по его документам, которые он просматривал и индексировал в Интернете.

    Затем программа получает ответ и заполняет запись в таблице знаний.

    Это показывает нам, как Google на самом деле использует генерацию вопросов и ответы на них для обучения.

    Он учится в Интернете. Исходя из того, что мы узнали здесь, весьма вероятно, что PAA на самом деле представляют собой вопросы, которые он генерирует из своего собственного графика знаний.

    Здесь также есть еще один связанный патент под названием "Ответы на вопросы с использованием ссылок на сущности в неструктурированных данных" - это ТОЧНЫЙ патент с подробным описанием рекомендуемых фрагментов.

    Я использовал искусственный интеллект, чтобы обобщить и объяснить этот патент. Вот что получилось.

    "Этот патент описывает метод и систему для улучшения результатов поиска путем добавления ссылок на объекты, которые визуально различимы и могут располагаться над результатами поиска с самым высоким рейтингом.

    Процесс включает в себя:

    1. Получение поискового запроса на естественном языке и получение результатов поиска на основе этого запроса. Эти результаты поиска ранжируются на основе их соответствия запросу.

    2. Определение типа объекта, связанного с запросом. Этот тип объекта, которым может быть человек, местоположение или дата, определяет широкую категоризацию, включающую несколько конкретных объектов.

    3. Выбор одного или нескольких результатов поиска с самым высоким рейтингом.

    4. Выбор ссылки на сущность из содержимого результатов поиска с самым высоким рейтингом. Эта ссылка на сущность представляет собой конкретный текст, который ссылается на конкретную сущность, и ее выбор определяется типом сущности, идентифицированной в запросе.

    5. Отображение ссылки на эту сущность рядом с результатами поиска с самым высоким рейтингом, но визуально отличающейся от них, например, расположенной над результатами поиска с самым высоким рейтингом. "


    И ничего себе. Посмотрите на это. Звучит ИМЕННО так, как будто это избранный фрагмент.

    Это также показывает нам, как они отвечают на вопросы в неструктурированных данных, которые будут частью "процессора запросов" из патента до этого "Ответа на вопрос для заполнения базы знаний"

    БЕРТ - Первое обновление - 25 октября 2019

    Именно тогда все изменилось. Первая модель transformer.

    Google заявила, что это влияет как на поисковые запросы, так и на рекомендуемые фрагменты. Что мы знаем о рекомендуемых фрагментах? Они порождают вопросы и создают ответы.

    Итак, они использовали BERT для понимания намерений пользователя, обнаружения сущностей, генерации вопросов и ответов на вопросы. Затем они сохраняли все это в графе знаний.


    BERT - Обновление ядра - 4 мая 2020 г.

    Я могу рассказать вам на 100%, о чем было это обновление.

    Авторитетный источник.

    Понимая, что мы знаем о графике знаний и ответах на вопросы, затем перейдя от своего первоначального, более элементарного машинного обучения в RankBrain к BERT в 2019 году, они теперь в полной мере использовали BERT для расширения графика знаний, добавив в него больше интеллекта и используя это, чтобы действительно задействовать "актуальные полномочия" в полной мере. Именно тогда тематический авторитет стал гребаным королем.

    Вот еще один патент. Это более ранний вариант, который называется "Кластеризация результатов поиска".

    Это было подано в..

    26 ноября 2019 года.

    Ха-ха...

    За несколько месяцев до обновления в мае 2020 года, которое касалось актуальных полномочий от BERT?

    Через 1 месяц после того, как они сделали первое обновление, чтобы внедрить BERT в живой индекс?

    Теперь у них есть BERT, технология, которая делает именно это? Технология, которой до сих пор не существовало.

    БЕРТ для измерения сходства текста

    Подобие предложений с использованием моделей transformer, таких как BERT, невероятно легко реализовать. Мы узнаем, как (на Python) и почему именно это так хорошо работает.towardsdatascience.com

    Теперь взгляните на первый абзац краткого описания искусственного интеллекта.

    Вот краткое изложение патента на искусственный интеллект

    "Эта патентная заявка описывает метод, выполняемый поисковой системой для кластеризации результатов поиска на основе их семантических связей и сходства, и представления этих результатов в структурированном, организованном виде. Ниже приводится упрощенное толкование каждого пункта формулы изобретения:

    1. Основное утверждение описывает метод, в котором поисковая система обрабатывает запрос, идентифицирует объекты, связанные с результатами поиска (элементы), получает вложения для этих элементов, создает кластеры первого уровня на основе идентифицированных объектов, уточняет эти кластеры путем объединения их в соответствии с их онтологическими отношениями и сходством внедрения и представляет окончательные кластеры.

    2. В этом утверждении говорится, что в процессе кластеризации сначала объединяются кластеры первого уровня меньшего размера.

    3. Это утверждение дополнительно развивает предыдущее утверждение, указывая, как выбираются и объединяются кластеры меньшего размера.

    4. В этом утверждении говорится, что сначала объединяются наиболее похожие кластеры первого уровня.

    5. Это утверждение дополнительно развивает предыдущее утверждение, указывая, как отбираются и объединяются наиболее похожие кластеры.

    6. Это утверждение предполагает, что иерархическая кластеризация применяется к объединенным кластерам первого уровня при создании конечных кластеров.

    7. В этом утверждении добавляется, что онтологические связи между сущностями используются для настройки показателя сходства в процессе кластеризации.

    8. В этом утверждении более подробно описывается, как корректируется показатель сходства, указывая, что этот показатель повышается для кластеров с онтологически связанными объектами для повышения сходства.

    9. В этом утверждении утверждается, что сущности, связанные с элементом, могут быть идентифицированы до получения запроса.

    10. В этом утверждении объясняется, что объекты, связанные с элементом, могут быть идентифицированы в тексте, связанном с элементом.

    11. В этом заявлении разъясняется, что по крайней мере один объект, связанный с элементом в результатах, идентифицируется по тексту, связанному с элементом.

    12. В этом утверждении указывается, что элементы являются мобильными приложениями, и процесс связывания их с объектом основан на службе аннотаций приложения.

    13. В этом описании приводится подробная серия шагов по созданию конечных кластеров, включая создание промежуточных кластеров и кандидатов в кластеры перед выбором конечных кластеров.

    14. Это утверждение дополнительно развивает предыдущее утверждение, вводя третий этап генерации кандидатов в кластеры на основе увеличенной метрики сходства, когда кластеры имеют онтологически связанные сущности.

    15. Это утверждение повторяет основное утверждение, но добавляет, что каждый кластер первого уровня представляет сущность в базе знаний и включает элементы, сопоставленные с этой сущностью.

    16. В этом утверждении содержится более подробная информация о том, как создаются конечные кластеры в п. 15.

    17. В этом утверждении подробно описывается, что происходит во время процесса объединения, приведенного в пункте 16.

    18. В этом заявлении описывается сложный процесс создания конечных кластеров путем объединения кластеров первого уровня и создания промежуточных кластеров и кандидатов в кластеры.

    19. В этом пункте формулы изобретения указывается, что в контексте пункта 15 элементы являются мобильными приложениями, и процесс сопоставления их с объектами основан на службе аннотаций приложения.

    20. В этой заявке описывается основной метод (п. 1) в виде набора инструкций, хранящихся на неизменяемом машиночитаемом носителе, который при выполнении процессором заставляет поисковую систему выполнять указанные операции. Эта заявка касается программного продукта, который реализует методы, описанные в патенте. "


    Цитата из патента

    "Сходство встраивания между двумя элементами поиска может быть представлено как косинусное сходство в пространстве встраивания".


    Цитата из https://towardsdatascience.com/bert-for-measuring-text-similarity-eec91c6bf9e1

    "Найдите предложения, между которыми наименьшее расстояние (евклидово) или наименьший угол (косинусоидальное подобие)"

    Итак, что у них есть сейчас?

    График знаний, полный вопросов и ответов.

    БЕРТ со способностью определять сходство предложений (вопросы и ответы)

    Итак, все, что им нужно сделать на этом этапе, это использовать BERT для кластеризации.

    Мы не смогли бы сделать это без БЕРТА. Да, у нас было косинусное подобие, но вы не можете создать плотное векторное представление предложений для реального выполнения косинусного подобия, пока у вас не будет модели преобразования предложений.

    Как использовать встраивание предложений BERT для кластеризации текста | Технический блог Assignar

    Этот пост посвящен определению контекста, зафиксированного в текстовых предложениях, и группировке похожих предложений вместе. Понимание контекста означает, что нам нужно понимать все возможные способы написания предложения

    Они либо просто создавали резюме документов на основе предложений, либо группировали их.

    Или они сделали что-то более продвинутое, используя больше вопросов и ответов, которые у них есть в графе знаний, для объединения в кластер.

    Независимо от того, делали ли они это в мае 2020 года или совсем недавно, сейчас это определенно более изощренно, но это было первое крупное тематическое обновление authority.


    Ладно, пока достаточно. Во второй части мы продолжим с обновлением от декабря 2020 года и убийцей БЕРТОМ. MUM, которое вышло в обновлении от июня 2021 года.

    Все ссылки использованные в данной статье, не являются рекламой!
     
    This article was useful for you?
    You can thank the author of the topic by transferring funds to your balance
    Thank the author
  2. Чупик
    Чупик Nov 25, 2023 кто ты воин 4474 Jun 13, 2022
    Слишком много читать
     
    1. ChydikTT Topic starter
  3. json
    json Jan 16, 2024 1447 Jan 13, 2023
    Ахуеть, крутая инфа внатуре. Однозначно +реп
     
Loading...
Top