Текстовое ранжирование, как фактор влияющий на вывод сайта в ТОП.

Разберем для важности продвижения текстовую составляющую.

В текстовой составляющей можно разделить 2 момента:

  1. Текст в ссылках и в околоссылочном тексте.
  2. Текст на самом сайте.

Исходя из заявления яндексоидов, на данный момент более важны внутренние факторы.

Ростислав Шоргин (Яндекс Поиск): «Факторы, интеллектуально оценивающие содержимое документа, конечно у нас есть. Мы уже говорили, что среди наиболее значимых факторов - большинство как раз не внешние, как думают многие оптимизаторы, в внутренние - т.е. наполнение интернет страницы.»

Существует предположение, что для распределения релевантности текстового ранжирования используется закон Ципфа, который гласит: «Если составить такой словарь, в котором слова располагались бы в порядке убывания частоты их употребления, то во всяком естественном языке наблюдается универсальная закономерность: частота употребления каждого слова обратно пропорциональна его номеру в данном частотном списке».

Таким образом, можно сделать простой вывод из закона Ципфа:

  • В языке есть небольшое количество слов, которые используются чрезвычайно часто.
  • В языке есть достаточно большое количество слов, которые используются достаточно часто.
  • В языке полно слов, которые практически никогда не используются.

То есть, мы получаем частотный словарь для языкового документа. К примеру, этот метод распределения частотности слов можно использовать для распознавания дублированного, или синонимайзенного контента, и для таких сайтов нет необходимости использовать шинглы (ведь для применения методов шинглов нужно подобрать оптимальный шаг), достаточно применить закон распределения Ципфа.

Давайте попробуем с точки зрения Яндекса систематизировать, какой именно текст должен быть на сайте.

Для этого нужно получить для каждой группы сайтов тематический словарь (эшелон слов и словоформ). А т.к. любой сайт может быть отнесен к любой тематической группе, то для формирования правильных эшелонов пользуемся готовым каталогом – каталогом Яндекса, в котором все сайты вручную тематически упорядочены. Осталось только составить текстовые эшелоны для каждой тематической группы.

После того, как эшелоны составлены – можно спокойно проводить текстовое ранжирование документов на предмет очеловечивания текстов. Т.е. в итоге мы с высокой степенью точности получим адекватное распределение качественного текста для сайтов заданной тематики.

Самые общие выводы для качественных сайтов с точки зрения текстового ранжирования:

  1. Важно большое количество падежных словоформ.
  2. Для естественного текста характерны конкретные специфические термины.
  3. Для естественного текста характерно единичное вхождение, или же полное отсутствие не характеристических терминов, применимых к конкретной тематике.
  4. В естественном тесте достаточно большое количество предлогов.
  5. Важны союзы и наречия.
контент сайта

Каким должен быть контент на сайте

Комментарии:

Кариша24.02.15 19:36

Мне как то заказ делал парень с проектом - вывести сайт из-под АГС на котором около 1.5 тыс статей, уникальность 10% максимум :)))

Оставить комментарий

наверх