Главная › Инструкции для асессоров Яндекса и Google

Инструкции для асессоров Яндекса и Google

Раньше алгоритмы поисковиков просто отбирали «абстрактно релевантные» документы по бездушным формулам ранжирования. Но время идет, и такой подход уже не мог обеспечивать достаточного качества выдачи. Бесспорно, базовые механизмы определения релевантности документа запроса (контент + Pagerank/тИЦ) продолжают работать и выполняют роль первичного фильтра. Но для тонкого ранжирования и непосредственного формирования SEPR нужны более продвинутые и «человекоориентированные» принципы.

Один из самых интересных и многообещающих подходов к тонкому ранжированию – эмуляция настоящего человеческого поискового поведения и критериев оценки качества/релевантности страниц. «Яндекс» прямо заявляет об использовании системы машинного обучения «Матрикснет», у Google также есть технологии подобного рода. Ничего сверхъестественного в них нет – это не настоящий искуственный интеллект, а статистические механизмы. Они учатся делать выбор на основе большого количества веб-страниц, вручную размеченных асессорами – обычными людьми, действующими по инструкции. Как вы увидите, ничего революционного в них нет – это просто формализация критериев, с которыми каждый из нас не задумываясь подходит к странице выдачи по любому поисковому запросу.

Инструкция «Яндекса»

Утечка асессорской инструкции российского поисковика уже давнишняя, ей более полутора лет. Однако она «постматрикснетовская», поэтому вряд ли что-то в ней на данный момент изменилось принципиально.

Сразу следует отметить, что веб-страницы оцениваются не сами по себе, а только в качестве ответов на определенный поисковый запрос.

  1. Предварительная оценка – не является ли документ вредоносным, порнографическим. Если да – дальнейшая оценка не производится.
  2. Оценка релевантности. Оказывается, релевантность – не количественный показатель, она категорийна. (Тут, кстати, сразу необходимо поразмыслить о тем, как категорийные оценки асессоров переводятся в критерии для обсчета).
    • «Витальная» – официальный сайт, официальный ответ на вопрос.
    • «Полезная» – документ, где можно найти полезную информацию, точно соответствующую запросу
    • «Релевантная+» – документ отвечает на запрос.
    • «Релевантная-» – документ отвечает на запрос, но неточно или неполно.
    • «Нерелевантная» – документ не отвечает на запрос.
    • «Спам» – страница имеет признаки черной оптимизации.
    • «Не про то» – интересная категория, которая позволяет отделить очень похожие для неразумной поисковой системы, но разительно отличающиеся для живого человека результаты. Например, на запрос «лев толстой» поисковик не должен выдавать результаты про животных и полных людей, а также однофамильцев великого графа.

Вероятно, в настоящее время асессорская оценка стала полнее, хотя и ненамного – судя по недавно поступившим данным от Google, хороший асессор должен оценивать более 30 документов в час, что маловероятно, если критериев будет больше.

Инструкция Google

Этот документ посвежее, относится к весне 2011-го. Особых отличий от яндексовского нет – разве что присутствует шкала оценки по признаку георелевантности, а также подробная инструкция по предпочтениям пользователей. Это логично – если асессору не объяснить, что именно хотят видеть пользователи в ответ на те или иные виды запросов, он будет руководствоваться собственным мнением, которое может оказаться весьма странным. Но эта проблема решена – асессоры Google проходят достаточно жесткий отбор (несмотря на то, что никаких специальных знаний и навыков для работы не требуется, только английский язык, умение серфить в интернете и общая адекватность). Кстати, Google не держит орды неквалифицированных асессоров в подвале – это сугубо аутсорсные удаленные сотрудники, которых подбирают HR-агентства. Кстати, работать асессором в Google дольше года нельзя – после 12-ти месяцев необходимо отдохнуть как минимум квартал. Психологи Google понимают, что после года кликания по 400 сайтам в сутки человек работает как автомат, качество оценки сильно снижается, т.к. заполняется стохастическим шумом.

Влияют ли асессоры на формирование выдачи?

Мы уверены, что как бы представители поисковых систем не отнекивались, оценка асессора в очень значительной степени влияет на положение документа в выдаче по данному запросу. Вполне вероятно, что единичной оценки недостаточно, но если одинаковый сигнал приходит от коллегиального большинства, поисковой системе ничего не остается, кроме как принять его на веру. Однако вполне очевидно, что попытки поиска и подкупа асессоров гораздо менее эффективны, чем работа над сайтом – ведь критерии известны. Достаточно сделать свой ресурс самым полезным и реально самым релевантным среди конкурентов, чтобы при анализе асессоры отдали ему предпочтение. Также не стоит забывать, что несмотря на огромную армию асессоров – по слухам, у Google их более 500 одновременно, – они могут оценить лишь ничтожную долю всех проиндексированных документов.

Этичность использования труда асессоров

Наше общество считает нормальным эксплуатацию человеческих существ в качестве средств, не рассматривая их в качестве целей. Само наличие на рынке труда работы, предполагающей не более чем механическую оценку виртуальных результатов работы алгоритма, внушает некоторые опасения за судьбу цивилизации. На форумах асессоров раздаются возгласы на тему «может ли быть, что нашу работу никто не оценивает?..», и это демонстрирует глубину вытесняемого в бессознательное отчаяния. Тем не менее, возможность улучшить качество поиска увеличивает рыночную долю, капитализацию и прибыль поисковой системы, поэтому отказываться от асессоров на данном этапе они не собираются. Однако мы бы с удовольствием подписали петицию с требованием о сокращении предельного количества оцениваемых сайтов до 60 в сутки и 500 за всю карьеру асессора.

РоссийскийИнтернетМаркетинг.РФ