Недостатки поисковых систем

Опубликовано: 23.08.2018

видео Недостатки поисковых систем

Python — ПЛЮСЫ И МИНУСЫ ●) АЙТИШНИК

Поисковые системы не идеальны. Они сталкиваются со многими проблемами, пытаясь угадать намерения пользователей найти страницы, которые лучше других отвечают поисковому запросу.



Вот несколько причин, почему поисковые системы не возвращают всегда 100% релевантный результат:

1. Релевантность относительна. Это самая большая проблема. Вы можете искать “кофе” в Канаде и найти Tim Horton’s сайт, как наиболее релевантный. Это самая популярная сеть кофейных магазинов Канады, но для жителя Сиэтла самым релевантным будет Starbucks. Также вы можете ввести запрос “60-е года”, пытаясь найти старую футбольную команду, а историк тем же запросом будет искать материал по истории Калифорнии. Вы можете искать сегодня “bones” (кости), чтобы узнать, где можно купить кость для собаки, а завтра тем же запросом будете искать новую серию сериала “Bones“.


Как не обмануться при заказе SEO-продвижения сайта

Как поисковой системе разобраться в таких запросах? Только если вместо машины запрос будет читать человек…

До настоящего времени все, что имеют поисковые системы для решения этой проблемы - это памятьcookies и персональный поиск. Чем лучше поисковая система знает пользователя, тем выше шансы дать ему релевантный результат. Недостаток этого метода: обеспокоенность пользователей по поводу сохранности личных данных.


КАК ВЫБРАТЬ МЕТАЛЛОИСКАТЕЛЬ ХП ДЕУС, СОВЕТЫ, ОБЗОР

2. Запросы на человеческом языке. Движок базы данных MySQL может выдать все релевантные записи, выполняя команду ‘select first,last from employee where last=”Smith”;‘. Это форматный синтаксис, исключающий двусмысленность. Поисковая система, с другой стороны, получает строку ‘who has smith as last name in chicago‘(у кого в Чикаго фамилия Smith) или ‘smith last name chicago‘. Естественный язык запросов - наш язык, из слов люди составляют осмысленные выражения. Есть много способов сказать об одном и том же, есть разные виды личностей и т. д. Перед тем как искать что-либо в индексе, поисковая система должна разбить запрос на части и перевести его в более форматный вид.

3. Малоинформативные запросы. Многие пользователи не могут толково объяснить, что они хотят в реальном мире, и еще хуже когда пытаются объяснить это поисковой системе. Они вводят ‘пылесос’, и поэтому не могут найти сервис для уборки дома. К тому же они делают ошибки в словах, создавая более “интересную” проблему для поисковой системы.

4. Синонимы. Еще одна проблема. Есть слова с одинаковым значением, например “машина” и “автомобиль”. Когда вы ищете что-нибудь, вы хотите увидеть не только страницы, на которых упоминается ключевое слово, но и страницы с синонимами, если они будут релевантны вашему запросу. Скажем, вы ввели запрос ‘monkey‘ (макака). Вы также возможно захотите увидеть и страницы, содержащие слова ‘chimpanzee’ или ‘ape’ (шимпанзе и горилла). Однако если вы будете подходить к запросу серьезно, возможно вы не захотите видеть страницы о шимпанзе, потому что хоть шимпанзе и приматы, но они не макаки. Такие проблемы редко приходят в голову пользователям, но для поисковых систем они довольно актуальны.

5. Полисемия. Есть множество слов, которые меняют свое значение в зависимости от контекста. Например, если вы вводите запрос “лес”, то с равным успехом можете найти как сайт изготовителя строительных лесов, так и сайт о природе джунглей. Без контекста трудно что-либо объяснить человеку. Представьте, каково это для поисковой системы!

6. Несовершенство реализации. Есть такие параметры при изучении поисковых систем: precision иrecall. Этими параметрами описывается качество поисковых систем. Precision - мера релевантных результатов в выдаче поисковика. Чем менее релевантны результаты, тем меньше precision. Recall, с другой стороны, - мера того, насколько хорошо поисковая система выдает все релевантные результаты (конечно если исcледователь знает, сколько всего релевантных результатов). Чем больше релевантных результатов выпадает из поиска, тем ниже recall.

В идеале поисковые системы должны выдавать все релевантные документы, не включая в выдачу нерелевантные результаты. (100% precision и 100% recall). На практике это оказалось невозможно, так как precision и recall обратно пропорциональны.

К счастью, для большинства пользователей главную роль играет только precision, особенно в топ 10. Немногие из нас идут дальше первых страниц выдачи (SERPs - Search Engine Result Pages, серп). Наблюдая за реакцией пользователя на выдачу (и его дальнейшие действия, например через toolbar- прим. egorych), поисковая сиcтема может запомнить “понравившийся” серферу URL и определить его как “правильный”, релевантный этому запросу, и выдавать его другим пользователям по этому же запросу.

7. Спам. Поисковые системы определяют релевантные страницы по “сигналам качества” либо параметрам, которые можно просчитать исходя из содержания страниц (ключевые слова, наличие в тегах title, b, strong, i и так далее - прим.egorych). Вызов для поисковых систем в том, что как только Blackhat Seo’s узнают об этих “сигналах”, они начинают их использовать (в своих корыстных целях : ) - прим. egorych). На мой взгляд со временем становится все труднее создавать эти фальшивые сигналы, но это никогда не станет невозможным. Для людей распознать спам просто, но для компьютера это намного сложнее.

Почему так важно знать об этом?

Эта тема интересна тем, что доказывает интересную точку зрения. Хотя поисковые системы не хотят с этим соглашаться, они нуждаются в нас (SEOs). Релевантность субъективна. Вы хотите занять выжидательную позицию и надеяться, что поисковая система высоко оценит ваш сайт и будет выдавать по запросам, по которым (как считает поисковик) ваши страницы достаточно релевантны? Или, напротив, играть активную роль и выбирать лучшие кейворды, включать их в контент и входящие ссылки и учиться продвижению у сайтов из топа?

IRC (Internet Relay Chat)
rss