Главная Новости

Взвешенный индекс цитирования (вИЦ)

Опубликовано: 22.08.2018

Согласно теории поиска [1] , пользователи информационно-поисковых систем определяют ценность документа путем так называемых информационных ключей, таких как: заголовок статьи, автор, название сборника, индекс цитируемости , дата публикации работы, и далее переходят к более значимым документам. Чем больше ключей они учтут при поиске, тем лучше они могут вычислить ценность того или иного документа. Информационные ключи, основанные на лексическом сходстве документов запросам, весьма ограничены. В качестве параметра значимости статьи обычно рассматривается её индекс цитируемости . Однако, он также имеет ряд ограничений. Этот фактор не отражает структуру ссылок в каждой дисциплине (тематике), а также слабозначимые работы и труды с большой значимостью могут иметь одинаковый индекс цитируемости.

Опираясь на изложенную модель, люди, занимающиеся ранжированием результатов поиска в электронных библиотеках, предложили [2] не только подсчитывать количество цитат, но также ввести понятие веса ссылки, обосновывая это тем, что качество статьи определяется не только количеством, но и качеством ссылающихся источников. То есть, значимость источника ссылки является таким же важным информационным ключем для пользователей, определяющих ценность документа.

Раннее, для определения значимости документа использовали импакт-фактор . Однако этот фактор имеет некоторые недостатки. Главные из них в том, что импакт-фактор является не нормализованной величиной, а также рассматривает ссылки за короткий период времени (2-3 года) и не учитывает цитирования с конференций, которые часто играют важную роль в исследованиях, благодаря их популярности.

Поэтому и был введен термин фактор популярности (англ. Popularity Factor), который для определенного сборника вычислялся по следующей формуле:

где, PF(v,t) — фактор популярности сборника публикаций в рассматриваемый год t ;

P — множество сборников, которые ссылаются на сборник v в этом году;

nv — количество статей, опубликованных в сборнике v в этом году;

N — общее число статей, опубликованных в этом году (при этом, nv/N — вероятность того, что пользователь читает сборник v );

w(i) — частота цитируемости сборником i сборника v ;

N(i) — общее число ссылок в i -ом сборнике.

При этом PF(v,t) является нормализованной величиной, где сумма квадратов PF для всех сборников равна единице.

Все вышесказанное касалось электорнных библиотек, однако, описанная модель также применяется поисковыми системами для интернет-документов, используя популярность как один из факторов для ранжирования документов. В разных поисковиках этот фактор называется по разному: PageRank в Google, вИЦ в Яндексе, ИЦ в Апорте (из-за разных названий и возникала путаница среди вебмастеров).

Как описывал в статье о работе ПС Яндекс Илья Сегалович,

Введение ссылочного поиска и статической ссылочной популярности (мы называем этот фактор ВИЦ — взвешенный индекс цитирования — аналог известного PageRank) помогает поисковым системам справляться с примитивным текстовым спамом, который полностью разрушает традицонные статистические алгоритмы информационного поиска, полученные в свое время для контролируемых коллекций.

А Александр Садовский по этому поводу дал следующий комментарий :

Аналогичную возможность для русскоязычного интернета предоставляет Yandex.Bar. Яндекс.Бар показывает “взвешенный индекс цитирования” гораздо точнее, чем это делает Google — данные отображаются с точностью до сотых. В то же время, показываемое число касается только главной страницы сайта, и не зависит от веса его конкретной страницы, которая в данный момент загружена в окне браузера.

Еще один источник информации про вес PageRank для русскоязычных сайтов — каталог поисковой системы Апорт. Если сайт присутствует в каталоге, то рядом с его описанием указывается ИЦ главной страницы сайта.

Отсюда можно сделать вывод, что вИЦ в яндексе это тот же PageRank в Google с точностью до деталей реализации. Также обратите внимание, что формула (1) совпадает с формулой вычисления PageRank , где w(i)=1 (количество учитываемых одинаковых ссылок) и не учитывается переход пользователя не по ссылке (параметр 1-d отсутствует).

Взвешенный индекс цитирования, как и другие ссылочные факторы ранжирования, расчитывается из ссылочного графа . Узнать вИЦ для своих страниц вы можете приблизительно, проверив их PageRank любым чекером, однако, следует учесть, что в индексе Яндекса присутствуют только русскоязычные документы, а из зарубежных лишь некоторые популярные, таким образом, урезая ссылочный граф по сравнению с Google.

Документы по теме:

1. Popularity_Weighted_Ranking_for_Academic.pdf [334.06KB]

2. UIR-1995-07-Pirolli-CHI95-Foraging.pdf [1.76MB]

rss