|
|
|
 |
|
|
 |
|
В наше время работа большинства поисковых систем основана на принципе информационного поиска. Придуман этот принцип был еще в средине двадцатого века, в то время он применялся в правительственных лабораториях, исследовательских учреждениях и крупных библиотеках. Уже в то время ученые, работавшие с поисковыми системами, осознали большую важность двух главных компонентов, составляющих основу поисковой функциональности.
Первым компонентом является релевантность, а вторым – популярность.
Релевантность – качество сходства контента информации в выдаче запросу пользователя. Релевантность информации возрастает, при соответствующем слове или фразе в запросе несколько раз встречаются в контенте, в названии страницы, в главных заголовках и подзаголовках.
Популярность – относительная важность, которая определяется цитируемостью (один документ ссылается на другой источник информации, что часто практикуется в научных и деловых документах) данной информации, которая соответствует запросу пользователя. Популярность данной информации возрастает в связи с тем, что на него ссылаются другие источники.
В наше время, эти две составляющие положены в основание поиска информации в Интернете. Называются они анализом гиперссылки или формой анализа документа. При необходимости проанализировать документ, система поиска ведет проверку слов или целых фраз, проверяя, тэги МЕТА, тэги заголовков, тело и само название. Также идет автоматическая проверка качества предоставленного документа (проверка проводится с помощью очень сложных систем).
Поисковые системы, при проведении анализа ссылок, кроме определения того, кто ссылается на страницу, или сайт в целом, делают проверку информации о комментариях, и ссылках на данную страницу или сайт. Данные об историях гиперссылок, записи о регистрации сайта и других источников – вся эта информация проверяется с помощью гиперссылкок с доменов edu. и gov. Системы поиска применяют контекстуальные данные для работы с сайтом, к которому относятся конкретные страницы (адрес ссылки, комментарий по ссылке и т. д.).
Различные факторы, влияющие на проверку гиперссылок и документов, при смешивании и накладке друг на друга, могут идентифицироваться при помощи алгоритмов, применяемых в поисковых системах (алгоритм – сумма команд для системы поиска, нужная для нахождения степени значимости конкретного фактора). Ранжированием называется значимость, или популярность документов, она определяется алгоритмом поисковой системы. Ранжирование происходит в порядке уменьшения важности и значимости конкретного документа.
|
| |
|
|
|
Читать дальше
Просмотров [556] |
 |
|
 |
|
|
|
 |
| 20.09.2007 - Полностью обновили дивижок и дизайн! |
 |
|