Подпишитесь на наши новости
Вернуться к началу с статьи up
 

ПОИСКО́ВАЯ СИСТЕ́МА

  • рубрика
  • родственные статьи
  • image description

    В книжной версии

    Том 26. Москва, 2014, стр. 593

  • image description

    Скопировать библиографическую ссылку:




Авторы: Д. В. Барашев, Н. С. Васильева, Б. А. Новиков

ПОИСКО́ВАЯ СИСТЕ́МА, ал­го­рит­мы и реа­ли­зую­щий их ком­плекс про­грамм, пре­дос­тав­ляю­щий воз­мож­ность бы­ст­ро­го дос­ту­па к не­об­хо­ди­мой поль­зо­ва­те­лю ин­фор­ма­ции по­сред­ст­вом по­ис­ка в боль­шой кол­лек­ции дос­туп­ных дан­ных. П. с. не­об­хо­ди­мы для на­ви­га­ции (пе­ре­на­прав­ле­ние поль­зо­ва­те­ля по ло­ги­че­ски свя­зан­ным дан­ным к ко­неч­ным сай­там) в ог­ром­ном, про­дол­жаю­щем рас­ти объ­ё­ме ин­фор­ма­ции; ис­поль­зу­ют­ся во всех от­рас­лях дея­тель­но­сти че­ло­ве­ка, где не­обхо­ди­мо обес­пе­чить свое­врем. дос­туп к дан­ным. Об­мен ин­фор­ма­ци­ей в об­ще­ст­ве осу­ще­ст­в­ля­ет­ся гл. обр. в тек­сто­вой фор­ме, и не слу­чай­но, что весь­ма зна­чит. до­лю ин­фор­мац. ре­сур­сов со­вре­мен­ных П. с. со­став­ля­ет тек­сто­вая ин­фор­ма­ция. Наи­боль­шее рас­про­стра­не­ние по­лу­чи­ли П. с., ко­то­рые ищут ин­фор­ма­цию на сай­тах Все­мир­ной пау­ти­ны; по­ис­ко­вые веб-сер­ве­ры ис­пол­ня­ют мил­ли­ар­ды за­про­сов в день, спо­соб­ны с вы­со­ким ка­че­ст­вом вы­пол­нять за­про­сы поль­зо­ва­те­лей за до­ли се­кун­ды. Су­ще­ст­ву­ют так­же спе­циа­ли­зир. П. с., ко­то­рые пре­дос­тав­ля­ют воз­мож­ность ра­бо­ты с разл. кол­лек­ция­ми до­ку­мен­тов и дан­ных. Со­став­ная часть П. с. – по­ис­ко­вый сер­вер.

Историческая справка

К пер­вым П. с. мож­но от­не­сти раз­ра­бот­ки (1930–1940-е гг.) оп­ти­ко-ме­ха­нич. уст­ройств для ра­бо­ты с мас­си­ва­ми дан­ных, хра­нящих­ся на мик­ро­филь­мах; они по­зво­ли­ли ав­то­ма­ти­зи­ро­вать по­иск до­ку­мен­тов при по­мо­щи пред­ва­рит. раз­мет­ки. «Ста­ти­сти­че­ская ма­ши­на» Э. Гольд­бер­га (Гер­ма­ния) раз­ме­ча­ла до­ку­мен­ты на мик­ро­филь­ме при по­мо­щи пер­фо­ра­ции плён­ки и пре­до­став­ля­ла воз­мож­ность по­ис­ка до­ку­мен­тов по­сред­ст­вом срав­не­ния за­про­са и пер­фо­ри­ро­ван­ной раз­мет­ки. В 1945 В. Буш опи­сал ма­ши­ну Memex, ко­то­рая хра­ни­ла мик­ро­филь­ми­ро­ван­ные кни­ги и кор­рес­пон­ден­цию, по­ка­зы­ва­ла их на эк­ра­не и, по­ми­мо при­сваи­ва­ния ка­ж­до­му до­ку­мен­ту оп­ре­де­лён­но­го ко­да, пред­по­ла­га­ла так­же по­строе­ние свя­зей ме­ж­ду до­ку­мен­та­ми и по­сле­дую­щую воз­мож­ность на­ви­га­ции от до­ку­мен­та к до­ку­мен­ту. В 1948 К. Му­эрс (США) впер­вые ввёл тер­мин «ин­фор­ма­ци­он­ный по­иск» («information retrieval») – про­цесс по­ис­ка не­струк­тури­ро­ван­ной до­ку­мен­таль­ной ин­фор­ма­ции, бы­ли про­ве­де­ны пер­вые экс­пе­ри­мен­ты по ком­пь­ю­те­ри­зи­ров. по­ис­ку до­ку­мен­тов. Раз­ра­бот­кам эф­фек­тив­ных тех­но­ло­гий сис­те­мы тек­сто­во­го по­ис­ка уде­ля­ли боль­шое вни­ма­ние уже на ран­них ста­ди­ях раз­ви­тия ин­фор­ма­ци­он­ных сис­тем (их на­зва­ли ин­фор­ма­ци­он­но-по­ис­ко­вы­ми сис­те­ма­ми, ИПС). В 1970-е гг. пред­ло­же­ны мет­ри­ки (ха­рак­те­ри­сти­ки) и ме­ха­низ­мы оцен­ки ка­че­ст­ва ра­бо­ты П. с., реа­ли­зо­ва­на од­на из пер­вых П. с. – MEDLARS (MEDical Literature Analysis and Retrieval System), по­зво­ляв­шая ис­пол­нять по­ис­ко­вые за­про­сы к ба­зе био­ме­ди­цин­ской лит-ры; поя­ви­лись пер­вые П. с., под­дер­жи­ваю­щие ин­те­рак­тив­ное ис­пол­не­ние за­про­сов (online systems), напр. амер. спра­воч­но-пра­во­вая сис­те­ма LEXIS (ны­не LEXIS Nexis). В 1980-е гг. боль­шое вни­ма­ние уде­ля­лось раз­ра­бот­ке ме­ха­низ­мов взаи­мо­дей­ст­вия поль­зо­ва­те­ля с П. с. – поль­зо­ва­тель­ских ин­тер­фей­сов. По­яв­ле­ние Ин­тер­не­та при­ве­ло к соз­да­нию в кон. 1990-х гг. П. с. для Все­мир­ной пау­ти­ны, в ос­но­ву ко­торой лег­ли ре­зуль­та­ты ис­сле­до­ва­ний и экс­пе­рим. раз­ра­бо­ток в об­лас­ти ин­фор­мац. по­ис­ка. Од­ним из спо­со­бов ор­га­ни­за­ции дос­ту­па к ин­фор­мац. ре­сур­сам Ин­тер­не­та ста­ло со­зда­ние ка­та­ло­гов сай­тов, в ко­то­рых ссыл­ки на ре­сур­сы груп­пи­ро­ва­лись со­глас­но те­ма­ти­ке. Пер­вым та­ким про­ек­том стал сайт Yahoo (апр. 1994); в 1995 поя­ви­лись П. с. Ly­cos и AltaVista (по­след­няя дол­гие го­ды бы­ла ли­де­ром в об­лас­ти по­ис­ка ин­фор­мации в Ин­тер­не­те). В 1997 С. Брин и Л. Пейдж соз­да­ли П. с. Google в рам­ках ис­сле­до­ва­тель­ско­го про­ек­та в Стан­форд­ском ун-те, ко­то­рая (на 2014) яв­ля­ет­ся ми­ро­вым ли­де­ром по чис­лу об­ра­ба­ты­вае­мых за­про­сов (бо­лее 122 млрд. за­про­сов в ме­сяц); пер­вая в ми­ре П. с., соз­дав­шая бо­лее 100 ре­гио­наль­ных вер­сий. Назв. «Google» (Гугл) про­изош­ло от на­ме­рен­но ис­ка­жён­но­го С. Бри­ном сло­ва «Googol», т. е. де­сять в со­той сте­пе­ни – 10100. В 1997 офи­ци­аль­но анон­си­ро­ва­на рус­скоя­зыч­ная П. с. Ян­декс (Yandex), ко­то­рая об­ра­ба­ты­ва­ет св. 3 млрд. за­про­сов в ме­сяц (на 2013).

Особенности технологий и тенденции развития

На­уч. ос­но­вой П. с. яв­ля­ют­ся ма­те­ма­тич. мо­де­ли ин­фор­мац. по­ис­ка, ин­декс­ные струк­ту­ры, ме­то­ды ана­ли­за дан­ных (data mining), ма­шин­но­го обу­че­ния (см. Рас­по­зна­ва­ние об­ра­зов), ме­то­ды ис­кус­ст­вен­но­го ин­тел­лек­та, ма­те­ма­ти­че­ской ста­ти­сти­ки, ком­пь­ю­тер­ной лин­гвис­ти­ки, об­ра­бот­ки и ана­ли­за циф­ро­вых изо­бра­же­ний и др. Стан­дарт­ный под­ход к оцен­ке П. с. под­ра­зу­ме­ва­ет ис­поль­зо­ва­ние ре­пре­зен­та­тив­ных раз­ме­чен­ных кол­лек­ций – на­бор до­ку­мен­тов, на­бор за­про­сов и ин­фор­ма­ция о ре­ле­вант­но­сти (аде­к­ват­но­сти) до­ку­мен­тов кол­лек­ции ка­ж­до­му из за­про­сов – и обы­ч­но со­став­ля­ет­ся вруч­ную ав­то­ра­ми до­ку­мен­тов (экс­пер­та­ми в дан­ной пред­мет­ной об­лас­ти). Для по­лу­че­ния объ­ек­тив­ной оцен­ки ре­ле­вант­ность до­ку­мен­та за­про­су обыч­но оце­ни­ва­ет­ся не­сколь­ки­ми людь­ми. Стан­дарт­ные мет­ри­ки, при­ме­няе­мые в совр. оцен­ке тек­сто­во­го по­ис­ка, ос­но­вы­ва­ют­ся на от­но­ше­нии ре­ле­вант­но­сти до­ку­мен­та за­про­су (руб­ри­ке). Для П. с. по очень боль­шим кол­лек­ци­ям до­ку­мен­тов (напр., для по­ис­ка в Ин­тер­не­те) боль­шую зна­чи­мость обыч­но име­ет точ­ность ре­зуль­та­тов вы­да­чи, по­сколь­ку поль­зо­ва­те­лю важ­нее, что­бы все до­ку­мен­ты, вы­дан­ные П. с. в от­вет на его за­прос, бы­ли ре­ле­вант­ны­ми, чем по­лу­чить от П. с. аб­со­лют­но все до­ку­мен­ты из кол­лек­ции, со­от­вет­ст­вую­щие за­про­су (их мо­жет ока­зать­ся слиш­ком мно­го, и поль­зо­ва­тель всё рав­но не смо­жет про­смот­реть все из них).

Тех­но­ло­гии, ис­поль­зуе­мые для реа­ли­за­ции П. с., за­ви­сят от фор­ма­та (спе­ци­фи­ка­ция струк­ту­ры дан­ных, за­пи­сан­ных в ком­пь­ю­тер­ном фай­ле), объ­ё­ма и спо­со­ба раз­ме­ще­ния дан­ных, по ко­то­рым про­из­во­дит­ся по­иск. По спо­со­бу раз­ме­ще­ния дан­ных и их объ­ё­му мож­но вы­де­лить сис­те­мы: веб-по­ис­ка, ко­гда по­иск осу­ще­ст­в­ля­ет­ся сре­ди мил­ли­ар­дов до­ку­мен­тов, дос­туп­ных в Ин­тер­не­те; кор­по­ра­тив­но­го по­ис­ка, ра­бо­таю­щие со мно­же­ст­вом внутр. дан­ных кор­по­ра­ции; ло­каль­но­го или пер­со­наль­но­го по­ис­ка, про­из­во­дя­щие по­иск на жё­ст­ком дис­ке поль­зо­ва­те­ля; про­блем­но ори­ен­ти­ро­ван­но­го по­ис­ка, соз­да­вае­мые для по­ис­ка дан­ных в оп­ре­де­лён­ной пред­мет­ной об­лас­ти (напр., мед. лит-ра, за­яв­ки на па­тент).

Боль­шин­ст­во П. с. осу­ще­ст­в­ля­ют по­иск по сла­бо­струк­ту­ри­ров. или не­струк­ту­ри­ров. дан­ным, та­ким как тек­сто­вые или муль­ти­ме­диа­до­ку­мен­ты, веб-стра­ни­цы, элек­трон­ные со­об­ще­ния, фай­лы. Та­кие дан­ные не име­ют чёт­ко оп­ре­де­лён­ной струк­ту­ры в ви­де яв­но за­дан­но­го на­бо­ра ат­ри­бу­тов в про­ти­во­по­лож­ность струк­ту­ри­ро­ван­ным дан­ным, ти­пич­ным для ре­ля­ци­он­ных баз дан­ных. Клю­че­вым по­ня­ти­ем, ха­рак­те­ри­зую­щим тех­но­ло­гию по­ис­ка в той или иной кон­крет­ной П. с., яв­ля­ет­ся мо­дель по­ис­ка (вклю­ча­ет спо­соб фор­ми­ро­ва­ния пред­став­ле­ний до­ку­мен­тов; спо­соб фор­ми­ро­ва­ния пред­став­ле­ний по­ис­ко­вых за­про­сов; ви­да кри­те­рия ре­ле­вант­но­сти до­ку­мен­тов) и тип под­дер­жи­вае­мо­го по­ис­ко­во­го за­про­са. Мо­дель бу­ле­ва по­ис­ка ши­ро­ко ис­поль­зу­ет­ся в сис­те­мах тек­сто­во­го по­ис­ка, под­дер­жи­ва­ет об­ра­бот­ку за­про­са, имею­ще­го вид бу­ле­ва вы­ра­же­ния, т. е. вы­ра­же­ния, в ко­то­ром клю­че­вые сло­ва ис­поль­зу­ют­ся в со­че­та­нии с опе­ра­ция­ми AND (И), OR (ИЛИ) и NOT (НЕ). В рам­ках дан­ной мо­де­ли тек­сто­вые до­ку­мен­ты обыч­но рас­смат­ри­ва­ют­ся как мно­же­ст­во слов. Та­кая мо­дель по­зво­ля­ет оп­ре­де­лить на­ли­чие или от­сут­ст­вие тер­ми­на в до­ку­мен­те и под­дер­жи­ва­ет точ­ный по­иск: до­ку­мент ли­бо удов­ле­тво­ря­ет за­про­су, ли­бо не удов­ле­тво­ря­ет.

Аль­тер­на­ти­вой мо­де­ли бу­ле­ва по­ис­ка яв­ля­ют­ся мо­де­ли по­ис­ка с ран­жи­ро­ва­ни­ем, по­зво­ляю­щие за­да­вать по­ис­ко­вый за­прос в про­из­воль­ной фор­ме (напр., фра­за на ес­теств. язы­ке при тек­сто­вом по­ис­ке или кар­тин­ка-об­ра­зец при по­ис­ке по изо­бра­же­ни­ям), ко­то­рая не пред­по­ла­га­ет ис­поль­зо­ва­ние стро­гих кон­ст­рук­ций. Мо­де­ли по­ис­ка с ран­жи­ро­вани­ем под­дер­жи­ва­ют не­точ­ный по­иск: П. с. ре­ша­ет, ка­кие до­ку­мен­ты удов­ле­тво­ря­ют за­про­су наи­луч­шим об­ра­зом, и сор­ти­ру­ет спи­сок ре­зуль­та­тов по сте­пе­ни их со­от­вет­ст­вия за­про­су. При­мер та­кой мо­де­ли – век­тор­ная мо­дель, в ко­то­рой ка­ж­дый до­ку­мент пред­став­ля­ет­ся в ви­де век­то­ра, от­ра­жаю­ще­го со­дер­жа­ние до­ку­мен­та. На­бор всех воз­мож­ных век­то­ров об­ра­зу­ет век­тор­ное про­стран­ст­во. Ти­пич­ным век­тор­ным пред­став­ле­ни­ем для тек­сто­во­го до­ку­мен­та яв­ля­ет­ся век­тор из ко­эф­фи­ци­ен­тов от­но­си­тель­ной важ­но­сти сло­ва из сло­ва­ря кол­лек­ции для дан­но­го до­ку­мен­та (вы­чис­ля­ет­ся на ос­но­ве взве­шен­ной час­то­ты сло­ва в до­ку­мен­те). Ис­поль­зо­ва­ние та­ких мо­де­лей тре­бу­ет зна­чи­тель­но бо́ль­ших вы­чис­лит. ре­сур­сов по срав­не­нию с др. мо­де­ля­ми, од­на­ко они обес­пе­чи­ва­ют су­ще­ст­вен­но бо­лее вы­со­кое ка­че­ст­во по­ис­ка. При­мер век­тор­но­го пред­став­ле­ния изо­бра­же­ний – век­тор час­тот цве­тов отд. пик­се­лов. Мо­де­лью по­ис­ка с ран­жи­ро­ва­ни­ем яв­ля­ет­ся так­же ве­ро­ят­но­ст­ная мо­дель, ос­но­ван­ная на ис­поль­зо­ва­нии ма­те­ма­тич. ап­па­ра­та тео­рии ве­ро­ят­но­сти для оцен­ки ве­ро­ят­но­сти ре­ле­вант­но­сти до­ку­мен­та за­про­су поль­зо­ва­те­ля. На прак­ти­ке час­то ис­поль­зу­ют­ся ком­би­на­ции разл. мо­де­лей по­ис­ка.

Осн. на­прав­ле­ния раз­ви­тия П. с. вклю­ча­ют по­иск по раз­но­род­ным ис­точ­ни­кам ин­фор­ма­ции (ком­би­ни­ров. по­иск по тек­сто­вым, струк­ту­ри­ро­ван­ным и муль­ти­ме­дий­ным дан­ным), фак­то­гра­фич. по­иск, раз­ра­бот­ку во­прос­но-от­вет­ных сис­тем и др.

Лит.: Чер­няк Л. Ста­ти­сти­че­ская ма­ши­на Э. Гольд­бер­га // От­кры­тые сис­те­мы. 2004. № 3; Vannevar B. As we may think (http://www.ps.uni-saarland.de/~duchier/pub/vbush/vbush-all.shtml); Ко­лис­ни­чен­ко Д. Н. По­ис­ко­вые сис­те­мы и про­дви­же­ние сай­тов в Ин­тер­не­те. М., 2007; Ман­нинг К. Д., Раг­ха­ван П., Шют­це Х. Вве­де­ние в ин­фор­ма­ци­он­ный по­иск. М., 2011.

Вернуться к началу