Info v kope sena

.časopis +

8. júl 2007

Internet neuveriteľne zväčšil množstvo dostupných informácií. Nijako však nezväčšil čas, ktorý je potrebný na ich prezretie, triedenie a

Internet neuveriteľne zväčšil množstvo dostupných informácií. Nijako však nezväčšil čas, ktorý je potrebný na ich prezretie, triedenie a prípadné absorbovanie. V skutočnosti dokážeme prezrieť iba nepatrný zlomok toho, čo je nám prístupné.

Dá sa zariadiť, aby bol ten zlomok pre nás zaujímavý? Alebo sme odsúdení na prehrabávanie sa v záplave nezaujímavých blbostí?

Neustále narastajúce množstvo prístupných informácií stavia pred nás niekoľko vážnych problémov. Prvým sú akési logistické problémy, napríklad ako sa pri ukladaní informácií vyrovnať s nedostatkom miesta, alebo ako sa pri posielaní informácií vyrovnať s obmedzenou rýchlosťou prenosu. S riešením takýchto problémov úzko súvisí takzvaná kompresia informácie, ktorej sme sa venovali v predchádzajúcej sérii článkov venovaných vede.
Celkom inou, ale v nejakom zmysle súvisiacou otázkou je problém vyhľadávania pre nás dôležitej a zaujímavej informácie. Všetci vieme, že v tomto sú neoceniteľným pomocníkom internetové vyhľadávače. Zadáme pár kľúčových slov a dostaneme zoznam stránok, na ktorých sa tieto slová vyskytujú. Ako to tie vyhľadávače robia? Opýtali sme sa Františka Gyárfáša a Rastislava Královiča.

S Františkom Gyárfášom o filozofii vyhľadávačov

.ak je pravda, že „všetko je na webe”, potom je na ňom aj strašne veľa balastu. Ako z toho dokážeme vydolovať zaujímavé informácie?

Na webe je naozaj veľa nezaujímavého. To súvisí s dvomi vecami. Prvou je, že na web dávame skoro všetko, čo vyprodukujeme. Všetky nové informácie, ktoré sú hodné publikovania alebo aspoň zapísania, idú automaticky cez web, od esemesiek cez maily, rodinné fotky, blogy, až po vysoko profesionálne texty. Druhou príčinou je, že množstvo informácií, ktoré vyprodukujeme, je nezaujímavých. Máme teda bezbrehý oceán informácií, z ktorých väčšina je pre nás úplne zbytočná. A vy sa pýtate, ako sa v tomto oceáne neutopiť.

.áno, ako sa to dá?
Ľudské poznanie bolo až doteraz vždy striktne hierarchizované. Newtonove zákony a Beethovenove symfónie boli v tejto hierarchii umiestnené kdesi podstatne vyššie ako rozhovor ľudí v kaviarni. Toto v internete neplatí. Internet je z hľadiska počiatočnej dôležitosti, s ktorou doň informácie vstupujú, úplne demokratický. Hľadať informácie v niečom takom je horšie ako hľadať ihlu v kope sena, lebo takú obrovskú kopu sena sme ešte nikdy nemali.
Môžeme sa samozrejme pokúsiť vniesť do toho nejakú hierarchiu. Čiže nájsť si odborníkov, ktorí nám povedia, čo je dôležité a čo nie. Keď firma Yahoo začínala, najali si expertov, ktorí sa snažili vytvoriť vo svete webovských stránok nejakú štruktúru. Vtedy bolo stránok oveľa menej, ale aj tak sa to nepodarilo zvládnuť. Oveľa životaschopnejším sa ukázal byť iný prístup.

.aký?
Išlo o prístup, ktorý vychádzal z akejsi samoorganizácie internetu. Bol založený na myšlienke, že systém samotný možno do seba vnáša akúsi hierarchiu. Základná idea bola takáto: v rámci internetu sa mnohé informácie obracajú na iné informácie, mnohé webovské stránky obsahujú odkazy na iné webovské stránky. Každý takýto odkaz znamená, že nejakí ľudia považovali tú informáciu alebo stránku za pripojeniahodnú a na základe toho môže vzniknúť prirodzená hierarchia. Stránka, na ktorú ukazuje veľa iných stránok, sa v takejto hierarchii dostane vysoko. Na tomto princípe pracuje napríklad Google. Tam išli ešte o krok ďalej a povedali si, že ak nejaká vysokopostavená stránka ukazuje na nejakú inú stránku, tak veľkú časť slávy tej prvej zdedí aj tá druhá.

.ako Google vyhľadáva informácie?
On vlastne robí dve paralelné úlohy. Jedna z nich sa týka obsahu stránok Dobrý vyhľadávač musí mať zmapované všetky stránky, pričom zmapovanie znamená napríklad uchovanie informácie o tom, aké slová sa nachádzajú na jednotlivých stránkach. Ak potom niekto zadá nejaké kľúčové slovo, vyhľadávač vie, na ktorých stránkach sa toto slovo vyskytuje. Lenže takých stránok bývajú stotisíce až milióny. Základný problém potom je, ako zariadiť, aby sa z tých stotisíc stránok na prvých dvadsiatich miestach ocitli tie skutočne relevantné. Toto je druhá úloha, ktorú musí vyhľadávač vyriešiť. Google pri jej riešení použil vyššie spomínaný mechanizmus prirodzenej hierarchie internetu. Tento mechanizmus je k informáciám na stránkach v podstate slepý. Nepýta sa na obsah stránok, ale len na to, čo považujú iné stránky za dôležité.

.ako sa na tomto celom prejavuje skutočnosť, že obsah internetu sa neustále mení?
Do internetu vstupuje z roka na rok, zo dňa na deň čoraz viac vecí. Aj pokiaľ ide o počet stránok, aj pokiaľ ide o množstvo dát na stránkach. Paralelne s tým neustále beží veľmi intenzívny a rýchly proces mapovania týchto zmien vyhľadávačmi. Všetky vyhľadávače sa snažia, z najrôznejších dôvodov, zmapovať informácie, ktoré na internete sú. Je známe, že v tom neustále zaostávajú, jednak preto, že nemôžu predbehnúť tie zmeny, ale aj preto, že veľké časti internetu sú pre vyhľadávače jednoducho nedostupné. Odhaduje sa, že viac ako polovicu internetu nikdy žiadny vyhľadávač nenavštívi. Napríklad preto, lebo na tieto stránky nijaká iná stránka neodkazuje, ale aj z mnohých iných dôvodov. Vyhľadávače teda mapujú len pre ne viditeľnú časť a tento proces bude bežať možno navždy. Informácie budú pribúdať, vyhľadávače sa ich budú snažiť zmapovať a bude sa im to dariť len do istej miery.

.to znie trochu pesimisticky.
To je vec pohľadu. Dá sa na to pozerať aj tak, že zrejme už oddávna bolo ľudským snom vytvoriť zo všetkých kníh sveta jednu knihu. Encyklopedisti a mnohí iní vyvinuli gigantické úsilie, aby aspoň čiastočne naplnili tento sen. Doteraz bol prakticky nerealizovateľný, ale na internete je svojím spôsobom už realizovaný.

S Rastislavom Královičom o technológii vyhľadávačov

.ak je pravda, že „všetko je na webe“, potom je na ňom aj strašne veľa balastu. Ako z toho dokážeme vydolovať zaujímavé informácie?
V knihe Kazateľ sa píše, že nič nové nie je pod slnkom a všetko tu už bolo. Dnes sa k tomu zvykne dodávať, že všetko tu už bolo a dnes je to na internete, len to treba vedieť nájsť. Na webe je momentálne viac ako desať miliárd stránok, a to len v tej časti webu, ktorá je prístupná. Zvyšok je takzvaný „deep web“, ktorý obsahuje stránky, ku ktorým sa z rôznych dôvodov nedá „doklikať“. Nie je samozrejme v ľudských silách prezerať miliardy stránok, takže ich za nás prezerajú počítačové programy, takzvané vyhľadávače.

.ako taký vyhľadávač vyzerá?
Napríklad Google má výpočtové centrá, v ktorých sú tisícky serverov na ploche veľkosti futbalového štadióna. Nové centrá stavajú v blízkosti elektrární, aby nebrali elektrinu z verejnej siete, pretože by ju preťažovali.

.na čo slúži tak veľa počítačov?
Vyhľadávač má dve časti. Jedna je taký automatický surfer, ktorý veľmi rýchlo prechádza po internete, kliká na všetko, na čo sa dá, no a čo vidí, si zapisuje práve do tých serverov. Ak potom vyhľadávaču zadáme nejaké kľúčové slová, vie rýchlo povedať, na ktorých stránkach sa s týmito slovami stretol. Otázka je, ktoré z týchto stránok sú najdôležitejšie. Na to slúži druhá časť vyhľadávača a dnes je najúspešnejšia metóda, ktorú vymysleli práve zakladatelia Googlu.

.to je tá myšlienka, že dôležitá stránka je taká, na ktorú ukazuje veľa iných stránok?
Áno. V podstate ide o to, že si predstavíme celý internet ako „orientovaný graf“, čiže veľa bodov, z ktorých niektoré sú pospájané šípkami. Body predstavujú webové stránky a šípka predstavuje linku odkazujúcu z jednej stránky na druhú. Základná myšlienka je taká, ako bolo spomenuté, ale berie sa do úvahy nielen to, koľko stránok ukazuje na danú stránku, ale aj to, aké sú dôležité. Ako však vieme, aké sú dôležité, keď to práve len ideme počítať? Základom je tu algoritmus, ktorý umožňuje vyštartovať z nejakého rozdelenia dôležitostí jednotlivých stránok, z tohto rozdelenia vypočítať spoľahlivejšie rozdelenie, z neho ešte spoľahlivejšie a tak ďalej. Samozrejme, okrem takto vypočítanej dôležitosti stránky sa pri vyhľadávaní berie do úvahy veľa ďalších parametrov, ale toto je základná idea.

.je tento algoritmus verejne známy?
Do istej miery. Základné veci boli publikované, detaily súčasne používaného algoritmu nie sú známe. Google totiž musí čeliť tomu, že ľudia sa snažia, aby sa ich stránky ocitli vo výslednom poradí čo najvyššie. Takže keď poznajú algoritmus, podľa ktorého sa dôležitosť počíta, môžu sa pokúsiť – a naozaj to zvyknú robiť – umelo zvýšiť dôležitosť svojej stránky. Ak by to bolo celé založené len na počte stránok, ktoré na danú stránku ukazujú, tak si človek vyrobí milión stránok, ktoré ukazujú na tú jeho stránku. Tých milión stránok bude generovať nejakým programom, ktorý mu ich navyrába, koľko chce. Ak vyhľadávač používa rafinovanejší algoritmus, tak treba vyrobiť nejakú rafinovanejšiu štruktúru, ale v podstate ide o to isté: umelo pretlačiť jednu stránku čo najvyššie. Samozrejme, v Googli sa to snažia detekovať, napríklad na základe toho, že umelo generované stránky mávajú inú štruktúru. Toto detekovanie sa stáva súčasťou algoritmu a nie je dobré, aby bolo verejné, lebo by sa tomu falošní hráči prispôsobili. Celé je to taký veľmi rafinovaný a zrejme nekonečný boj.

.dá sa vyhľadávanie ešte nejako vylepšiť?
Isteže. Dnešné vyhľadávače vôbec nerozumejú obsahu stránok, s ktorými pracujú. Bolo by však veľmi dobré, keby aspoň v obmedzenom zmysle vedeli „porozumenie“ simulovať. Ak by napríklad vyhľadávač vedel zistiť, že slovo tráva sa vyskytuje na dvoch typoch celkom odlišných stránok, mohol by sa vás pri zadaní tohto kľúčového slova opýtať, či chcete stránky o trávnikoch alebo o marihuane. Ako by to mohol vyhľadávač zistiť? Robia sa všelijaké pokusy. Napríklad sa skúma štruktúra jednotlivých stránok. Nie obsah, ale štruktúra. Texty, v ktorých sa hovorí o trávniku budú mať možno inú štruktúru ako texty, v ktorých sa hovorí o marihuane. Vyhľadávač nemusí vôbec rozumieť textu, a pritom môže byť schopný rozlíšiť tieto dva typy stránok.

.čiže môžeme očakávať ešte niečo podstatne lepšie, ako je dnešný Google?
To nikto nevie. Ale je fakt, že Google je založený na relatívne jednoduchej myšlienke, a pritom znamenal obrovský skok. Tieto ďalšie idey vyzerajú tiež jednoducho, ale možno sa niektorú z nich podarí dotiahnuť do praktickej realizácie, ktorá povedie k porovnateľnému skoku.

.martin Mojžiš

Ak ste našli chybu, napíšte na web@tyzden.sk.

.časopis +

.diskusia | Zobraziť

.posledné

.neprehliadnite

Zdá sa, že máte zablokovanú reklamu

Ďakujeme, že pozeráte .pod lampou. Chceli by ste na ňu prispieť?

Info v kope sena