Nu vom exagera dacă spunem că nu numai pentru căutarea pe desktop, ci și pentru orice altceva, principala dilemă este dacă se folosește aranjamentul ierarhic al folderelor, sub-folderelor și fișierelor sau al etichetării distribuite. Și în timp ce în site-uri web și când lucrați cu aplicații web, etichetele s-au dovedit deja mai ușor de utilizat și în mare parte stabilite, folderele și fișierele domină în continuare pe desktop.

lindeas

Care este avantajul etichetelor?

Când se utilizează aranjamente ierarhice, specificarea între două elemente de relații mai complexe decât cele ale tipurilor „părinte” și „fiică” este foarte complexă. Cel mai comun și cel mai cunoscut pentru noi este sistemul ierarhic unidimensional - ca cel al structurii de fișiere a aproape tuturor sistemelor desktop. Există un folder părinte și un element copil, care este fie o nouă ramură (folder), fie o frunză (fișier) în structura arbore unidimensională. Acesta este cazul cu folderele desktop și categoriile de site-uri. Un hack care corectează acest neajuns al ierarhiei arborelui este utilizarea legăturilor simbolice. Prin intermediul lor, un element există încă fizic doar într-un folder specific, dar poate fi vizibil și ca conținut în altele. Lucrul cu legături simbolice este o ușurare, dar nu rezolvă complet problema. Și este disponibil numai pentru unele sisteme de fișiere. Alte sisteme de fișiere răspândite nu au ieșire din ierarhia unidimensională a arborelui.

Etichetele, pe de altă parte, oferă mult mai multă libertate pentru a descrie elementul. Și în consecință - mai multe modalități mai rapide și mai rapide de a-l găsi atunci când căutați. Un articol poate avea un număr nelimitat de etichete, dar poate fi prezent doar într-un singur folder sau categorie. Etichetele rezolvă problema îngropării fișierelor împrăștiate în directoare cu tot mai puține nume vorbitoare și la niveluri din ce în ce mai îndepărtate. Pe scurt, etichetele și toate metadatele disponibile facilitează găsirea informațiilor și găsirea acestora mai rapidă.

Pe site-uri - da, dar pe masă ...

Da, toate acestea aplicate programelor desktop par puțin ciudate la prima vedere. Dar crearea de aplicații desktop în jurul metadatelor are implicații mult mai mari pentru utilizare decât crearea de site-uri etichetate. Etichetele nu sunt totul și sunt doar un exemplu limitat de metadate. Sunt ceva care este scris de mână și lipit de borcane de lyutenitsa, astfel încât să știm că este „lyutenitsa”. Dar când deschidem dulapul și căutăm un borcan cu lyutenitsa, dacă citim doar etichetele, va fi mai greu și mai lent și putem chiar să greșim. De exemplu, putem lua o carte al cărei titlu este „lutenitsa” și este inserată între borcane. Da, este posibil să fi pus mai multe etichete pe fiecare borcan în avans - „borcan”, „sticlă”, „fragil”, „mâncare”, „roșu”, „de la bunica” etc. Unele pot fi necesare, dar majoritatea repetă ceva care este inerent obiectului. De ce să pierdem timpul scriind „borcan” pe fiecare borcan, când este clar că este exact un borcan?

Metadatele sunt cele care descriu datele. La fel ca metafizica este ceea ce descrie lumea. „Meta” este ceva apropiat, lateral, alături, din care se poate trage concluzii despre celălalt în cauză. „Meta” este șablonul, abstractizarea, manualul de utilizare. Poate fără metadate, dar chiar și fără a le utiliza, acestea sunt prezente imanent. Borcanul este un borcan, din sticlă, transparent, fragil etc. chiar dacă nu-l etichetăm așa.

Căutarea semantică pe desktop este o căutare care utilizează toate metadatele disponibile pentru obiecte. Setați manual etichete, dar în cea mai mare parte găsiți automat descrieri generice și relații cu alte obiecte. Urmărește semnificația pentru a găsi ceea ce căutați.

Căutare text integral? De ce, având RDF?

Dacă continuăm metafora căutării borcanului cu lyutenitsa, căutarea în text complet este ca deschiderea fiecărui borcan și încercarea gustului până aflăm cine este cel cu lutenitsa. Căutarea semantică, pe de altă parte, este o imagine de ansamblu asupra graficului care descrie obiectele din cabinet și relațiile lor. Căutăm borcane de sticlă acolo, apoi cele din al doilea rând, care sunt de la bunica, apoi roșie, pentru că lyutenitsa are o astfel de culoare, apoi una dintre cele deschise în al doilea rând, pentru că ieri am mâncat lyutenitsa și vrem să mănânce cea deschisă stricată. În cele din urmă vedem două astfel de borcane și o luăm pe una cu eticheta „lutenitsa” în loc de cealaltă cu „ardei prăjiți”. Ordinea poate fi diferită, dar principiul este același - căutare metadate, filtrare și repetare până la găsire. Cealaltă căutare, non-semantica, poate fi, de asemenea, grăbită și făcută abstractă. Este aproape întotdeauna cazul, deoarece un index al conținutului găsit în interior este pregătit și actualizat pentru acesta. Dar în căutarea metadatelor, abstractizarea este mai completă, iar structurile descoperite sunt mai independente de obiectele specifice.

Căutarea în text complet ne ajută atunci când, de exemplu, ne amintim un citat dintr-un text și căutăm semnificația acestuia. Este adesea mai lent, indexarea este mai împovărătoare și practic nu este utilizată pe desktop de către utilizatorii finali. Nimeni nu indexează o căutare cu text integral în directorul dvs. de acasă cu mii de fișiere text în diferite formate, de exemplu. Nu că nu este posibil, este doar ineficient. Chiar dacă o faceți, aceste fișiere se schimbă - veți actualiza indexul de fiecare dată? Da, este încă posibil, dar aveți nevoie de o mașină teribil de puternică.

Și toate acestea se pot face cu căutarea semantică. Este ceea ce ne ajută atunci când ne amintim o anumită semnificație, o legătură între lucruri sau o anumită calitate a unui obiect, dar nu ne amintim un citat exact. Cu el putem completa sensul găsind toate semnificațiile care există și selectându-le pe cele relevante și apoi găsind și urmărind toate relațiile dintre obiectele găsite.

Acest lucru este uneori inutil sau enervant pe Internet, iar utilizarea categoriilor este uneori mai convenabilă decât căutarea după etichete. Dar în munca desktop, indexarea și căutarea metadatelor este cu siguranță direcția corectă pentru dezvoltare. Întregul folder de acasă poate fi indexat prin meta descrieri, etichete plasate manual și dependențe detectate automat. De exemplu, legătura dintre un fișier și un e-mail de la persoana către care ați trimis-o atașată la o scrisoare în urmă cu două luni nu poate fi găsită cu o căutare cu text integral. Dar este normal pentru motoarele de căutare de metadate. Și pentru că este indexată o cantitate mult mai mică de date, este posibil ca acest lucru să se întâmple în timp real, iar modificările aduse sistemului de fișiere din folderul de acasă să fie reflectate în baza de date aproape imediat. Chiar și majoritatea programelor au o setare de câte secunde trebuie să aștepte după o modificare a obiectelor, pentru a nu confunda căutarea cu fișierele temporare.

Toate datele colectate pot fi vizualizate cu grafice bazate pe RDF. Acesta este formatul XML cel mai des utilizat pe Internet pentru a afișa sitemap-uri automate. Există suficiente programe care funcționează cu RDF și pot vizualiza oricând relațiile dintre obiectele de căutare descrise de metadate. Ecranele programelor de căutare în sine pot afișa conexiunile semantice cu alte obiecte prin intermediul acestuia. De exemplu, nu găsiți obiectul exact pe care îl căutați, dar vedeți link-uri către obiecte apropiate semantic și astfel corectați conexiunea și, în cele din urmă, îl găsiți pe cel pe care îl căutați.

Ce programe?

Luarea în considerare a implementărilor individuale și compararea activității acestora este un subiect cu totul nou pentru articolele individuale. Să spunem aici doar adresele celor mai renumite programe de căutare semantice pentru desktop pentru GNU/Linux. Unele dintre ele sunt proiecte mai noi, altele sunt deja stabilite și sunt chiar instalate implicit în unele distribuții. Unii folosesc mai puține metadate, alții se bazează în totalitate pe ele.

Beagle este probabil cel mai faimos program. Este conceput pentru a fi independent de desktop, dar, deși acceptă KDE și are interfețe pentru KDE, cum ar fi Kerry, yaBi sau kBeagleBar, precum și interfața web Peagle, este încă mai frecvent în mediul GNOME.

Tracker este ceea ce mulți spun că va înlocui Beagle. Indexează metadatele și indexează conținutul unor tipuri de fișiere recunoscute. Ca și în cazul altor mașini de indexare, totul este personalizabil. Recunoaște expresii și forme de cuvinte, nu doar cuvinte de căutare ortografiate. De asemenea, poate crea miniaturi de documente pentru o orientare mai rapidă. Conform testelor, rulează mai repede decât Beagle și este realizat în conformitate cu cerințele proiectului FreeDesktop, ceea ce îl face compatibil cu orice mediu care urmează FreeDesktop.

Recoll se bazează pe mașina de indexare Xapian. Există un motor de căutare QT și mașina de indexare poate funcționa atât separat de motorul de căutare, cât și ca fir în interiorul acestuia, adică poate fi activă numai în timp ce fereastra motorului de căutare funcționează. La fel ca cele de mai sus, acceptă căutări complexe și o varietate de tipuri de fișiere. Poate simplifica formele de cuvinte. Formarea formularelor (stemming) se face de obicei în căutarea textului integral la indexare și apoi căutarea este ajustată la index. Cu Recoll, formularele sunt simplificate numai la căutare, iar indexul include toate formele cuvântului. Acest lucru permite mai multă flexibilitate în căutarea textului integral în documente. În detrimentul unui indice de volum ceva mai mare.

Strigi va introduce viitorul KDE 4 ca motor de căutare și indexare a metadatelor implicit și încorporat. Foarte rapid și optimizat pentru a lucra perfect cu alte programe. La fel ca multe altele, este portabil și, pe lângă GNU/Linux, Solaris și MacOS, se spune că funcționează în Windows. La fel ca celelalte, suportă detectarea fișierelor duplicate prin calcularea sumelor de control pentru fiecare fișier. Și, de asemenea, poate face totul în timp real și poate actualiza indexul atunci când fișierele se schimbă.

NEPOMUK este cel mai discutat proiect din ultima vreme. Acesta este pasul care va fi făcut dincolo de locul de muncă personal către o formă gestionată de rețea socială de metadate. Scopul este ceva numit „Social Semantic Desktop”, compus din două părți distincte și clar conectate - desktop și social. Astfel, fără a fi nevoie de ceva formal „social”, utilizatorii vor putea avea acces la cunoștințe generale, la conexiunile semantice pe care le fac alți utilizatori. Pe scurt, este ceva de genul Web2.0, portat pe aplicații desktop și dezvoltat la scară completă.

Cu siguranță ne așteaptă luni și ani interesanți. Windows Vista s-a spus că este ceva de genul acesta, dar în cele din urmă s-a dovedit că au făcut atât de multe compromisuri încât a rămas cu mult în urmă chiar și în cazul unor programe deja impuse precum Beagle sub GNU/Linux. Cel mai probabil, impulsul de la motoarele de căutare semantice de pe desktop va „debloca” o altă zonă interesantă - sisteme de fișiere și programe construite complet semantic care utilizează metadatele direct, fără a le transforma de fiecare dată în „folder-director”.