Elenco Pagine

martedì 10 febbraio 2015

Memex Ricerca avanzata

Memex (Memori Index), è un progetto proposto il 04/02/2014 dal DARPA (Defense Advanced Research Projects Agency), con l'obiettivo di creare un software in grado di colmare le carenze presenti nei principali e più comunemente usati, motori di ricerca commerciali.






Lo scopo principale di Memex è quello di realizzare un processo in grado di implementare ricerche "domain-specific" e di conseguenza di riuscire a raggiungere e coprire il cosiddetto "deep-web", ossia il lato del web rimasto nascosto e non indicizzato. Le cause della non indicizzazione di questa parte del web deriva sostanzialmente dalla struttura non standard dei documenti e\o dalla scarsa visibilità degli stessi che quindi non vengono indicizzati dai comuni motori di ricerca.

Lo scopo del programma prevede la copertura di tre aree principali:


  • TA1: Indicizzazione Domain-Specific;
  • TA2: Ricerca Domain-Specific;
  • TA3: Applicazioni.

TA1 Indicizzazione Domain-Specific

Quest'area include tutte le attività svolte con l'obiettivo di creare un infrastruttura di ricerca domain-specific. Questo significa realizzare un'architettura di web crawling scalabile volta alla ricerca e alla catalogazione semi-automatizzata delle informazioni presenti in rete. Quest'area si propone di indirizzare la ricerca ai lati del web che generalmente rimangono non catalogati dai motori di ricerca commerciali. La fase di estrazione prevede altresì la normalizzazione dei dati e la loro classificazione (e.g., pdf, flash, video, immagini).


TA2 Ricerca Domain-Specific

Quest'area prevede la creazione di un'interfaccia domain-specific per l'accesso ai contenuti web. 
Ciò comprende tutte le metriche necessarie per eseguire un'analisi accurata dei dati estratti come per esempio: 
  • Links per attributi condivisi;
  • Task rilevanti derivati;
  • Posizioni chiave;
E tutte quelle informazioni derivate, che mostrano una relazione tra i documenti estratti.

TA1 e TA2 cooperano tra loro utilizzando un linguaggio specifico utilizzato per dirigere gli algoritmi di estrazione e per stabilire le caratteristiche dell'interfaccia.


TA3 Applicazioni

Quest'area supporta le aree TA1 e TA2 applicando la tecnologia sviluppata. Tutto questo comprende:
  • Applicazioni di sistema;
  • Concetti a livello di sistema di gestione e sviluppo distribuzione;
  • Casi d'uso;
  • Analisi dei requisiti;
  • Documentazione;
  • Disegno di interfaccia;
  • Feedback.
Il concetto di dominio, offre il giusto compromesso tra profondità, ampiezza e risorse necessarie richieste durante il processo di indicizzazione.

Questo software sarà principalmente utilizzato dal dipartimento della difesa con lo scopo di individuare casi di utilizzo non lecito del web e di favorire l'applicazione della cosiddetta "Intelligence investigation".
Niente vieta un suo futuro utilizzo in campo commerciale.


Nessun commento:

Posta un commento