AltaVista - http://www.altavista.com/
Historique
Lancé par la société Digital Equipment en le 15 décembre 1995, société est rachetée par Compaq en 1998. En 1999 il est devenu la propriété de la société américaine CMGI.
Le nom d'AltaVista vient d'ailleurs d'une coïncidence. L'équipe génitrice du moteur est géographiquement
située à Palo Alto, en Californie. Un jour, le mot Palo Alto se trouva mal effacé sur un tableau blanc, laissant
vaguement apparaître le deuxième terme (Alto). Le mot Vista se retrouva presque par hasard à côté de ce
dernier, formant ainsi le mot "Alto Vista". Quelqu'un de l'équipe, voyant cela, s'écria : "eh, pourquoi pas Alto
Vista !". Au prix d'une légère mutation de Alto en Alta, le nom du moteur était né. Il pourrait se traduire par :
"vu d'en haut"... (c'est d'ailleurs de là que vient l'ancien logo représentant une montagne).
Pour Digital, c'était une occasion rêvée d'effectuer une entrée médiatique en force sur l'Internet, qui comptait
depuis quelque temps parmi ses priorités marketing et stratégiques. C'est, en tout cas, une illustration parfaite
du fait qu'on peut rattraper un retard important sur l'Internet - AltaVista est loin d'avoir été le premier moteur
de recherche par mots clés à apparaître sur le Web - si le produit est bon, et si l'équipe est réactive et sait prendre les bonnes décisions au bon moment.
Le premier jour de lancement, 300 000 utilisateurs étaient déjà au rendez-vous. Après trois semaines de
fonctionnement, le site enregistrait déjà deux millions de requêtes par jour. En mai 1996, le service AltaVista
indexait 30 millions de pages Web à travers le monde et recevait 12 millions de requêtes quotidiennes. En août
1997, il en était à 31 millions de requêtes par jour, en semaine. Le 14 octobre 1997, AltaVista annonçait un
index de 100 millions de pages Web et la gestion de 20 millions de requêtes chaque jour avant de faire passer son index à 140 millions de pages en 1998.
L'interface utilisateur du service a été entièrement " relookée" fin juillet 1997, date à laquelle des systèmes
d'aide comme la fonction Refine (anciennement appelée LiveTopics), hélas disparue depuis. et la possibilité de
configurer ses préférences d'interface ont été rajoutés. Au début de l'été 1997, d'autres fonctionnalités comme la reconnaissance de requêtes écrites dans 25 langues différentes ont été intégrées.
A l'automne 1998, de nouvelles fonctionnalités ont été ajoutées, comme l'accord avec AskJeeves pour affiner
les requêtes en posant de nouvelles questions, la possibilité de rechercher des images, des sons et des vidéos (Image, Audio & Video Search) ou le filtre familial, en plus d'un nouveau lifting du look général.
Le service AltaVista est installé sur différentes machines travaillant sous Unix. Le serveur Web affichant
l'interface utilisateur est hébergé sur trois stations Digital alpha 500/333s. Chaque station est dotée de 256 Mo
de Ram et d'un disque dur de 6 Go. Les systèmes de recherche de l'information dans les pages Web mis en place fonctionnent sur sept serveurs Alpha 8400 5/300 munis de dix processeurs, 6 Go de Ram et d'un disque
dur de 210 Go. Chaque serveur contient une copie complète de l'index du Web, d'une taille de 60 Go. Le temps de réponse sur une requête est d'environ une demi-seconde. Le robot Scooter s'exécute sur une
machine AlphaServer 4100 5/300 disposant d'1,5 Go de Ram et d'un disque dur de 30 Go. Le système
chargé d'indexer les pages Web "récupérées" par Scooter s'appelle Vista et fonctionne sur un serveur Alpha
4100 5/300 avec 2 processeurs, 2 Go de Ram et un disque de 180 Go. Le dispositif technique du système AltaVista Search représente, d'après Digital, une puissance équivalente à 375 PC haut de gamme mis en
réseau. La connexion à l'Internet s'établit à l'aide d'une ligne à 100 Mbps (chiffres : fin 98). Le robot Scooter
indexait 10 millions de pages par jour en 1998. Il scrute également de façon continue 2 000 sites majeurs (parmi les plus populaires) afin de fournir un contenu remis à jour le plus souvent possible.
Aujourd'hui la technologie AltaVista se décline en une multitude de produits, permettant de rechercher de
l'information sur un intranet ou sur le disque dur d'une machine isolée. D'autres produits (notamment dans le
domaine de la sécurité) ont également vu le jour. L'activité AltaVista fût ensuite filialisée par Digital. Le service
de recherche par mots clés a également été disséminé sur plusieurs serveurs miroirs en Asie, Australie,
Amérique Latine, Europe du Nord (en collaboration avec Telia, puis finalement abandonné) et Europe du Sud,
sans oublier le site originel situé à Palo Alto, en Californie. Tous fournissent le même service, seule l'interface,
et notamment la langue utilisée, change. Mais des versions européennes, notamment une par pays important, sont attendues.
AltaVista permet deux types de recherche, selon deux formulaires différents : une recherche simple (Simple Search), offerte par défaut sur la page d'accueil, et une recherche avancée (Advanced Search), pour les utilisateurs confirmés du service.
1999 a été une année importante pour AltaVista. Tout d'abord racheté par CMGI, il a entièrement refondu
son look le 25 octobre de cette année et augmenté son index à 275, puis 350 millions, jusqu'à 550 millions de pages en l'an 2001. Objectif visé : le milliard de pages, chiffre atteint en 2002.
Syntaxe
Alta Vista offre deux modes de recherche pour interroger les serveurs web :
- recherche simple : Pas d'opérateurs booléens, la question est une suite de mots simples ou composés (phrase). L'opérateur implicite est le OU.
On dispose des signes + pour imposer un terme, - pour l'exclure, des guillemets pour entourer un mot composé. Le système est sensible aux minuscules et majuscules. Il ignore les mots trop fréquents. On
dispose d'une limite par langue des documents. Les résultats sont triés par pertinence.
La troncature (limitée à 5 caractères) utilise l'étoile. Pour être utilisée à l'intérieur d'un terme, elle doit être précédée d'au moins trois lettres.
|
Pas de différences : toutes les occurrences sont recherchées. Exemple : ibm trouve ibm, IBM ou Ibm. Ibm trouve ibm, IBM ou Ibm. IBM trouve ibm, IBM ou Ibm.
|
|
|
Requête saisie sans lettres accentuées : toutes les occurrences sont recherchées. Exemple : electricite trouve electricite, électricité ou electricité.
Requête saisie avec des lettres accentuées : l'occurrence exacte est recherchée. Exemple : électricité trouve électricité mais pas electricite ou electricité.
|
|
|
Pas d'importance : paris dakar donne un résultat identique à dakar paris
|
|
|
Opérateur OR Exemple : moteur OR recherche recherche les pages qui contiennent moteur OU recherche.
|
|
|
Opérateur par défaut. Ou Signe + Exemple : +moteur +recherche recherche les pages qui contiennent à la fois moteur ET recherche.
|
|
|
- Exemple : moteur -automobile recherche les pages qui contiennent moteur mais qui ne contiennent pas automobile.
|
|
|
Guillemets. Exemple : "moteur de recherche" recherche cette expression, les trois mots les uns à côté des autres et dans cet ordre.
|
|
|
* Exemple : mot* recherchera moteur, moteurs, motard, motards, etc. Par défaut, mot ne trouve pas mots, moteur, motard, etc.
|
|
|
Choix dans le menu déroulant. 25 langues sont disponibles, depuis le chinois jusqu'au suédois.
|
|
Recherche sur le titre des documents
|
|
title : Exemple : title:copernic recherchera les documents qui contiennent le mot copernic dans leur titre.
|
|
|
domain: Exemple : +moteur +domain:edu recherchera les documents qui contiennent le mot moteur et qui sont disponibles sur une machine dont le nom se termine en .edu
(www.umich.edu...).
|
|
Recherche sur le nom du serveur
|
|
host: Exemple : +moteur +host:honda recherchera les documents qui contiennent le mot moteur et qui sont disponibles sur une machine dont le nom contient le mot honda
(www.honda.com, www.honda.jp...).
|
|
Recherche sur l'intitulé d'une URL
|
|
url: Exemple : +moteur +url:honda recherchera les documents qui contiennent le mot moteur et dont l'adresse contient le mot honda (www.geocities.com/perso/honda.html,
www.honda.jp...).
|
|
Recherche de sites similaires
|
|
like: Exemple : like:http://www.abondance.com/ recherchera les sites similaires à Abondance.
|
|
Recherche sur le nom d'une applet Java
|
|
applet: Exemple : applet:javaclass10 recherchera les documents qui contiennent le nom de la classe javaclass10 dans les liens lançant une applet Java.
|
|
Recherche sur le nom des image
|
|
image: Exemple : image:clinton recherchera les documents qui contiennent une image dont le nom contient le mot clinton (clinton.gif, clinton.jpg).
|
|
Recherche sur les adresses des liens
|
|
link: Exemple : link:abondance.com trouvera les documents qui contiennent un lien vers une page du site dont l'adresse contient l'expression abondance.com (dans ce cas
www.abondance.com).
|
|
Recherche sur les intitulés des liens hypertexte
|
|
anchor: Exemple : anchor:abondance trouvera les documents qui contiennent un lien dont l'intitulé (donc le texte en couleur et souligné) contient le mot abondance.
|
|
Recherche sur le texte visible de la page
|
|
text: Exemple : text:moteur trouvera les documents qui contiennent le mot moteur dans le texte visible de la page (et plus dans les adresses, les noms d'image, etc.).
|
|
Syntaxe
|
Fonction
|
anchor:text
|
Trouve les pages contenant le terme dans un lien hypertexte
|
applet:class
|
Trouve les pages contenant un applet Java
|
domain:domainname
|
Trouve les pages contenant le domaine spécifié
|
host:name
|
Trouve les pages d'un ordinateur
|
image:filename
|
Trouve les pages contenant des images dont le nom de fichier contient le terme
|
link:URLtext
|
Trouve les pages pointant vers l'URL spécifiée
|
text:text
|
Trouve les pages contenant le texte spécifié n'importe où
|
title:text
|
Trouve les pages contenant le texte dans le titre de page
|
url:text
|
Trouve les pages contenant ayant le terme dans les URL
|
|
- recherche avancée : il faut obligatoirement utiliser les opérateurs AND, OR, NOT ou NEAR en
majuscule pour combiner plusieurs termes. Les parenthèses sont utilisées lorsqu'il y a plusieurs opérateurs.
Des guillemets permettent d'encadrer un mot composé.
Le logiciel tient compte de la casse des caractères. Il est possible de rechercher tous les documents ayant un lien vers son serveur web.
Il tient compte aussi de la structure des documents en s'appuyant sur les balises HTML : on peut ainsi limiter la recherche aux mots du titre, aux URL, aux liens contenus dans un document. Le tableau
ci-dessous donne la liste des fonctions :
|
AND (ou &) Exemple : moteur AND recherche recherche les pages qui contiennent à la fois moteur ET recherche.
|
|
|
OR (ou |) Exemple : moteur OR recherche trouve les pages qui contiennent soit moteur, soit recherche, soit les deux.
|
|
|
AND NOT (ou !) Exemple : moteur AND NOT automobile recherche les pages qui contiennent moteur mais qui ne contiennent pas automobile.
|
|
|
NEAR (ou ~) Exemple : moteur NEAR automobile recherche les pages qui contiennent moteur et automobile proches l'un de l'autre (contenus dans une "fenêtre"
de 10 mots au maximum).
|
|
|
Permettent de coupler des requêtes. Exemple : (moteur AND automobile) AND NOT (moteur AND recherche).
|
|
Recherche sur la date des documents
|
|
Les champs By date range: et To:
permettent d'indiquer une fourchette de dates pour la recherche. Celle-ci s'effectue sur la date de dernière modification des documents.
|
|
|
Enfin la limite par date d'entrée des documents dans la base de données est présente. AltaVista vérifie l'orthographe des termes de recherche pour l'anglais, le français, l'espagnol et l'italien.
Un choix de 25 langues permet de limiter les résultats d'une recherche aux seules pages publiées dans la langue spécifiée.
Utilisez de préférence le formulaire de recherche avancée.
AltaVista propose des résultats d'origine variée :
- de sa propre base de données : les documents sont triés par pertinence en fonction des termes du champ ranking.
Le format d'affichage donne un titre ( lien hypertexte vers le site), l'URL, une douzaine de mots du texte, la taille du fichier, la langue du document, la date d'entrée dans la base de données d'Alta Vista.
- de AskJeeves : introduit par la phrase "AltaVista knows the answers of these questions"
Pour certaines questions, AltaVista renvoie des résultats issus de l'outil Ask Jeeves. Ce dernier fournit des réponses précises à 7 000 000 de questions préparées par 30 professionnels.
- de l'Open directory au bas des résultats
AltaVista offre des services supplémentaires :
- People Finder renvoie au service Switchboard
- Web directory renvoie à l'annuaire LookSmart
- Health pointe vers InteliHealth, un service d'informations médicales de l'Université Johns Hopkins
- Translate : Ce service est fourni par la société Systran. Il suffit de donner du texte (texte ASCII) ou
un URL. La traduction opère sur 2000 octets au maximum. Dix couples de langues sont disponibles.
Recherche de documents multimédia
Fin 98 AltaVista a lancé Photo Finder, un outil de recherche d'images. C'est le bouton Images qui donne accès maintenant à cette base.
La base de donnees est composée de plus de 30 millions de fichiers (images, audio et video). On peut citer dans les formats reconnus : AVI, RealAudio, RealVideo, Mpeg, Mp3, QuickTime, etc... En cliquant sur About this picture on obtient des détails sur l'image : titre, taille.
La syntaxe est la même que pour la recherche dans le web.
Les résultats sont présentés sous forme de "miniatures".
En cliquant sur Similar on lance une recherche d'images possédant des caratéristiques proches.
Family Filter filtre les images de mauvais goût.
Autres outils
D'autres outils viennent assister la recherche en controlant certains paramètres. En effet, la langue des résultats anglais et français par défaut, peut être élargie à d'autres langues même si elle
n'utilisent pas l'alphabet occidental (hébreu, japonais, grec, russe et chinois). De plus un module de traduction (Babel Fish Translation) permet de traduire des requêtes dans huit langues différentes à partir de l'anglais (et
parfois réciproquement). En saisissant l'adresse d'un site, ce module propose une traduction automatique de la page spécifiée. Le formulaire de Recherche avancée (Advanced search) permet de paramétrer la syntaxe d'interrogation, de
pratiquer une interrogation par opérateurs booléens, d'interroger par date, par type de fichiers, par nom de
domaine particulier , par adresse d'un site, ou de désactiver le regroupement des réponses provenant d'un même site.
|