http://www.aulf.org/blog/index.htm Association des Universitaires Libanais en France

lundi 7 juillet 2008

Thèse avec financement au LIP6: archivage du WEB, indexation temporelle

> Thèse avec financement au LIP6 (Laboratoire d'Informatique de Paris 6)
>
> Sujet de thèse
> ==============
> Archivage du Web : rafraichissement et interrogation de documents Web
> archivés.
>
> Directeur de thèse :
> ==================
> Stéphane Gançarski (équipe "Bases de données)
>
> Stephane.Gancarski@lip6.fr
> tél : 01 44 27 87 95
>
> Durée de la thèse :
> =================
> Le financement est de 3 ans et démarrera au plus tôt (si possible
> septembre 2008). Montant a négocier, mais au minimum 1400 euros mensuels.
>
> Contexte :
> =========
>
> Cette thèse se fera dans le cadre et avec le financement du projet
> CARTEC, dont les
> partenaires sont le LIP6, l'INA (Institut National de l'Audiovisuel) et
> la société Antidot.
> Elle se déroulera dans les locaux du LIP6, 104 avenue du Pdt. Kennedy,
> Paris 16e.
>
> Objectifs :
> =========
>
> Plusieurs organismes tels l'INA ou la BNF, gèrent de larges corpus de
> sites WEB. Lorsqu'un site est
> répertorié, son contenu est capté régulièrement à des fins d'archivage
> sur les serveurs de
> l'organisme. Ce contenu étant largement évolutif, la captation doit être
> suffisament fréquente
> (rafraîchissement) pour maintenir une image fidèle du contenu du corpus
> sur le site d'archivage, mais
> l'augmentation de la fréquence implique une plus grande consommation de
> ressources, notamment la bande passante.
> Il s'agit donc, en fonction de précédentes captations réalisées sur les
> sources de
> données, de déterminer la fréquence et aussi l'impact des changements
> effectués pour trouver le meilleur
> moment pour demander le rafraîchissement d'un document. Les ressources
> étant limitées, comment garantir que la demande de rafraîchissement
> envoyée sur Internet est bien la <<plus
> urgente>> ? Il s'agit pour cela de définir et mesurer l'urgence de
> rafraîchissement d'un document, et de
> sélectionner systématiquement la demande la plus urgente pour envoi. Ce
> dernier point n'est pas
> trivial car les documents n'évoluent pas tous de la même façon et, le
> temps passant, les urgences relatives peuvent s'inverser.
> L'autre axe de la thèse concerne l'exploitation de l'archive : comment
> indexer et interroger l'archive, en tenant compte de l'aspect temporel
> de l'archivage et la possibilité de versions manquantes de certains
> documents ?
>
> Profil du candidat :
> =============
>
> Le candidat sera diplômé d'un master ou équivalent et aura de bonnes
> compétences en bases de données (indexation, langage de requêtes),
> traitement et analyse de documents. Des connaissances en apprentissage
> seront un plus.
>
>
> Contact et candidature :
> ================
> Envoyer CV, lettre de motivation, notes de M2 et coordonnées du
> responsable de stage M2 à
>
> Stephane.Gancarski@lip6.fr
>
>
>
> --
> Stephane Gancarski Stephane.Gancarski@lip6.fr
> LIP6 Case 169, Universite P&M Curie
> 104, av. du Pdt Kennedy 75016 Paris, FRANCE http://www-poleia.lip6.fr/

> ~gancarsk tel: +33 1 44 27 87 95 - fax: +33 1 44 27 70 00
>
>
>
>
>

0 commentaires:

Enregistrer un commentaire



<$I18N$LinksToThisPost>:

Créer un lien

<< Accueil