-------- Message original --------
Sujet: [rilk-poste] Poste POSTDOC: Représentation probabiliste du signal
protéique pour lévaluation de similarité entre protéines
Date: Wed, 22 Oct 2008 11:33:06 +0200
De: ronan.fablet@telecom-bretagne.eu
Pour:
rilk-poste@rilk.comPOSTDOC: Représentation probabiliste du signal protéique pour
l'évaluation de similarité entre protéines
Post-Doc
DeadLine: 31/12/2008
ronan.fablet@telecom-bretagne.eu,dominique.pastor@telecom-bretagne.eu
http://perso.enst-bretagne.fr/ronanfablet/
Cette proposition participe au développement de l'activité de « Signaux
et Sciences de la vie : traitement, analyse, modélisation » du
département SC de Telecom Bretagne. (cf. sujet de stage proposé sur le
site du GdR).
Dans le cadre de ce postdoc, nous souhaitons aborder l'analyse de la
structure et des fonctions des protéines. Une protéine est une molécule
formée par une séquence linéaire d'acides aminés. Chaque acide aminé est
représenté par une des lettres de l'alphabet, hormis les lettres B, J,
O, U, X (par exemple : … EVAMILNLTY…). Physiquement, une protéine prend
une forme tridimensionnelle (cf. sur
http://www.biochem.szote.u-szeged.hu/astrojan
/protein2.htm). Cette structure 3D, ou tertiaire, est directement liée à
la capacité de la protéine à interagir avec d'autres molécules. La
caractérisation des fonctions des protéines à partir de leur séquence
d'acides aminées et/ou de leur structure 3D est donc une question
majeure. Récemment, en complément d'approches expérimentales, souvent
complexes et coûteuses, des approches computationnelles ont connu un
essor important.
Ce projet vise, en s'appuyant sur des techniques de traitement
statistique du signal, à développer une méthodologie d'analyse
comparative des protéines et de famille de protéines dans le cas
d'identité faible (30%). L'idée centrale consiste à formuler le problème
comme l'extraction d'un alphabet de « motifs élémentaires », la
représentation de l'information portée des protéines à partir des motifs
élémentaires détectés et l'évaluation des similarités entre protéines à
partir de cette représentation de l'information protéique. La notion de
« motifs élémentaires » doit être comprise au sens large. Elle ne se
limite pas à des mots correspondant des sous-séquences particulières
codées par l'alphabet défini par les 20 acides aminés, comme envisagé
dans certains travaux (Gruber et al. 2005, Soding et al. 2006, Wen et al.
2005). Cette notion fait ici référence à une représentation d'un signal
multivarié de support donné (typiquement d'un acide aminé à une
centaine d'acides aminés), pouvant être défini à partir de différentes
caractéristiques des acides aminés (e.g., des caractéristiques
physico-chimiques telles que l'hydrophobie, le poids moléculaire,
l'accessibilité, liés à d'autres critères tels que la transitivité des
acides aminés) (Soding, Remmert et al. 2006). Ces motifs élémentaires
peuvent dans certains cas faire référence à des fonctions ou
caractéristiques recherchées : zones d'interface protéine-protéine,
épitopes (Greenbaum, Andersen et al. 2007), zones de désordre (Allouch
et al. 2004, Barbeyron et al. 1998, Baumann et al. 2007, Dosztányi
and Tompa 2008, Michel et al. 2001, Michel et al. 2006), …
L'approche d'analyse comparative proposée reposera plus particulièrement
sur trois aspects :
- l'extraction de motifs élémentaires dans des représentations
temps-fréquence et/ou multi-échelle du signal multivarié associé aux
séquences protéiques (de Trad et al. 2002, Ramachandran et al. 2004);
-la modélisation et la segmentation des séquences au sens de l'alphabet
de motifs élémentaires détectés par des approches de type HMM (Hidden
Markov Model), SSMM (Segmental Semi-Markov Model) (Chu et al. 2006,
Ostendorf et al. 1996); -l'exploitation de ces modèles pour la
définition d'une mesure de similarité entre protéines ou groupe de
protéines au sens d'un alphabet de motifs élémentaires.
L'évaluation des méthodes et algorithmes proposés sera réalisée sur des
bases de référence utilisées dans des travaux antérieurs (Soding et al.
2006, Vallat et al. 2008). L'une des originalités du projet sera
également une application à une famille de protéines originales, la
famille 16 des glycoside hydrolases (Michel et al. 2006), dans le
cadre d'une collaboration avec l'équipe Glycobiologie Marine de l'UMR
7319 de la station biologique de Roscoff.
COMPETENCES ATTENDUES :
Les candidats doivent présenter des compétences en mathématiques
appliquées (traitement du signal, statistiques, processus aléatoires),
des capacités d'abstraction et de communication, ainsi qu'un intérêt pour
les sciences de la vie. Les outils et méthodes développés seront mis en
oeuvre dans l'environnement Matlab.
ADRESSE: TELECOM Bretagne, département SC, UMR 3192 LabSTICC, 29280 Brest
DUREE : 12 mois
BIBLIOGRAPHIE
Allouch, J., Helbert, W., Henrissat, B., and Czjzek, M. 2004. Parallel
substrate binding sites in a beta-agarase suggest a novel mode of action
on double-helical agarose. Structure 12: 623-632.
Barbeyron, T., Gerard, A., Potin, P., Henrissat, B., and Kloareg, B.
1998. The kappa-carrageenase of the marine bacterium Cytophaga
drobachiensis. Structural and phylogenetic relationships within
family-16 glycoside hydrolases. Molecular Biology and Evolution 15:
528-537.
Baumann, M.J., Eklöf, J.M., Michel, G., Kallas, A.M., Teeri, T.T.,
Czjzek, M., and Brumer, H. 2007. Structural evidence for the evolution
of xyloglucanase activity from XETs: biological implications for cell
wall metabolism. The Plant Cell 19: 1947-1963.
de Trad, C.H., Fang, Q., and Cosic, I. 2002. Protein sequence comparison
based on the wavelet transform approach. Protein Eng. 15(3): 193-203.
Dosztányi, Z., and Tompa, P. 2008. Prediction of Protein Disorder. In
Structural Proteomics. pp. 103-115.
Gruber, M., Soding, J., and Lupas, A.N. 2005. REPPER--
repeats and their periodicities in fibrous proteins. Nucl. Acids Res.
33(suppl_2): W239-243.
Michel, G., Chantalat, L., Duee, E., Barbeyron, T., Henrissat, B.,
Kloareg, B., and Dideberg, O. 2001. The kappa-carrageenase of P.
carrageenovora features a tunnel-
shaped active site: a novel insight in the evolution of Clan-B glycoside
hydrolases. Structure 9: 513-525.
Michel, G., Nyval-Collen, P., Barbeyron, T., Czjzek, M., and Helbert, W.
2006. Bioconversion of red seaweed galactans: a focus on bacterial
agarases and carrageenases. Applied Microbiology and Biotechnology 71:
23-33.
Ramachandran, P., Antoniou, A., and Vaidyanathan, P.P. 2004.
Identification and location of hot spots in proteins using the
short-time discrete Fourier transform. Proc. of 38th Asilomar Conf. on
Signals, Systems and Computers Asilomar, CA, pp. 1656-1660.
Soding, J., Remmert, M., and Biegert, A. 2006. HHrep: de novo protein
repeat detection and the origin of TIM barrels. Nucl. Acids Res.
34(suppl_2): W137-142.
Vallat, B., Pillardy, J., and Elber, R. 2008. A template-
finding algorithm and a comprehensive benchmark for homology modeling of
proteins. Proteins: Structure, Function, and Bioinformatics 72(3): 910-928.
Wen, Z.-n., Wang, K.-l., Li, M.-l., Nie, F.-s., and Yang, Y. 2005.
Analyzing functional similarity of protein sequences with discrete
wavelet transform. Computational Biology and Chemistry 29(3): 220-228.
http://gdr-isis.org/rilk/gdr/Kiosque/poste.php?jobid=2954
--
Agnès Bessière
Assistante Communication
INRIA Sophia Antipolis Méditerranée
2004, route des Lucioles - BP 93
06902 Sophia Antipolis Cedex
Tel : +33.4.97.15.53.57
http://www.inria.fr/sophia/
http://www-sop.inria.fr/interne/services/rev/com/