Logo de l'E.N.T. Alsace
Thèses électroniques Service Commun de la documentation
Logo de l'Université de Strasbourg
Thèses et Mémoire de l'Université de Strasbourg

Développement de modèles évolutifs pour les ARN non-codants

ALMEIDA COSTA DA CRUZ, José António (2011) Développement de modèles évolutifs pour les ARN non-codants. Thèses de doctorat, Université de Strasbourg.

Plein texte disponible en tant que :

PDF - Un observateur de PDF est nécessaire, comme par exemple GSview, Xpdf or Adobe Acrobat Reader
13275 Kb

Résumé

[...]Pour répondre à la nécessité d'un pipeline d'annotation d'ARNnc rapide et fiable dans le contexte des projets de séquençage génomique de grand envergure, tels que lesprojets Génolevures et Dikaryome, nous avons mis au point deux pipelines d'annotationautomatique, intégrant des outils disponibles publiquement, de recherche d'ARNnc par homologieet de novo. Les deux pipelines ont été appliqués à 15 génomes de levureset ont permis de trouver et d'annoter 1051 gènes d'ARNnc, correspondant à plus de 80% des ARNnc attendus pour ces génomes – si on prend comme référence le nombre d'ARNnc chez S. cerevisiae. En outre, plusieurs nouveaux ARNnc, encore inconnus chez les Saccharomycotinae, ont été détectés. De plus, nous avons mis en évidence un ensemble de nouvelles observations sur la synténie de gènes d'ARNnc et de nouveaux exemples de domaines supplémentaires dans certains ARNnc essentiels. Les résultats montrentla faisabilité de la recherche automatique des ARNnc dans les génomes complets et l'utilité de telles approches dans les grands projets de séquençage et d'annotation génomique. L'intégration complète, dans le pipeline de développement, de nouveauxoutils tels que ceux de prédiction de gènes d'ARNnc de novo ainsi que la possibilité de traiter des données provenant d'autres sources, comme les expériences de séquençage profond, sont les prochains défis à court terme dans cette ligne de travail. La confirmation expérimentale de ces observations, qui est au-delà de l'approche bioinformatique, doit être le prolongement naturel du projet d'annotation. Dans le strict domaine bioinformatique, le développement de nouvelles approches pour détecter les gènes d'ARNnc insaisissables tels que la composante ARN de la télomerase seraient des ajouts utiles à notre pipeline. Enfin, j'ai développé un algorithme original pour détecter les modules structuraux d'ARN uniquement à partir des informations de séquence (RMDetect). L'algorithme a été conçu pour identifier les modules structuraux connus dans les séquences simples et dans les alignements multiples en l'absence de toute autre information. L'algorithme utilise un réseau bayésien pour la représentation des modules couplé à l'estimation de la probabilité conjointe des paires de bases Watson-Crick participant à des modules. Actuellement, quatre modules peuvent être recherchés: la boucle "G-bulge'', le"Kink Turn'',la boucle C et la boucle "tandem GA''. Dans des séquences de test de contrôle, nous avons trouvé l'ensemble des modules connus avec un taux de fausse découverte de 0.23. En cherchant les 1444 alignements publiquement disponibles, nous avons identifié 21 modules encore non détectés et 141 modules connus. RMDetect est une étape utile pour combler le fosséentre l'analyse pure de séquences et l'étude structurale de l'ARN. De plus, il peut être utilisé dans l'affinement des structures 2D d'ARN, dans l'assemblage de modèles 3D, et dans la recherche et l'annotation de gènes d'ARN structurés dans les génomes. Nous espérons améliorer l'approche actuelle par l'ajout de nouveaux modèles structuraux. La recherche de modules structuraux dans des génomes complets serait la prochaine étape dans cette ligne de recherche.

Type d'EPrint:Thèse de doctorat
Discipline de la thèse / mémoire / rapport :Sciences du Vivant. Bioinformatique
Mots-clés libres:cnRNA ; bioinformatics ; RNA Structure ; RMDetect ; RNA structural modules ; gene annotation ; structure comparison metrics ; gene discovery
Sujets:CL Classification > DDC Dewey Decimal Classification > 500 Sciences de la nature et mathématiques > 570 Sciences de la vie. Biologie. Biochimie > 572 Biochimie > 572.8 Génétique biochimique
Classification Thèses Unistra > Santé > Sciences de la vie, biologie, biochimie > 570 Sciences de la vie. Biologie. Biochimie > 572 Biochimie > 572.8 Génétique biochimique

UNERA Classification UNERA > ACT Domaine d'activité UNERA > ACT-5 Santé, industrie du médicament, cosmétique
UNERA Classification UNERA > DISC Discipline UNERA > DISC-16 Sciences de la vie et de la santé, psychologie
Code ID:2370
Déposé le :05 Mars 2012

Administrateurs de l'archive uniquement : éditer cet enregistrement