Logo de l'E.N.T. Alsace
Thèses électroniques Service Commun de la documentation
Logo de l'Université de Strasbourg
Thèses et Mémoire de l'Université de Strasbourg

Modèle d’évolution avec dépendance au contexte et corrections de statistiques d’adéquation en présence de zéros aléatoires

FINKLER, Audrey (2010) Modèle d’évolution avec dépendance au contexte et corrections de statistiques d’adéquation en présence de zéros aléatoires. Thèses de doctorat, Université de Strasbourg.

Plein texte disponible en tant que :

PDF - Un observateur de PDF est nécessaire, comme par exemple GSview, Xpdf or Adobe Acrobat Reader
1852 Kb

Résumé

Dans ce travail nous étudions sous deux aspects la dépendance au contexte pour l'évolution par substitution des séquences nucléotidiques. Dans une première partie nous définissons un modèle évolutif simple intégrant la distinction entre transitions et transversions d'une part, et une dépendance des nucléotides à leur voisin de gauche modélisant l'effet CpG d'autre part. Nous montrons que ce modèle peut s'écrire sous la forme d'une chaîne de Markov cachée et estimons ses paramètres par la mise en oeuvre de l'algorithme de Baum-Welch. Nous appliquons enfin le modèle à l'estimation de taux de substitution observés dans l'évolution de séquences génétiques. Dans une deuxième partie nous développons des corrections pour les statistiques classiques du test d'adéquation d'un échantillon à une loi multinomiale en présence de zéros aléatoires. En effet, les tests d'indépendance de l'évolution de triplets de nucléotides voisins impliquent des tables de contingence possédant de nombreuses cases nulles et se ramènent à des tests d'adéquation sur des vecteurs creux. Les statistiques de Pearson et de Kullback ne peuvent alors être employées. A partir de celles-ci, nous considérons des statistiques corrigées qui conservent le même comportement asymptotique. Nous les utilisons pour réaliser des tests d'indépendance, non seulement dans le cadre des données génomiques de la première partie, mais également pour des données écologiques et épidémiologiques

Type d'EPrint:Thèse de doctorat
Discipline de la thèse / mémoire / rapport :Mathématiques appliquées
Mots-clés libres:modèles d'évolution des séquences d'ADN ; processus de Markov ; chaînes de Markov cachées ; algorithme EM ; tests d'adéquation ; tables de contingence creuses ; statistique du khi-deux ; statistique de Kullback
Sujets:UNERA Classification UNERA > ACT Domaine d'activité UNERA > ACT-34 Autres
CL Classification > DDC Dewey Decimal Classification > 500 Sciences de la nature et mathématiques > 510 Mathématiques > 519 Probabilités et mathématiques appliquées
Classification Thèses Unistra > Sciences, technologies > Sciences de la nature et mathématiques > 510 Mathématiques > 519 Probabilités et mathématiques appliquées

UNERA Classification UNERA > DISC Discipline UNERA > DISC-19 Mathématiques et informatique
Code ID:1841
Déposé le :19 Juillet 2010

Administrateurs de l'archive uniquement : éditer cet enregistrement