Xanthomonas fuscans subsp. fuscans

Processus d'annotation

Annotation structurale : ETAPE INDISPENSABLE

  1. vérifier la position du start en s'appuyant sur

    • FrameD pour voir l'usage du code et la présence d'un hit blastx plus long en N-term. Permet de repérer tous les starts possibles.

    • Codon usage (représentation colorée de l'usage du code, position des starts, SHINE-DALGARNO)

    • "Multalin" S'il y a des séquences homologues chez d'autres Xantho. Elles sont listées dans la fiche du gène (Hits blastX). Multalin sert a voir si dans l'alignement multiple notre séquence n'est pas la seule a etre tronquée en N-Term ou si elle n'est pas trop longue.

FrameD : Si la prédiction a été faite avec d'autres matrices que " phaseoli " (xap, ACUR, bactériophage), c'est indiqué dans la fiche du CDS sous la rubrique CC Model. Il est possible de visualiser en FrameD en sélectionnant la matrice ad-hoc. Il est aussi possible de jouer sur les paramètres de prédiction pour retrouver les CDS.

FrameD utilise seulement la présence de RBS et le style de codage, et dans une moindre mesure les hits blastx, pour donner un poids au start. Aussi, il peut se tromper en cas de présence d'un peptide signal par exemple. Xav a été bien annoté, on peut s'ajuster sur les orthologues Xav (ou albilineans que vous avez annotés). Par contre, il faut que les arguments concordent quand meme.

  1. Stop et frameshift :

i) La plupart du temps le stop n'est pas visible dans la représentation " Codon Usage ". Il s'agit juste d'un problème d'affichage. Le faire apparaitre en cliquant a la fin du CDS pour récupérer les quelques nt. manquants.

ii) Vérifier qu'un stop est présent a la fin du CDS surtout quand la prédiction a été forcée (matrice ACUR, sensibilité accrue, ..), sinon Déleter ce CDS (cf. rubrique 5. Déletion). S'il s'agit d'un frameshift, voir la rubrique 6. Pseudogène.



  1. Si les positions du CDS sont a modifier

    • Modifier la position du start a la fin de la fiche synthétique d'Edition dans la rubrique " Edit sequence positions on strand + of xanch_chr". Pensez a changer le signe du brin si ce n'est pas le meme que celui prédit a l'origine.

    • Les calculs sont relancés automatiquement en cas de modification des positions)

    • Revenir sur la fiche du CDS et rafraichir la page quand les analyses sont terminées (~ 2minutes par CDS) pour que le résultat apparaisse a l'écran.

      Si les calculs n'ont pas ete effectues (cela peut arriver lorsque le serveur est surchargé) vous pouvez demander a les relancer a posteriori en cochant la case "  Check if you want to force analyses submission (interpro, blast) " a la fin de la fiche synthétique

  1. Séquences d'insertion (IS)

    • IS: les créer en tant qu'IS (il y a le type "Insertion Sequence" dans le Menu "Add an entry").

    • Transposases: il existe une classe dédiée dans la classification Riley/MultiFun (c'est la 8.3.1)

    • Elles seront annotées par Marie-Anne Van Sluys.


  1. Déletion

Dans la fiche d'annotateur, accéder a la rubrique « delete " du bandeau bleu supérieur, menu administration et indiquer le N° du CDS.

En cas de doute, il est possible d'indiquer « A deleter " dans la rubrique annotateur (AN) de la fiche d'annotation, avec les arguments. La délétion sera effectuée ultérieurement.


  1. Pseudogènes

S'il y a un frameshift ou encore si le gène est fragmentaire, utiliser le type "pseudogene" lorsque vous creez votre fiche.




Annotation fonctionnelle

  1. Ce qu'il faut garder a l'esprit concernant les hits blasts

    • pour comparer 2 hits blasts contre 2 banques différents, on se sert du Score (S)

    • l'expect-value (E) prend en compte la taille de la banque et représente la probabilité d'obtenir un hit de meme score par hasard

    • le Bit-score (Sb) prend en compte cette probabilité

    • un hit de moins bon score contre Swiss-Prot est très souvent plus informatif qu'un meilleur hit contre TrEMBL

    • seul un hit "global" peut permettre l'attribution d'une fonction; en général, on considère un hit globlal, un hit recouvrant au minimum 80% de la longueur de la requete (PCQ=80) et 80% de la cible (PCS=80); en dessous de ces seuils, on peut observer des homologies de domaines uniquement et donc une partie seulement de la fonction de la protéine



  1. Choix de la description du produit (DE)

    • en priorité, si un orthologue est présent chez E. coli, utiliser la description associée dans la fiche Swiss-Prot (DE)

    • si un orthologue est présent chez B. subtilis, utiliser cette description

    • sinon, voir chez Xa vesicatoria (XANC5) et les autres Xantho pour garder une homogénéité.

mettre les qualificatifs (HYPOTHETICAL /PUTATIVE/PROBABLE) dans la ligne DE :

    • hypothetical: quand on n'a aucune preuve et qu'on extrapole... (description sans nom de gène)

    • putative: analyse in silico , InterPro, domaines. (description, mais généralement pas de nom de gène).

    • probable: preuve chez un orthologue (coli de preference) (biblio " hors publi genome ", utiliser GenProtEc http://genprotec.mbl.edu/files/MultiFun.txt). (il y a souvent un nom de gène).

    • et aucun qualificatif lorsque l'on a une preuve expérimentale pour un orthologue chez un Xanthomonas. (dans ce cas, on donne un nom de gène).

    • Document de reference Swiss-Prot

Nomenclature

- Conserved hypothetical protein vs. hypothetical protein ? Dès qu'un homologue est présent dans les banques publiques, utiliser le mot "conserved" pour différentier des orfans.



  1. Choix du nom de gene (ID)

    • NE PAS INVENTER DE NOMS DE GENES

    • en priorité, si un orthologue est présent chez E.coli, utiliser ce nom (champ GN Name=xxxX dans la fiche Swiss-Prot): ATTENTION , les gènes de E.coli commençant par y ne sont pas de vrais nom de gènes.

    • si un orthologue est présent chez B. subtilis, utiliser ce nom la

    • sinon, voir chez Xa vesicatoria (XANC5) mais faire attention au mode d'attribution de ce nom de gène

    • Orthologie/Paralogie: si plusieurs copies de ce gène sont présentes chez X. phaseoli (cf. les résultats de blastp contre lui-meme (xanch):

      • analyser la famille en cliquant sur workflow Remora "Moby Protein Family analysis" dans la barre de menu de la fiche synthétique

      • Afficher l'alignement complet en utilisant le lien "or click here to display all sequences in the family" puis cliquer sur le logo de la représentation en arbre.

      • Ouvrir les fichiers envoyés lors de l'analyse moby "protein family analysis" (remora) en cliquant sur les hexagones pour les résultats d'analyses, sur les rectangles pour voir les paramétrages des analyses.

      • pour l'orthologue le nommer genX1

      • pour les copies (paralogues de genX1), utiliser la nomenclature genX2, genX3, etc... suivant la distance dans l'arbre



  1. Classe Fonctionnelle

    • Mettre la classe fonctionnelle la plus précise; c'est cette classe qui sert a la coloration des cartes



  1. Biblio

    • Les références biblios ne doivent etre renseignées que lorsqu'il s'agit d'un papier portant sur le genet de XANCH et PAS sur un gène orthologue dans une autre bactérie.
      Elles doivent etre renseignées dans le champ PM via le numéro PubMed (PMID) disponible sur le site de PubMed.