Processus d'annotation
Annotation structurale : ETAPE INDISPENSABLE
vérifier la position du start en s'appuyant sur
FrameD pour voir l'usage du code et la présence d'un hit blastx plus long en N-term. Permet de repérer tous les starts possibles.
Codon usage (représentation colorée de l'usage du code, position des starts, SHINE-DALGARNO)
"Multalin" S'il y a des séquences homologues chez d'autres Xantho. Elles sont listées dans la fiche du gène (Hits blastX). Multalin sert a voir si dans l'alignement multiple notre séquence n'est pas la seule a etre tronquée en N-Term ou si elle n'est pas trop longue.
FrameD : Si la prédiction a été faite avec d'autres matrices que " phaseoli " (xap, ACUR, bactériophage), c'est indiqué dans la fiche du CDS sous la rubrique CC Model. Il est possible de visualiser en FrameD en sélectionnant la matrice ad-hoc. Il est aussi possible de jouer sur les paramètres de prédiction pour retrouver les CDS.
FrameD utilise seulement la présence de RBS et le style de codage, et dans une moindre mesure les hits blastx, pour donner un poids au start. Aussi, il peut se tromper en cas de présence d'un peptide signal par exemple. Xav a été bien annoté, on peut s'ajuster sur les orthologues Xav (ou albilineans que vous avez annotés). Par contre, il faut que les arguments concordent quand meme.
Stop et frameshift :
i) La plupart du temps le stop n'est pas visible dans la représentation " Codon Usage ". Il s'agit juste d'un problème d'affichage. Le faire apparaitre en cliquant a la fin du CDS pour récupérer les quelques nt. manquants.
ii) Vérifier qu'un stop est présent a la fin du CDS surtout quand la prédiction a été forcée (matrice ACUR, sensibilité accrue, ..), sinon Déleter ce CDS (cf. rubrique 5. Déletion). S'il s'agit d'un frameshift, voir la rubrique 6. Pseudogène.
Si les positions du CDS sont a modifier
Modifier la position du start a la fin de la fiche synthétique d'Edition dans la rubrique " Edit sequence positions on strand + of xanch_chr". Pensez a changer le signe du brin si ce n'est pas le meme que celui prédit a l'origine.
Les calculs sont relancés automatiquement en cas de modification des positions)
Revenir sur la fiche du CDS et rafraichir la page quand les analyses sont terminées (~ 2minutes par CDS) pour que le résultat apparaisse a l'écran.
Si les calculs n'ont pas ete effectues (cela peut arriver lorsque le serveur est surchargé) vous pouvez demander a les relancer a posteriori en cochant la case " Check if you want to force analyses submission (interpro, blast) " a la fin de la fiche synthétiqueSéquences d'insertion (IS)
IS: les créer en tant qu'IS (il y a le type "Insertion Sequence" dans le Menu "Add an entry").
Transposases: il existe une classe dédiée dans la classification Riley/MultiFun (c'est la 8.3.1)
Elles seront annotées par Marie-Anne Van Sluys.
Déletion
Dans la fiche d'annotateur, accéder a la rubrique « delete " du bandeau bleu supérieur, menu administration et indiquer le N° du CDS.
En cas de doute, il est possible d'indiquer « A deleter " dans la rubrique annotateur (AN) de la fiche d'annotation, avec les arguments. La délétion sera effectuée ultérieurement.
Pseudogènes
S'il y a un frameshift ou encore si le gène est fragmentaire, utiliser le type "pseudogene" lorsque vous creez votre fiche.
Annotation fonctionnelle
Ce qu'il faut garder a l'esprit concernant les hits blasts
pour comparer 2 hits blasts contre 2 banques différents, on se sert du Score (S)
l'expect-value (E) prend en compte la taille de la banque et représente la probabilité d'obtenir un hit de meme score par hasard
le Bit-score (Sb) prend en compte cette probabilité
un hit de moins bon score contre Swiss-Prot est très souvent plus informatif qu'un meilleur hit contre TrEMBL
seul un hit "global" peut permettre l'attribution d'une fonction; en général, on considère un hit globlal, un hit recouvrant au minimum 80% de la longueur de la requete (PCQ=80) et 80% de la cible (PCS=80); en dessous de ces seuils, on peut observer des homologies de domaines uniquement et donc une partie seulement de la fonction de la protéine
Choix de la description du produit (DE)
en priorité, si un orthologue est présent chez E. coli, utiliser la description associée dans la fiche Swiss-Prot (DE)
si un orthologue est présent chez B. subtilis, utiliser cette description
sinon, voir chez Xa vesicatoria (XANC5) et les autres Xantho pour garder une homogénéité.
mettre les qualificatifs (HYPOTHETICAL /PUTATIVE/PROBABLE) dans la ligne DE :
hypothetical: quand on n'a aucune preuve et qu'on extrapole... (description sans nom de gène)
putative: analyse in silico , InterPro, domaines. (description, mais généralement pas de nom de gène).
probable: preuve chez un orthologue (coli de preference) (biblio " hors publi genome ", utiliser GenProtEc http://genprotec.mbl.edu/files/MultiFun.txt). (il y a souvent un nom de gène).
et aucun qualificatif lorsque l'on a une preuve expérimentale pour un orthologue chez un Xanthomonas. (dans ce cas, on donne un nom de gène).
Nomenclature
XyzK-like :
pour une protéine ayant la meme fonction métabolique que XyzK
mais pourtant pas la meme structure
- XyzK-related:
pour une protéine participant de façon très proche a la meme
voie métabolique que XyzK
- putative XyzK :
potentiellement la protéine XyzK mais pas de preuve expérimentale.
- Conserved hypothetical protein vs. hypothetical protein ? Dès qu'un homologue est présent dans les banques publiques, utiliser le mot "conserved" pour différentier des orfans.
Choix du nom de gene (ID)
NE PAS INVENTER DE NOMS DE GENES
en priorité, si un orthologue est présent chez E.coli, utiliser ce nom (champ GN Name=xxxX dans la fiche Swiss-Prot): ATTENTION , les gènes de E.coli commençant par y ne sont pas de vrais nom de gènes.
si un orthologue est présent chez B. subtilis, utiliser ce nom la
sinon, voir chez Xa vesicatoria (XANC5) mais faire attention au mode d'attribution de ce nom de gène
Orthologie/Paralogie: si plusieurs copies de ce gène sont présentes chez X. phaseoli (cf. les résultats de blastp contre lui-meme (xanch):
analyser la famille en cliquant sur workflow Remora "Moby Protein Family analysis" dans la barre de menu de la fiche synthétique
Afficher l'alignement complet en utilisant le lien "or click here to display all sequences in the family" puis cliquer sur le logo de la représentation en arbre.
Ouvrir les fichiers envoyés lors de l'analyse moby "protein family analysis" (remora) en cliquant sur les hexagones pour les résultats d'analyses, sur les rectangles pour voir les paramétrages des analyses.
pour l'orthologue le nommer genX1
pour les copies (paralogues de genX1), utiliser la nomenclature genX2, genX3, etc... suivant la distance dans l'arbre
Classe Fonctionnelle
Mettre la classe fonctionnelle la plus précise; c'est cette classe qui sert a la coloration des cartes
Biblio
Les références
biblios ne doivent etre renseignées que lorsqu'il s'agit d'un
papier portant sur le genet de XANCH et PAS sur un gène
orthologue dans une autre bactérie.
Elles doivent etre
renseignées dans le champ PM via le numéro PubMed (PMID)
disponible sur le site de PubMed.