Ordinamento AA
Bioinformatics private

Author: Gianpiero Pescarmona
Date: 25/10/2008

Description

AMINOACIDI PRESI IN CONSIDERAZIONE

A Alanine Ala
B Aspartic acid or Asparagine Asx
C Cysteine Cys
D Aspartic acid Asp
E Glutamic acid Glu
F Phenylalanine Phe
G Glycine Gly
H Histidine His
I Isoleucine Ile
K Lysine Lys
L Leucine Leu
M Methionine Met
N Asparagine Asn
P Proline Pro
Q Glutamine Gln
R Arginine Arg
S Serine Ser
T Threonine Thr
V Valine Val
W Tryptophan Trp
X Unknown Xxx
Y Tyrosine Tyr
Z Glutamic acid or Glutamine Glx

E/Q Glutamic acid/ Glutamine
E/P Glutamic acid/ Proline
Y/F Tyrosine / Phenylalanine
D/N Aspartic acid / Asparagine

Installare PERL – Activestate-ActivePerl 5.10

e creare un cartella SWISSPROT\FLAT dove mettere i file scompattati.

CREARE UNA CARTELLA SWISSPROT/FLAT

Per scaricare le singole sequenze in formato FLAT collegarsi a:

http://www.expasy.org/

Es. di richiesta singola sequenza:

http://www.expasy.org/cgi-bin/get-sprot-entry?P31383

Ftp database da: ftp://ftp.expasy.org/databases/uniprot/current_release/knoledgebase/complete
Ogni 15 gg. circa esce l’aggiornamento.

File scaricati:

Uniprot_sprot.dat
Uniprot_tremble.dat

Occorre unzipparli.

In genere, dopo averli un zippati, è bene mettere nel nome la data di download ell’archivio.

Es:
uniprot_sprot_14_10_2008
uniprot_trembl_14_10_2008

Documentazione sul formato FLAT:

http://www.expasy.ch/sprot/userman.html

PROGRAMMI PERL

Per ora occorre aprire una finestra DOS
Per aprirla, con start, esegui, digitare cmd.
Posizionarsi sotto prog_perl/conta_aminoacidi_ultimo/

Programma per la creazione del file con le frequenze assolute e relative degli aminoacidi per ogni proteina.

prog_perl/conta_aminoacidi_ultimo/conta_aminoacidi_genera_file_unico.pl file scaricato da swissprot

conta il numero di aminoacidi presenti per ogni proteina e genera un file contenente il risultato con il seguente nome:

CONT_AMINO_anno_mese_giorno_oraminsec.txt

Occorre eseguirlo per i due file scaricati: prot e trembl

Quindi unire i due file prodotti con il comando cat per windows:

Usare il pacchetto GnuWin32.

cat file da accodare >> file globale.

Programmi per l’ordinamento/ricerca delle proteine in base ad un aminoacido dato.

Ogni volta che genero il file assegno un nome che contiene il tipo di operazione fatta e la data/ora dell'elaborazione.

Ordina le proteine in base alla frequenza relativa di un aminoacido dato.

Crea un nuovo file con lo stesso formato di quello in ingresso ma ordinato in modo da poterlo nuovamente elaborare, ad esempio per cercare le frequenze maggiori di, minori di ...

proteine_ordinamento_dato_aminoacido.pl aminoacido

genera il file:
proteine_ordinate_amino_year_mon_mday_hourminsec.".txt

Ordina le proteine in base alla frequenza relativa di un aminoacido dato minore di una soglia data.

Crea un nuovo file con lo stesso formato di quello in ingresso.
proteine_ordinate_amino_minore_freq_year_mon_mday_hourminsec.txt

Ordina le proteine in base alla frequenza relativa di un aminoacido dato maggiore di una soglia data.

Crea un nuovo file con lo stesso formato di quello in ingresso.
proteine_ordinate_amino_maggiore_freq_year_mon_mday_hourminsec.txt

Ordina le proteine in base alla frequenza relativa di un aminoacido dato compresa tra due soglie date.

Crea un nuovo file con lo stesso formato di quello in ingresso.
proteine_ordinate_amino_compreso_freq1_freq2_year_mon_mday_hourminsec.txt

INTERFACCIA GRAFICA

Per creare l’interfaccia grafica in Perl scaricare mod_perl ed installarlo con ppm install mod_perl da DOS.

Configurare Apache2.2,

scrivere i file .pl in nella cartella cgi di Apache

Per verificare il funzionamento dell’interfaccia aprire un browser Web e digitare:

http://localhost/cgi-bin/nomefileinterfaccia

AddThis Social Bookmark Button