Bz Gene Identification

Worksheet: Identify the bz gene in DNA

· Assuming the bz gene could be a simple ORF gene try to identify it by detecting and analyzing the ORFs in the sequence.

o Go to http://www.bioservers.orgFind SEQUENCE SERVER ENTER

o Click MANAGE GROUPS

o Find Sequence sources, click Classes, then Public.

o Find Jumping Genes Across Kingdoms

o Check the box to the left, click OK

o Click the title for the first entry and set it to corn, purple endosperm; wt

o Click View

o Highlight and copy the entire sequence.

o Open http://www.dnai.org/geneboy

o In the Sequences panel click Your Sequence

o Paste the sequence into the central window. Replace the header Your Sequence with a name of your choosing (i.e. corn bz gene region). Click Save Sequence

o How long is the sequence? __2221_ bp

o In the Operations panel click Find Genes, then ORFs

o Click Reverse.

o Record in the table below the ORFs indicated by Gene Boy.

ORF / RF / From – To / Length [bp] / Protein length [aa]
ORF 1 / +1 _ / 247 - 834 _ / 588 _ / 195 _
ORF 2 / +2 _ / 842 - 1762 _ / 921 _ / 306 _
ORF 3 / -1 _ / 220 - 819 _ / 600 _ / 299 _
ORF 4 / -1 _ / 1117 - 1500 _ / 384 _ / 127 _
ORF 5 / -3 _ / 890 - 1867 _ / 978 _ / 325 _

· The protein sequencing lab provides you with the amino acid for the protein product of the bz-gene (see Attachment 1).

o How many amino acids long is it? ___ 471 aa ______

o How many nucleotides would be required to encode a protein of this length? 1413

o Could it be encoded by any of the ORFs determined above? Nope

o What do you think might be going on? At what point may we have made a wrong assumption?

______

_ Assuming the gene is a single ORF gene. Instead, it may be a spliced gene. _

______

· Using the DNA sequence from Sequence Server and the translation tool at http://www.dnalc.org/bioinformatics/2003/2003_dnalc_nucleotide_analyzer.htm#translator, the Bioinformatics Department has provided you with a translation of the sequence in all three forward reading frames (see Attachment 2). Detect the amino acid sequence for the bz protein product (Attachment 1) in these three deduced amino acid sequences. Highlight in the translated sequences the amino acid stretches that are entailed in the BZ protein sequence.

· In order to identify the bz gene in the DNA sequence highlight the nucleotide stretches that correspond to the highlighted amino acid stretches. If necessary consult the genetic code table in Attachment 3.

· Discuss the structure of the gene:

o What is the structure of the bz gene?

__It consists of two exons and one intron ______

o At what position are the start and stop codons located?

___Start:____247 – 249 ______Stop:___1760 – 1762 ______

o How many substructures does the coding region of the gene consist of?

How long are these substructures? Are they divisible by three?

____Two exons;_CDS 1: 523 bp, CDS 2: 890 bp ______

o Concatenate the coding substructures. How long is this sequence? Is it a multiple of three? Would it be able to encode a protein of the length of the BZ protein?

_____Total length CDS: 1413; encodes 471 amino acids ______

· Use the Internet sites at http://wwwmgs.bionet.nsc.ru/mgs/programs/bdna/tata_bdna.html and http://rulai.cshl.org/tools/polyadq/polyadq_form.html for the prediction of TATA-boxes and PolyA Signal, respectively.

______see annotation in the sequence below ______

______

· Finally, run the sequence through the two gene prediction programs listed in Gene Boy under WWW Tools à Gene Prediction.

______

· Discuss the results by comparing them with the annotation for the gene at. http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?db=nucleotide&val=22361

______

Attachment 1: Zea mays bz gene product; 471 amino acids

------+------+------+------+------+------+

MAPADGESSPPPHVAVVAFPFSSHAAVLLSIARALAAAAAPSGATLSFLSTASSLAQLRK 60

------+------+------+------+------+------+

ASSASAGHGLPGNLRFVEVPDGAPAAEETVPVPRQMQLFMEAAEAGGVKAWLEAARAAAG 120

------+------+------+------+------+------+

GARVTCVVGDAFVWPAADAAASAGAPWVPVWTAASCALLAHIRTDALREDVGDQAANRVD 180

------+------+------+------+------+------+

GLLISHPGLASYRVRDLPDGVVSGDFNYVINLLVHRMGQCLPRSAAAVALNTFPGLDPPD 240

------+------+------+------+------+------+

VTAALAEILPNCVPFGPYHLLLAEDDADTAAPADPHGCLAWLGRQPARGVAYVSFGTVAC 300

------+------+------+------+------+------+

PRPDELRELAAGLEDSGAPFLWSLREDSWPHLPPGFLDRAAGTGSGLVVPWAPQVAVLRH 360

------+------+------+------+------+------+

PSVGAFVTHAGWASVLEGLSSGVPMACRPFFGDQRMNARSVAHVWGFGAAFEGAMTSAGV 420

------+------+------+------+------+-

ATAVEELLRGEEGARMRARAKELQALVAEAFGPGGECRKNFDRFVEIVCRA 471

Attachment 2: bz gene, Zea mays, 2221 nucleotides

1------+------+------+------+------+------+------+------+------+------+--

DNA: GGTCCCCAAACTCCACGGCACCAACAGCTAAGCCCGATGCGCTGCGTGCGCGGCGATCCAACCGCCGGCTCACCTAAAAATTTCGGCACGTCTAACTGCGAC 102

+1: G P Q T P R H Q Q L S P M R C V R G D P T A G S P K N F G T S N C D

+2: V P K L H G T N S * A R C A A C A A I Q P P A H L K I S A R L T A T

+3: S P N S T A P T A K P D A L R A R R S N R R L T * K F R H V * L R L

------

103----+------+------+------+------+------+------+------+------+------+----

DNA: TGGCAGGTGCGCACGCGTGGTCGCGCGGAATAAAGCGGACACGTTGCGCCCCCAGCGAAGCCCGCACGCATCGCATTCGCATCGCATCGCAGGTCGCATCCG 204

+1: W Q V R T R G R A E * S G H V A P P A K P A R I A F A S H R R S H P

+2: G R C A R V V A R N K A D T L R P Q R S P H A S H S H R I A G R I R

+3: A G A H A W S R G I K R T R C A P S E A R T H R I R I A S Q V A S D

------

205--+------+------+------+------+------+------+------+------+------+------

DNA: ACGCTAGCGGCTAGCCTAGCCGAACAGCCTGAGCGCGCGAAGATGGCGCCCGCCGACGGCGAGTCCTCCCCGCCGCCGCACGTGGCCGTGGTCGCCTTCCCG 306

+1: T L A A S L A E Q P E R A K M A P A D G E S S P P P H V A V V A F P

+2: R * R L A * P N S L S A R R W R P P T A S P P R R R T W P W S P S R

+3: A S G * P S R T A * A R E D G A R R R R V L P A A A R G R G R L P V

------

3--+------+------+------+------+------+------+------+------+------+------

DNA: TTCAGCTCCCACGCGGCGGTGCTGCTCTCCATCGCGCGCGCCCTGGCTGCCGCCGCGGCGCCGTCCGGGGCCACGCTCTCGTTCCTCTCCACCGCGTCCTCC 408

+1: F S S H A A V L L S I A R A L A A A A A P S G A T L S F L S T A S S

+2: S A P T R R C C S P S R A P W L P P R R R P G P R S R S S P P R P P

+3: Q L P R G G A A L H R A R P G C R R G A V R G H A L V P L H R V L P

------

409------+------+------+------+------+------+------+------+------+------+

DNA: CTCGCGCAGCTCCGCAAGGCCAGCAGCGCCTCCGCCGGGCACGGGCTCCCGGGGAACCTGCGCTTCGTCGAGGTACCGGACGGCGCGCCCGCGGCCGAGGAG 510

+1: L A Q L R K A S S A S A G H G L P G N L R F V E V P D G A P A A E E

+2: S R S S A R P A A P P P G T G S R G T C A S S R Y R T A R P R P R R

+3: R A A P Q G Q Q R L R R A R A P G E P A L R R G T G R R A R G R G D

------

511------+------+------+------+------+------+------+------+------+------+--

DNA: ACCGTGCCGGTGCCGCGGCAGATGCAGCTGTTCATGGAGGCCGCGGAGGCCGGCGGGGTGAAGGCCTGGCTGGAGGCGGCCCGCGCCGCGGCGGGCGGCGCC 612

+1: T V P V P R Q M Q L F M E A A E A G G V K A W L E A A R A A A G G A

+2: P C R C R G R C S C S W R P R R P A G * R P G W R R P A P R R A A P

+3: R A G A A A D A A V H G G R G G R R G E G L A G G G P R R G G R R Q

613----+------+------+------+------+------+------+------+------+------+----

DNA: AGGGTGACCTGCGTGGTGGGCGACGCGTTCGTGTGGCCGGCGGCGGACGCGGCCGCCTCCGCGGGGGCGCCGTGGGTGCCGGTGTGGACGGCCGCGTCGTGC 714

+1: R V T C V V G D A F V W P A A D A A A S A G A P W V P V W T A A S C

+2: G * P A W W A T R S C G R R R T R P P P R G R R G C R C G R P R R A

+3: G D L R G G R R V R V A G G G R G R L R G G A V G A G V D G R V V R

------

715--+------+------+------+------+------+------+------+------+------+------

DNA: GCGCTCCTGGCGCACATCCGCACCGACGCGCTCCGGGAGGACGTTGGCGACCAGGGTGCGTTGGATTCTACTACTACTACTTCTCTCCCTTCCTTGTCCCTT 816

+1: A L L A H I R T D A L R E D V G D Q G A L D S T T T T S L P S L S L

+2: R S W R T S A P T R S G R T L A T R V R W I L L L L L L S L P C P F

+3: A P G A H P H R R A P G G R W R P G C V G F Y Y Y Y F S P F L V P S

------

817+------+------+------+------+------+------+------+------+------+------

DNA: CATTGCGCGCGGGTTTGATGATCGAATGGCTGTTGCATTTCCATCGTTCGCAGCAGCAAACAGGGTGGACGGGCTACTGATCTCCCACCCGGGCCTCGCCAG 918

+1: H C A R V * * S N G C C I S I V R S S K Q G G R A T D L P P G P R Q

+2: I A R G F D D R M A V A F P S F A A A N R V D G L L I S H P G L A S

+3: L R A G L M I E W L L H F H R S Q Q Q T G W T G Y * S P T R A S P A

------

919------+------+------+------+------+------+------+------+------+------+

DNA: CTACCGCGTCCGTGACCTCCCAGACGGCGTCGTCTCCGGCGACTTCAACTACGTCATCAACCTCCTCGTCCACCGCATGGGGCAGTGCCTCCCGCGCTCTGC 1020

+1: L P R P * P P R R R R L R R L Q L R H Q P P R P P H G A V P P A L C

+2: Y R V R D L P D G V V S G D F N Y V I N L L V H R M G Q C L P R S A

+3: T A S V T S Q T A S S P A T S T T S S T S S S T A W G S A S R A L P

------

1021-----+------+------+------+------+------+------+------+------+------+--

DNA: CGCCGCCGTGGCACTCAACACGTTCCCAGGCCTGGACCCGCCCGACGTCACCGCGGCGCTCGCGGAGATCCTGCCCAACTGCGTCCCGTTCGGCCCCTACCA 1122

+1: R R R G T Q H V P R P G P A R R H R G A R G D P A Q L R P V R P L P

+2: A A V A L N T F P G L D P P D V T A A L A E I L P N C V P F G P Y H

+3: P P W H S T R S Q A W T R P T S P R R S R R S C P T A S R S A P T T

------

1123---+------+------+------+------+------+------+------+------+------+----

DNA: CCTCCTCCTCGCCGAGGACGACGCCGACACCGCCGCACCAGCCGACCCGCACGGCTGCCTCGCCTGGCTGGGCCGCCAACCCGCGCGCGGCGTCGCGTACGT 1224

+1: P P P R R G R R R H R R T S R P A R L P R L A G P P T R A R R R V R

+2: L L L A E D D A D T A A P A D P H G C L A W L G R Q P A R G V A Y V

+3: S S S P R T T P T P P H Q P T R T A A S P G W A A N P R A A S R T S

1225-+------+------+------+------+------+------+------+------+------+------

DNA: CAGCTTCGGCACGGTGGCGTGCCCGCGGCCCGACGAGCTCCGCGAGCTGGCGGCCGGGCTGGAGGACTCGGGCGCGCCGTTCCTGTGGTCGCTGCGCGAGGA 1326

+1: Q L R H G G V P A A R R A P R A G G R A G G L G R A V P V V A A R G

+2: S F G T V A C P R P D E L R E L A A G L E D S G A P F L W S L R E D

+3: A S A R W R A R G P T S S A S W R P G W R T R A R R S C G R C A R T

------

1327------+------+------+------+------+------+------+------+------+------

DNA: CTCGTGGCCGCACCTCCCGCCGGGTTTCCTGGACCGCGCCGCGGGCACCGGGTCCGGGCTCGTGGTGCCCTGGGCGCCGCAGGTGGCCGTGCTGCGCCACCC 1428

+1: L V A A P P A G F P G P R R G H R V R A R G A L G A A G G R A A P P

+2: S W P H L P P G F L D R A A G T G S G L V V P W A P Q V A V L R H P

+3: R G R T S R R V S W T A P R A P G P G S W C P G R R R W P C C A T L

------

1429------+------+------+------+------+------+------+------+------+------+

DNA: TTCCGTGGGCGCGTTCGTGACGCACGCCGGGTGGGCGTCGGTGCTGGAGGGCTTGTCCAGCGGGGTGCCCATGGCGTGCCGCCCCTTCTTCGGCGACCAGCG 1530

+1: F R G R V R D A R R V G V G A G G L V Q R G A H G V P P L L R R P A

+2: S V G A F V T H A G W A S V L E G L S S G V P M A C R P F F G D Q R

+3: P W A R S * R T P G G R R C W R A C P A G C P W R A A P S S A T S G

------

1531-----+------+------+------+------+------+------+------+------+------+--

DNA: GATGAACGCGCGGTCCGTGGCGCACGTGTGGGGGTTCGGCGCCGCGTTCGAGGGCGCTATGACGAGCGCCGGAGTGGCCACGGCCGTGGAGGAGCTGCTGCG 1632

+1: D E R A V R G A R V G V R R R V R G R Y D E R R S G H G R G G A A A

+2: M N A R S V A H V W G F G A A F E G A M T S A G V A T A V E E L L R

+3: * T R G P W R T C G G S A P R S R A L * R A P E W P R P W R S C C A

------

1633---+------+------+------+------+------+------+------+------+------+----

DNA: CGGGGAGGAAGGGGCGCGGATGAGGGCAAGGGCCAAGGAGCTGCAGGCCTTGGTGGCCGAGGCGTTCGGGCCAGGCGGTGAGTGCAGGAAGAACTTCGACAG 1734

+1: R G G R G A D E G K G Q G A A G L G G R G V R A R R * V Q E E L R Q

+2: G E E G A R M R A R A K E L Q A L V A E A F G P G G E C R K N F D R

+3: G R K G R G * G Q G P R S C R P W W P R R S G Q A V S A G R T S T G

------

1735-+------+------+------+------+------+------+------+------+------+------

DNA: GTTCGTCGAGATAGTCTGTCGCGCGTGAAAGGTCGTCTTGCTGTTCAGAGGTTTTACCAACAGAAGAACATAATGAATTGGATGGCATGCTACGTCGTATTC 1836

+1: V R R D S L S R V K G R L A V Q R F Y Q Q K N I M N W M A C Y V V F

+2: F V E I V C R A * K V V L L F R G F T N R R T * * I G W H A T S Y S

+3: S S R * S V A R E R S S C C S E V L P T E E H N E L D G M L R R I L

1837------+------+------+------+------+------+------+------+------+------

DNA: TCTTTTTTTGTTGATCCCTGAGTTGATACATTTTGTACTTGATACATGAGTTGCAGCAGCAGCAGCAACAGCCTTCTGTACCTTGGCTTTGGATCTGTATTC 1938

+1: S F F V D P * V D T F C T * Y M S C S S S S N S L L Y L G F G S V F

+2: L F L L I P E L I H F V L D T * V A A A A A T A F C T L A L D L Y S

+3: F F C * S L S * Y I L Y L I H E L Q Q Q Q Q Q P S V P W L W I C I L

------

1939------+------+------+------+------+------+------+------+------+------+

DNA: TTGTCACCAGTTATCTGAAAGCATCAATAACCTTCTGTCTTCTAGCAGTTGCCTCTCCAGATTGCCAAAATAGCATTTATTATAAGGTCTTATGCAATGTTT 2040

+1: L S P V I * K H Q * P S V F * Q L P L Q I A K I A F I I R S Y A M F