Brincando de Comparar Códons

Sou daquelas pessoas que simplesmente não conseguem dormir direito com um mistério. Essa é uma obsessão que provavelmente muitos cientisas (e “wannabe scientists”, como eu) têm. Às vezes ficamos obcecados com uma coisa muito importante, às vezes com uma coisa banal e muitas vezes com algo que você nunca parou para pensar direito. O mais emocionante é que qualquer resposta de uma dúvida tem aquela probabilidade mágica de revelar algo impressionante ou bem útil. Hoje (dia dessa postagem), fiquei obcecado por tentar entender “na prática” qual é a grande ideia da otimização de códons e o quanto os organismos podem ter preferências de códons diferentes.  Aqui está o registro da investigação do pequeno mistério de hoje!

Códons, Otimizações e Preferências

Antes de discorrer sobre o que andei brincando. Uma pequena contextualização ao intrépido viajante sobre o que são códons, porque eles precisam ser otimizados e o que diabos é essa “preferência de códons”.

Códons são os trios de combinações de letrinhas A,T,C e G do DNA (os nucleotídeos) que, depois de transcritos a RNA (em que a grande diferença é que os “T’s” são substituídos por “U’s”), são literalmente traduzidos em aminoácidos; ou seja: três nucleotídeos codificam um  aminoácido. A grande coisa dos códons é que eles são redundantes: existe mais de uma maneira de um aminoácido específico ser traduzido à partir dos trios de nucleotídeos. Os cientistas fizeram uma tabela espertinha que “decodifica” nucleotídeos em aminoácidos:

codons_aminoacids_table
Comece lendo do centro até às bordas do círculo combinando as letras que você for olhando pelo caminho. Por exemplo: U+A+C = Tyr, abreviação de Tirosina.

 Mas aí você se pergunta: “Querida Natureza, qual é o propósito disso!?”. A redundância da leitura de aminoácidos tem uma implicação muito importante na conservação do código genético; ela é a última barreira espertinha da contra mutações no DNA. Imagine que o “C” do códon UAC que traduz uma Tirosina fosse mutado e virasse um “U” (dando UAU): graças à redundância de tradução, o aminoácido Tirosina ainda continua sendo traduzido! Pra  se ter uma ideia de como isso é importante, uma única substituição de aminoácidos (o que pode acontecer com uma única mutação de nucleotídeos) já pode gerar doenças (pesquise sobre Anemia Falciforme).

Enfim, concluindo: existem muitos códons que podem ser traduzidos em diferentes tipos de aminoácidos. Como existem muitas opções, diferentes organismos costumam a ter preferências por diferentes códons para traduzir aminoácidos específicos – por exemplo: nós Humanos adoramos traduzir Arginina como AGA e AGG, já uma das bactérias do nosso cocô, a E.coli, acha muito mais interessante traduzir Arginina como CGU e CGC. Vai entender esses procariotos viu!

Mas porque isso acontece? Porque evolutivamente cada espécie foi selecionada em um ambiente particular, o que implica em diferentes necessidades de estabilidade do DNA em diferentes contextos, e portanto diferentes porcentagens de C e G, e A e T no genoma. Essas porcentagens direcionam quais códons os organismos preferem.

Por causa de tudo isso, quando algum cientista vai fazer o design de um pedaço de DNA, é preciso colocar a sequência no contexto do organismo a ser utilizado, deixando os códons “otimizados” para cada ser vivo – caso contrário, os genes inseridos no organismo serão pouco ou nada expressos.

Investigando leveduras

Mais profundamente, resolvi brincar dessas coisas querendo responder uma pergunta: “O quão compatível os códigos genéticos de duas espécies de leveduras podem ser?”. No caso, Pichia pastoris e Saccharomyces cerevisiae.

Primeiramente eu entrei no “Codon Usage Database“. Procurando por Pichia e Saccharomyces, o site dá uma tabela com a frequência de se encontrar determinado códon a cada mil pares de base. Eu peguei os resultados e coloquei num site chamado “Text Diff“ - ele compara dois textos e mostra as diferenças e igualdades entre os dois. Com a comparação, dei print screen e destaquei as frequências mais discrepantes entre as duas espécies de levedura, obtendo o seguinte diagrama:

Comparação Pichia e Saccharomyces - códons
Texto em vermelho: Pichia. Texto em Verde: Saccharomyces. Laranja – diferença de 4 a 5; Rosa – diferença de 6 a 9; Amarelo – diferença acima de 10; Códons circulados – frequências iguais.

Fui atrás de cada códon, procurando o que codifica. Cheguei na seguinte tabela:

 Pichia Versus Saccharomyces Table

Eu chamei de “eficiência de códons” o quão os códons de Pichia funcionam em Saccharomyces, tomando como “códons incompatíveis” aqueles com diferença de no mínimo 4 entre as frequências de códon em cada espécie (a marcação em amarelo na imagem de comparação das frequências) – também estou tomando como hipótese que há uma relação direta entre frequência de códon e a preferência do mesmo por determinada espécie. Cheguei nesses valores através da porcentagem do número de códons “compatíveis” (totais -  incompatíveis). De 20 aminoácidos possíveis, apenas 7 seriam seus códons prontamente compatíveis.

Ambas as espécies são leveduras, e por isso eu esperava uma maior compatibilidade natural. O problema é que eu não tenho um controle para saber se a usagem de códons de cada levedura é realmente discrepante. Por isso, fiz a mesma comparação entre Pichia e E.coli. Como esses organismos são bem mais diferentes (um é eucarioto e outro procarioto), esperei uma diferença bem maior. (veja imagem abaixo)

Comparação Pichia e Ecoli - códons
Texto em vermelho: Pichia. Texto em Verde: E.coli. Laranja – diferença de 4 a 5; Rosa – diferença de 6 a 9; Amarelo – diferença acima de 10; Códons circulados – frequências iguais.

Legenda: Laranja – diferença de 4 a 5; Rosa – diferença de 6 a 9; Amarelo – diferença acima de 10; Códons circulados – frequências iguais.

Como esperado, dá pra ver claramente o quanto E.coli e Pichia são diferentes em comparação com Pichia e Sccharomyces. Nesse panorama, eu diria em Pichia e Saccharomyces são bem parecidas. Quanto mais comparações forem feitas mais certeza se terá do quão um organismo se parece com outro.

Otimização de Códons

Apesar de eu não ter certeza da relação direta entre frequência e preferência de códon, consegui observar coisas muito interessantes: a única inviabilidade de tradução correta entre Pichia e Saccharomyces de aminoácido é o Glutamato, em que as frequências de todas as possibilidades de códons não entram na minha classificação de “códons compatíveis” (diferença de frequência menor que 3). O resto dos códons podem ser compatibilizados entre espécies usando-se versões alternativas de códon para um mesmo aminoácio! :)

Quando se otimizam códons para deixar um plasmídeo compatível em diferentes plataformas, faz-se exatamente isso. O problema é que mesmo assim a expressão ainda não é ótima, então em geral prefere-se “sacrificar” a compatibilidade do plasmídeo em diferentes espécies para se ter um plasmídeo com os melhores códons em cada bichinho.

Existem vários programas que fazer essa otimização de códons rapidamente, mas em geral as empresas que sintetizam DNA já incluem isso (de graça ou não) no planejamento do plasmídeo a ser sintetizado.

Conclusão

Por fim, a conclusão que tirei disso tudo é: eu ACHO que um gene de Pichia funcionaria suficientemente bem em Saccharomyes e vice-versa. No caso de não conseguirmos sintetizar os genes que precisamos já códon-atimizados, talvez valha a pena fazer uma mistureba de DNA interespécies – mas só para as leveduras!

Aventuras em Biologia Sintética

Texto escrito por: Marcelo Boareto

Eu considero os quadrinhos como uma das formas mais interessantes de se narrar uma história. São também uma ótima forma de divulgar ciência de uma maneira didática e divertida.

Drew Endy um dos pais da biologia sintética (e do Registry of Parts), juntamente com Isadora Deese (ambos do MIT) elaboraram o quadrinho Adventures in Synthetic Biology. E tem mais: o quadrinho foi publicado no website da prestigiada revista Nature.

Confira Adventures in Synthetic Biology e aprenda de maneira didática o que são biobrickPoPs, entre outros conceitos básicos.

Links possivelmente interessantes:

Calculadora para sítios de ligação com ribossomos (RBS)

RBSUm objetivo central da biologia sintética é programar células para desenvolver funções valiosas. À medida que se constroem sistemas genéticas maiores e mais complexos (como os de escala genômica), serão necessários modelos e técnicas para combinar as partes genéticas de maneira eficiente para se atingir um comportamento específico. Para isso, serão necessários modelos biofísicos que descrevam a relação de uma sequência de DNA que a sua função.

Um passo muito importante nesse sentido foi dado pelo Grupo do Prof. Howard Salis, pesquisador que eu tenho o prazer de trabalhar dentro do Synberc, com o desenvolvimento da calculadora de RBS (ribossomal binding site ou sítio de ligação com o ribossomo).

Engenharia genética de microrganismos é um processo tempo intensivo (por ex. o desenvolvimento de uma nova rota metabólica para a produção de um produto químico pode levar de 5 a 10 anos de P&D para chegar a etapa industrial) que normalmente requer múltiplas rodadas de tentativas e erro utilizando mutações aleatórias. À medida que se torna possível construir sistemas gênicos cada vez mais complexo (incluindo genomas completos), métodos automatizados para montagem desses sistemas e para otimização de vias metabólicas se tornam necessários para diminuir custos e tempo de desenvolvimento. Além disso, com o aumento da complexidade do sistema, a aplicação de métodos de tentativa e erro para sua otimização se torna cada mais difícil e ineficaz.

Uma maneira de otimizar um sistema gênico é através da variação da sequencia de seus elementos regulatórios para controlar os níveis de expressão de suas proteínas codificadoras. Cada passo limitante na expressão de um gene oferece a oportunidade para modular racionalmente os níveis de expressão proteica. Em bactérias, sítios de ligação do ribossomo  e outras sequencias regulatórias de RNA são elementos de controle eficientes para o início da tradução. Como consequência, essas sequências são comumente modificadas para a otimização de circuitos genéticos. Vias metabólicas e expressão de proteínas recombinantes. Assita um video bem interessante no Youtube sobre tradução. Não é mostrado no video (e não consegui encontrar um melhor) o RBS é uma sequencia do RNA que direciona o ribossomo para o start codon, ele complementar a região do rRNA 16S que é parte da subunidade pequena 30S do ribossomo. Basicamente, quando mais complementar o RBS é ao 16S rRNA, maior é a afinidade e maior é a taxa de tradução. 

Como foi descrito no video, a tradução em bactérias (procariotos) consiste em quatro fases: iniciação, elongamento, terminação e o turnover do ribossomo (na verdade, esta última fase não foi mostrada no video). Na maioria dos casos, o início da transcrição é o gargalo do processo inteiro. O taxa de iniciação de transcrição se dá pela combinação de diferentes efeitos moleculares: incluindo a hibridação do rRNA 16S  com a sequencia do RBS, a ligação do tRNA formilmetionina ao start codon, a distância entre o síto de ligação do rRNA 16S e o start códon, e a presença de estruturas secundárias de RNA que podem obstruir o RBS ou o start codon.    

Para o otimização de expressão de genes, é muito comum o desenvolvimento de bibliotecas de sequencias de RBS com o objetivo de otimização de funções de sistemas gênicos. Porém, a construção e seleção de bibliotecas de sequências se torna impraticável com o aumento de proteínas no sistema. Por exemplo, para realizar mutações randômicas em 4 nucleotídeos para um RBS resulta em uma biblioteca de 256 sequencias. O tamanho da biblioteca aumenta combinatoriamente com o número de proteínas do sistema, ou seja, 16,7 milhões de sequências para um sistema com 3 proteínas e 2,8 x 1014 sequencias para um sistemas com 6 proteínas). Dessa maneira, se torna necessários processos mais racionais para avaliar sequencias de RBS.

A calculadora de RBS utiliza um modelo estatístico termodinâmico para predizer a taxa de iniciação de tradução de uma proteína. Dado um RBS e a região codificadora da proteína, o modelo é capaz de calcular a mudança de energia livre durante a montagem do complexo ribossomal 30S no RNAm (ΔGTOT). Depois, o modelo estatístico é capaz de correlacionar a taxa de início de transcrição com o ΔGTOT. Dessa maneira, o modelo biofísico preenche uma lacuna de desenho racional de RBS, criando uma relação quantitativa entre um sequencia de letras (As, Gs, Cs e Us) e um número (taxa de iniciação de tradução).

A calculadora de RBS, portanto, combina um modelo biofísico com otimização estocástica para identificar uma sequência sintética (não natural) de RBS que irá proporcionar a taxa de início de tradução desejada. É importante destacar que esta relação também depende dos 35 nucleotídeos iniciais da região codificadora da proteína e que o RBS sintético precisa ser desenhada com esta sequencia incluída.
A calculadora de RBS está disponível do site do laboratório do Salis . E é muito simples de utilizar, basta criar uma conta de usuário, recortar e colar as sequências, e definir uma ou mais taxas de iniciação de transcrição.

RBS calculator

Outras ferramentas para controle de transcrição também estão disponíveis como a Small RNA Calculator.

Bons experimentos!

Salis, H., Mirsky, E., & Voigt, C. (2009). Automated design of synthetic ribosome binding sites to control protein expression Nature Biotechnology, 27 (10), 946-950 DOI: 10.1038/nbt.1568

Bactéria Sintética Segundo Craig Venter

O Anúncio da criação da bactéria sintética pelo J. Carig Venter Institute  (JCVI) foi há pouco mais de dois anos, em 2010. Na época, cientistas de várias regiões do mundo e de áreas distintas se pronunciaram a respeito do que o Próprio Venter chamou de “A Criação de uma nova vida”. Afirmação extremamente questionável, mas que movimentou a mídia como poucos cientístas conseguiram fazer até hoje. Essa afirmação foi tema do meu trabalho para a disciplina de Filosofia da Biologia e resolvi compartilhá-lo com vocês.

A base do meu trabalho foram dois artigos. O Primeiro deles é o publicado pela Science e pelo grupo do JCVI, intitulado “Creation of a Bacterial Cell Controled by a Chemically Synthesized Genome”. Reporta o design  síntese e organização de um genoma completo de uma bactéria. Esse genoma foi posteriormente transplantado em uma bactéria que teve seu material genético extraído por completo.

O segundo, publicado pela Nature, apenas 7 dias depois, intitulado “Life After the Synthetic Cell” traz a opinião de oito especialistas na área da Biologia Sintética sobre as implicações para a ciência e para a Sociedade da “Célula Sintética” feita pelo JCVI.

Ambos os artigos podem ser encontrados facilmente no pubmed.

Antes de entrarmos propriamente na discussão filosófica, quero apresentar brevemente a proposta do trabalho  e a metodologia utilizada.  Na apresentação, está resumida em apenas um slide, mas quero detalhar um pouco de cada etapa.

Minimização do Material Genético

Essa etapa consistiu em determinar, a partir de dois organismos simples (duas cepas (linkar uma referência explicando a palavra cepa) de Mycoplasma mycoides) com o genoma conhecido.  Muitos anos foram necessários para estabelecer o conjunto de genes que era estritamente necessários para a sobrevivência da bactéria. 100 de 485 genes testados foram considerados dispensáveis quando inibidos um de cada vez.

Design do Genoma

A combinação do resultado da minimização com algumas sequências de controle (watermarks) formou o genoma base para a síntese.  Ele precisava conter apenas os genes essenciais para a  sobrevivência da bactéria, ainda que o papel desses, individualmente,  não tivesse sido elucidado.

O design da sequência foi realizado digitalmente.

Síntese em Quatro etapas

Essa síntese foi, de fato, o grande feito realizado pelo grupo. Eles “montaram” a partir de  partes sintéticas bem pequenas um genoma com 1.08 mega pares de bases.  No primeiro estágio, 10 cassetes de 1080 pb sintetizados (overlapping  synthetic oligonucleotides) foram combinados, formando 109 assemblies de aproximadamente 10kb – setas em azul. Esses, em grupos de 10, foram recombinados para produzir os assemblies com aproximadamente 100 kb – setas em verde. Na etapa final, 11 desses foram combinados para produzir o genoma completo – circulo vermelho. Essas etapas foram realizadas, primeiramente em E.coli, as etapas finais, foram realizadas utilizando leveduras.

Para um melhor entendimento dos processos, recomendo que vá direto ao paper. Algumas leituras auxiliares podem ser necessárias.

Transferência do Genoma

O genoma sintetizado e montado foi transplantado em uma bactéria recipiente (Mycoplasma capricolum) que teve seu material genético totalmente removido. Toda a maquinália celular ( enzimas, organelas,membranas) estava intacta. Dessa forma, os elementos que seriam controlados pelo novo genoma e que atuariam sobre ele estavam presentes. Observe também que o gênero das bactérias (a que serviu como base para o genoma e a que recebeu o material genético sintetizado) é o mesmo. Sendo assim, é esperável que não haja rejeição ao novo material genético e morte da célula.

Após todos esses processos e análise do sucesso do transplante  a “nova” bactéria foi capaz de auto-replicação e apresentou o crescimento logarítmico característico das bactérias. Algumas mutações ocorreram durante o processo, mas essas não alteraram o desempenho da célula. Dessa forma, foram mantidas.

Depois de milhares de replicações celulares, as características da célula, bem como todos os seus componentes celulares eram derivados do novo genoma sintetizado, não guardando nenhuma informação da célula recipiente. Com isso em mente, os cientistas do JCVI afirmaram que de fato, criaram uma célula sintética.

Tal afirmação foi extensamente questionada por boa parte da comunidade científica. Para não alongarmos muito a discussão, aconselho que sigam pela apresentação, e observem as opiniões e divergências sobre o assunto.

Minha opinião também se encontra a apresentação e estou disponível para continuarmos essa conversa pelo comentários, caso se sintam a vontade. Em caso de dúvidas, comente.

Apresentação disponível em: http://prezi.com/veskghxybqgv/nature-entra-na-discussao/

Um Abraço.

Polimerase Por Segundo

ResearchBlogging.orgA Biologia é imprecisa por natureza, e vice versa. Isso é uma grande dificuldade ao se fazer design de sistemas biológicos sintéticos; aquilo que é muito bonito no papel às vezes nunca pode ser feito por motivos obscuros e por excesso de ruído dos sinais do sistema. Não dá pra prever. Na tentativa de deixar dispositivos sintéticos mais previsíveis, a Biologia Sintética tenta padronizar não somente partes biológicas, mas também os sinais que a compõem a dinâmica de seu sistema. Esses sinais são justamente a passagem de informação entre DNA e o fenótipo desejado, mas… como diabos deixar isso mais preciso e medir a velocidade dessa passagem de informação? Como medir “Polimerases Por Segundo”?

Padronização da Transmissão de Informação

Independente do que um aparelho elétrico faça, existem sinais “universais” que pertencem a todos eles: variações na diferença de potencial, na corrente, no campo elétrico e etc. A transmissão de informação entre os dispositivos eletrônicos que compõem esse aparelho são dadas justamente através desses sinais, fazendo todo o sistema elétrico funcionar. Em circuitos genéticos, sinais análogos à corrente elétrica são as taxas de transcrição e tradução, ou mais especificamente, a velocidade com que – respectivamente – uma polimerase e um ribossomo “leêm” seus nucleotídeos. O problema é que esses sinais (as taxas de transcrição e tradução) não são bons como transmissores de sinais. Entenda o porquê:

PoPS e RiPS: Qual é o sentido disso!?

Para que um transmissor de sinal seja bom, ele precisa facilitar com que dispositivos possam ser facilmente combinados em um sistema – além de ser algo “universal”, como foi dito anteriormente. Foi aí então que, usando experiências da engenharia, os biólogos sintéticos cunharam o termo “PoPS” (Polimerase Per Second - Polimerase Por Segundo) e “RiPS” (Ribossome Per Second - Ribossomo Por Segundo). Muitos pesquisadores acham que a criação desses novos termos é como “reinventar a roda”: qual seria a grande diferença entre isso e as clássicas taxas de transcrição e tradução? A diferença é a abrangência da nova medida. Quando se trata de um sítio operador, um RBS, um RNAm e o próprio gene sendo “lido”, não há diferença alguma em se medir uma taxa de transcrição e o “PoPS” ou uma taxa de tradução e o “RiPS”. Mas faz sentido se medir a taxa de transcrição de um sítio terminador por exemplo!? Esse elemento de DNA, que teoricamente não é transcrito (é ele quem justamente para a transcrição), ainda pode eventualmente ter um “leak” e permitir a passagem de uma polimerase. Usar a expressão “… a taxa de transcrição de um sítio terminador …” não faz sentido nenhum, mas acontece. Se usarmos PoPS, que por definição é o número de vezes que uma RNA polimerase passa por um ponto específico de uma molécula de DNA por unidade de tempo, ainda há sentido, pois nessa definição não importa qual a região do DNA a Polimerase passa. É esse tipo de generalidade que permite o fácil uso e novas combinações de dispositivos sintéticos.

Hierarquia de Abstração

Com a criação de sistemas fáceis de se integrar, os engenheiros biológicos podem se beneficiar de métodos largamente praticados em qualquer campo da engenharia, como a hierarquia de abstração. Com isso é mais simples se lidar com a complexidade de sistemas biológicos quando se omite informações desnecessárias. Desse modo (ver imagem abaixo), alguém trabalhando no nível de abstração das partes biológicas não precisa se preocupar com o design e síntese do DNA que usará, do mesmo modo, alguém trabalhando no nível sistêmico precisa pensar em apenas quais dispositivos incluir e como conectá-los para realizar uma função desejada, sem precisar se preocupar com os outros níveis de abstração.

Imagem retirada de: D. Baker, G. Church, J. Collins, D. Endy, J. Jacobson, J. Keasling, P. Modrich, C. Smolke, and R. Weiss. ENGINEERING LIFE: Building a FAB for biology. Scientific American, pages 44–51, June 2006.

Como medir PoPS?

A maioria dos sistemas criados e estudados hoje em dia em Biologia Sintética envolve controle transcricional da atividade genética, o que faz do PoPS a variável mais difundida na área, principalmente pelas pesquisas envolvendo lógica booleana em sistemas genéticos (portanto não é muito comum encontrar “RiPS” em artigos por aí).
Não existe um método direto para se medir PoPS, mas é possível chegar em seu valor indiretamente através de medições de fluorescência de genes reporter. É possível – se você puder encontrar os parâmetros na literatura ou medí-los – encontrar o PoPS de um dispositivo em cinco passos:

Cinco Passos Para o PoPS

1. Ligação de um Gene Repórter como Output

Antes de mais nada, será preciso de um fluorímetro (é claro) e demum espectofotômetro para medir densidade celular. Como exemplo, vamos observar a parte BBa_F2620:

Esse BioBrick tem como “entrada” a substância de quorum sensing 3-oxohexanoil-homoserina lactona e tem como “saída” PoPS. Em presença de 3OC6HSL, o gene que produz o fator de transcrição luxR promove a transcrição de genes após o Lux pR, na parte final do BioBrick BBa_F2620. Para mensurar o quão ativo o luxpR fica, liga-se outro BioBrick no final do dispositivo para mudar o output do sistema colocando-se o BBa_E0240 - a ORF (Open Reading Frame) do GFP (Green Fluorescent Protein):

Assim tem-se uma nova parte, o BioBrick BBa_T9002:

2. Medição da Fluorescência e Absorbância e Subtração do Background

Para medir a fluorescência do GFP e a absorbância da amostra de células, é preciso criar dois controles: um da absorbância (A) e outro da fluorescência (G). O controle da fluorescência será o próprio BBa_T9002 sem ser induzido pela substância de quorum sensing (G_não-induzido), enquanto o controle da absorbância é feita da maneira trivial, verificando somente a absorbância do meio de cultura (A_background). Para se obter os reais valores de Fluorescência induzida por 3OC6HSL e da densidade celular, basta então subtrair esses valores de background com os valores medidos durante a indução pela substância de quorum sensing:

3. Correlação com a Curva Padrão

Com as correções em mãos, outro procedimento trivial a ser feito é encontrar a curva padrão de fluorescência versus GFP e de absorbância versus número de células. Por exemplo, experimentos feitos em laboratório chegaram a essas retas de correlação de valores:

Em que UFC é “Unidade Formadora de Colônia” – o número de células na amostra. E “GFP” seria o número de moléculas de GFP medidas.

4. Interpolar a Curva de GFP versus Tempo Obtida na Medição

A síntese total de GFP por célula (S_célula) é dada pela taxa de produção de GFP total (S_total) dividida pelo número de células (UFC):

Para encontrar a derivada de [GFP] por tempo, basta plotar os dados de GFP obtidos por tempo e interpolar com uma função logística (provavelmente) para obter a equação que melhor descreve a variação de GFP no tempo.

5. Colocar os Valores Nessa Equação Aqui

Depois de determinada a função Scélula, basta colocá-la nessa fórmula e encontrar o PoPS:

Em que:
a = Taxa de maturação do GFP – 1/s
GammaM = Constante de degradação do RNA – 1/s
GammaI = Constante de degradação do GFP imaturo – 1/s
Rô = Constante de síntese proteica por RNAm (RiPS) – [Proteína]/[RNAm].s
PoPS = Polimerase por segundo – [mRNA]/[DNA].s

CUIDADO: Conteúdo Matemático – Prossiga com Cuidado (Ou não…)

Chega-se nessa expressão através de um pequeno sistema de equações diferenciais:

As equações expressam uma dinâmica simplificada de um sistema de transcrição e tradução de uma informação genética. Para chegar na expressão de PoPS, basta substituir a última equação na segunda e isolar M. Com a expressão resultante, basta substituir a variável M na primeira equação e sua derivada em dM/dt.

ATENÇÃO: Aqui acaba o conteúdo matemático. Está tudo bem agora.

E essa é a história de como você pode encontrar o PoPS – essa variável estranha! – no seu próprio laboratório (ou ao menos entender do que se trata). Assim como um circuito elétrico, que pode ser montado da melhor maneira possível e mesmo assim não funcionar por razões obscuras, sistemas biológicos têm muito mais esse problemático costume de não se comportar como esperado. Contudo essa abordagem mais generalista da atividade transcricional de uma célula é uma boa maneira de se tentar enfrentar o grande desafio de se deixar a biologia mais “engenheirável” e mais “precisa”. Não que essa seja a coisa mais fácil do mundo, mas ela nunca será se ninguém tentar. E estamos aos poucos conseguindo.

Referências:

Synbio na terra da Mafalda

Entre os dias 16 e 22 de abril rolou um curso introdutório de biologia sintética, o primeiro desse tipo na America Latina, hosteado pela Universidade de Buenos Aires e financiado pela Organização Europeia de Biologia Molecular (EMBO). Eu fui um dos participantes selecionados, e vou divulgar numa série de posts um pouco do que rolou por lá =)
Esse é um primeiro post sumarizando o curso, e os próximos posts com a sigla [SBAr] se referem ao conteúdo do curso!

Continuar lendo

Entenda a Engenharia Metabólica

ResearchBlogging.orgUma das grandes maravilhas da humanidade – objeto de grande satisfação entre os químicos – é uma tabela que nos diz tudo o que existe no universo, os cerca de 120 elementos que formam tudo aquilo que o ser humano conseguiu perceber. Usando essa mesma ideia, cientistas conseguiram determinar 12 substâncias principais que podem produzir tudo… o que existe dentro de uma célula! Esse é um dos princípios fundamentais da Engenharia Metabólica, entenda o porquê:

Os 12 Precursores Principais

Tudo o que uma célula consome sempre produz compostos que chamamos de “precursores principais”. São esses precursores que podem gerar tudo dentro da célula: desde seu DNA até às membranas celulares. Na bactéria E.coli, por exemplo, existem 12 dessas substâncias principais: Eritrose 4-fosfato, o famoso Acetil CoA,  Frutose 6-fosfato, Glucose 6-fosfato, Alfa-cetoglutarato, Oxaloacetato, Ribose 5-fosfato, Fosfoenolpiruvato, 3-fosfoglicerato, Piruvato (esse carinha é famoso também), Triose-fosfato e Succinil CoA. Isso quer dizer que a grande maioria de todas a milhares de reações dentro da E.coli em algum momento formam e/ou consomem essas substâncias em suas etapas de reação.

Assim, ao melhor estilo dos antigos alquimistas, pesquisadores – em especial FC Neidhardt - dissecaram células de E.coli de modo a determinar a quantidade desses precursores que seria necessária para “construir” uma bactéria (ver infográfico acima):

Ou seja, todos os precusores somados às moléculas para se realizar oxidações (NAD), reduções (NADPH) e fornecer energia (ATP), resultam em 1 mol de “XR”, que é a quantidade de biomassa produzida com esses compostos, ou “1 mol de células” (definida aqui como a quantidade de células em 10^6g). XR seria um arcabouço que abarca todas as proteínas,  lipídeos e  nucleotídeos da célula; por isso não podemos dizer que essa é de fato uma equação química, mas uma “pseudo-equação química”, afinal dá pra ver claramente que as quantidades das substâncias não se conservam em termos estequiométricos – pra falar a verdade, não há nem a representação de elementos, são só siglas.

Enfim, esse é o mais próximo que chegamos do desejo dos alquimistas de obter uma receita para a vida como eles idealizaram, mas apesar de parecer pouco, essa pseudo-reação global de “construção de células” nos permite contabilizar literalmente quais são os recursos que as bactérias têm para produzir coisas que não produzem natualmente, ou seja, nos mostram quais são as cartas em jogo quando se altera um organismo geneticamente. E o nome desse jogo é fluxo, fluxo metabólico.

O Fluxoma

Uma célula é como se fosse uma mini indústria: seus operários são enzimas, a chefia é a informação genética e a matéria prima são os metabólitos externos com o qual se produzem as peças – que são os 12 metabólitos principais – para a linha de montagem: as etapas de reações bioquímicas. Essa pequena empresa é um empreendimento talhado pelo mercado competitivo, ditado pela economia minimizadora de enegia, seguindo a lógica da seleção natural. Igualzinho às empresas de verdade. Mas enfim, a grande pergunta é: o que acontece quando a chefia muda? O que acontece quando modificamos geneticamente um microrganismo? Apenas colocar uma informação genética não natural na “chefia” é o mesmo que colocar um administrador inexperiente no comando de todo um processo produtivo que ele não conhece. É ir contra milhares de anos de seleção natural.

Arte de Pedro Pantai. Visite http://meninodacaixadesapato.blogspot.com.br/

Por exemplo, imagine que a nossa célula é uma fábrica de motos. Depois de muitos anos existindo, decidem colocar uma nova chefia adjunta no comando. O novo chefe adjunto decide colocar uma nova maquinaria e funcionários no chão de fábrica, pois quer ampliar a gama de produtos que a empresa fabrica. A indústria de motos então passa a produzir triciclos; nada mal. O problema é que a nova chefia SÓ faz isso. Ele não comunica os antigos funcionários sobre a nova produção, não compra mais matéria prima e, apesar de desejar que o carro chefe da empresa seja triciclos, não move uma palha para que isso aconteça. Em outras palavras: temos uma fábrica de motos que improvisa na fabricação de triciclos. É aí que entra o engenheiro de produç… Ops, o “engenheiro metabólico”.

O grande problema da nossa indústria de motos é apenas de distribuição das peças, afinal – simplificadamente – a grande diferença do produto antigo para o novo é apenas uma roda. Da mesma maneira, em uma célula a grande diferença entre os componentes que ela já produz para existir (o “XR” da pseudo-reação acima) e as novas substâncias que queremos que ela produza (por modificações genéticas) é apenas uma combinação de quantidades diferentes dos 12 precursores principais que levem às reações de síntese que queremos. Para ter controle dessas reações que levam à XR e/ou ao bioproduto desejado, cria-se o chamado “fluxoma”, a contabilização de todos as taxas de reação (os fluxos) de dentro da célula – da mesma forma que o genoma é a contabilização de toda a informação genética de uma célula.

ATENÇÃO: se a matemática não é sua amiga, tome cuidado com o conteúdo a seguir.

Fluxos Metabólicos

A teoria que se aplica para a determinação desses fluxos baseia-se na simples conservação de masa em um sistema fechado, no caso uma célula ou um compartimento celular fechado com metabólitos; especificando a reversibilidade das reações e quais metabólitos são considerados como internos e externos. A equação geral que descreve a conservação de massa de metabólitos em um sisema de volume definido pode ser escrita como:

Em que C (mol/L) é um vetor da concentração de m metabólitos internos; r ((mol/L)/h) é o vetor do grau de reação, ou seja o fluxo,  de n reações que convertem metabólitos; S é a matriz estequiométrica de dimensões  m x n cujos elementos sij representam o coeficiente estequiométrico do elemento i envolvido na reação j; e μ (1/h) é o grau específico de diluição associado com a mudança no volume de um sistema, o que é muito importante considerar no modelo, pois o graus de diluição afetam diretamente as velocidades de reação. Como em uma célula o grau de diluição é muito baixo quando comparado com os graus de reação, as mudanças de volume no sistema são consideradas negligenciáveis. Temos portanto a equação mais simplificada:

Em um estado estacionário, que é o que se considera na análise de um fluxo metabólico, não há acúmulo de metabólitos, e portanto suas concentrações, bem como a população bacteriana, tornam-se constantes, fazendo com que dC/dt = 0:

A caracterização de reações reversíveis é realizada através da detreminação do sinal de ri, em que ri < 0 delimita a reação ocorrendo no sentido oposto, ri = 0 informa a sua não-ocorrência e ri > 0 indica uma reação ocorrendo no sentido esperado.

Uma outra maneira mais simplista de se entender o mesmo raciocínio, partindo do mesmo princípio de conservação de massa, pode ser:

O que é o mesmo que S.r = 0. Considerando as substâncias envolvidas em várias reações, teremos o mesmo resultado:

OBSERVAÇÃO: Aqui acaba o conteúdo matemático. Pode continuar a ler abaixo, já passou…!

Análise de Vias Metabólicas

Então, como dá pra perceber, tudo se resume a encontrar um sistema de equações – sim, os sisteminhas de equações que você aprende a resolver na escola – que descreva o metabolismo da célula envolvendo os metabólitos principais. É exatamente aqui que entram os dados da pseudo-reação global comentada no início, é ela que define, junto com dados experimentais de consumo de substratos, o conjunto de soluções desse sistema de equações (chamados de “modos elementares”). Os sistemas de equações obtidos por análise das vias metabólicas são sempre indeterminados, uma vez que o número de reações bioquímicas as envolvendo é muito maior que o número de espécies de metabólitos, ou seja: tem-se mais equações que variáveis. A tarefa de programas de análise de vias metabólicas é encontrar possíveis soluções para esse sistema que digam quais são os possíveis fluxos de todas as reações envolvidas, com isso é possível analisar qual modo elementar é o que possui maior rendimento de produção do bioproduto desejado, e portanto quais reações que devem ocorrer no sistema em detrimento de outras.

Por exemplo, vejamos o exemplo da produção de Lisina em Corynebacterium glutamicum. Esse aminoácido é naturalmente produzido em nível basal na célula para manutenção da atividade celular, apenas super-expressando os genes envolvidos nas vias de produção de lisina e nocauteando outros genes que produzem enzimas competidoras (essas são grandes maneiras de se alterar os fluxos metabólicos) da biosíntese de lisina é possível aumentar cerca de 11 vezes a produtividade. Isso pode ser feito sem análise nenhuma. Mas se analisando os fluxos metabólicos (imagem abaixo), vemos que é possível quase dobrar a produção industrial de Lisina à partir da mesma quantidade de glicose. Assim como na analogia entre a indústria e a célula, única diferença foi a distribuição dos fluxos entre os precursores principais da C. Glutamicum, ou seja uma combinação diferente de quantidades dos precursores em diferentes reações.

No caso, um aumento do fluxo metabólico pela via das pentoses (formando Ribulose 5-fosfato) em um processo sem produção de CO2 – realizando o ciclo do glioxilato - aumenta a produção por gerar mais NADPH, necessário na biosíntese de Lisina, e que não é produzida na via “normal” de degradação da glicose (via de Embden-Meyerhoff-Parnas).

O Futuro da Engenharia Metabólica

Muitos dizem que a engenharia metabólica será tão eficiente em otimizar os processos biotecnológicos que substituirá completamente os processos químicos orgânicos no futuro, afinal esse é o grande entrave para termos toda uma indústria baseada em uma bioprodução: os processos químicos são muito mais eficientes. Ter toda a indústria química baseada na produção de materiais por organismos nos daria um mundo mais ecológico e renovável. O grande passo para isso já foi dado com a “synthia“, a bactéria sintética de Craig Venter e seu grupo. O desafio de se fazer engenharia metabólica é justamente o problema que foi eliminado – EDITED: OK, não eliminado, mas amenizado – quando se nocauteou todos os genes não essenciais para a sobrevivência na bactéria produzida por Venter, pois qualquer nova via colocada no microrganismo já estaria quase completamente otimizada, uma vez que não existiriam fluxos “não essenciais” em que a bactéria poderia estar “desperdiçando” energia em vez produzir o bioproduto dos genes com que foi modificada. Assim, como um upgrade da engenharia genética, a engenharia metabólica faz aquilo que torna a Biologia Sintética algo simples e bonito: apenas uma mudança inteligente de como a informação é transmitida; uma mudança de design. No final das contas, mais do que pseudo-realizar os sonhos dos alquimistas, entender os fluxos metabólicos é mudar a maneira como os químicos atuais sonham com o futuro, afinal, porque reinventar como produzir substâncias orgânicas se os próprios organismos podem fazer isso pela gente!? Já está mais do que na hora de reinventarmos nossa indústria.

Referências

Vallino JJ, & Stephanopoulos G (2000). Metabolic flux distributions in Corynebacterium glutamicum during growth and lysine overproduction. Reprinted from Biotechnology and Bioengineering, Vol. 41, Pp 633-646 (1993). Biotechnology and bioengineering, 67 (6), 872-85 PMID: 10699864

Neidhardt, F. C., J. Ingraham, and M. Schaechter. 1990. Physiology of the Bacterial Cell: A Molecular Approach. Sinauer Associates, Sunderland, MA.

Computadores bacterianos

De acordo com o verbete do wikipedia, um computador é uma máquina programável desenhada para, automaticamente, realizar um sequência de operações aritiméticas ou lógicas. Um computador pode prover-se de inúmeros atributos, dentre eles armazenamento de dados, processamento de dados, cálculo em grande escala, desenho industrial, tratamento de imagens gráficas, realidade virtual, entretenimento e cultura.

Os primeiros computadores analógicos surgiram no século XVII e eram capazes de realizar as funções básicas de somar, subtrair, multiplicar e dividir. Mas foi na II Guerra Mundial, em meados do século XX, que realmente nasceram os computadores atuais. A Marinha dos Estados Unidos, em conjunto com a Universidade de Harvard, desenvolveu o computador Harvard Mark I, projetado pelo professor Howard Aiken, com base no calculador analítico de Babbage. O Mark I ocupava 167m2 e pesada cerca de 30 tonelada aproximadamente, conseguindo multiplicar dois números de dez dígitos em três segundos.Seu funcionamente era parecido com uma calculadora simples de hoje em dia. Nem é preciso falar o quanto esta tecnologia se desenolveu até hoje, em que hoje se discuti processadores quânticos e se faz computação em nuvem.

Uma plataforma diferente das “baseadas no silício”, que estamos acostumados, são os biocomputadores. Em 1994, em um experimento muito elegante, Leonard Adleman desenvolveu o primeiro experimento envolvendo um computador de DNA para resolver o problema do Caminho Hamiltoniano: um problema que envolve caminhos hamiltonianos é o problema do caixeiro viajante, em que um caixeiro deseja visitar um conjunto de N cidades (vértices), passando por cada cidade exatamente uma vez, fazendo o caminho de menor tamanho possível (Figura 1).

 

Figura 1. O grafo em vermelho é hamiltoniano. Cada bola é um nó e cada flecha é uma aresta.

Existem multiplas possibilidades de construir um computador baseado em DNA, em que cada um possui suas vantagens e desvantagens. A maioria deles funciona utilizando as portas lógicas (AND, OR, NOT) associadas a lógica digital utilizando como base o DNA, como por exemplo,  o contador bacteriano . Porém os primeiros computadores moleculares baseados em DNA, são reações in vitro utilizando, por exemplo, enzimas de restrição, ligases, e DNA (Benenson et al. 2001). Através da mistura desse componentes e reações em cascada de digestão, ligação e hibridização, o output final é uma molécula detectável que representa o resultado computacional.

Em 1994, Leonard Aldleman foi capaz desenvolver um computador in vitro baseado em DNA para solucionar o problema  do Caminho Hamiltoniano (Figura 1), porém apenas em 2009, Baumgardner e colaboradores conseguiram resolver um problema complexo in vivo, em E. coli. Porém, para entender, é necessário uma série de abstrações para tornar sequências de DNA em vértices e arestas de um caminho hamiltoniano (ver Figura 2). A primeira abstração trata segmentos de DNA como as arestas de um determinado grafo. As arestas de DNA são flanqueados por sítios hixC que podem ser embaralhados por um recombinase Hin, criando diversas ordens e orientações randômicas para as arestas do grafo. A segunda abstração está relacionada com os nós, com exceção do nó terminal, em que um nó é um gene divido ao meio por uma sequência hixC. Os autores conseguiram construir enzimas funcionais portando essas sequências codificadas no DNA. Dessa maneira, a primeira metade (5´) de um nó é encontrada na aresta de DNA que termina em um nó, enquanto a segunda metade (3´) do gene é encontrado em uma aresta de DNA que se origina no nó. Calma, realmente não é fácil entender, é preciso pensar e abstrair, veja a figura 2.

 

 Figura 2. Construção de DNA que codificam um problema do Caminho Hamiltoniano com três nós. a. O grafo contendo o caminho Hamiltoniando começa no nó RFP, procedendo para o nó GFP e terminando no nó TT. b. Construção ABC representam a solução para o problema dos três nós. Os três fragmentos de DNA flanqueado por hixC estão na ordem e orientação corretas, de maneira que os genes GFP e RFP estão intactos. ACB possui o gene RFP intacto, porém o gene GFP está errado, por fim, a construção BAC não possue nenhum gene intacto.

 A Figura 2a mostra o grafo com os 3 nós e as 3 arestas que foram escolhidas para serem codificados no computador bacteriano. O gráfico contêm um único caminho hamiltoniano que começa no nó RFP, viajando pela aresta A até o nó GFP, e utilizando a aresta B até alcançar o nó final TT. A aresta C, the RFP até TT é um detrator. A Figura 2b ilustra como as construções de DNA foram utilizadas para solucionar o problema do Caminho Hamiltoniano com um controle positivo e duas configurações sem soluções. Já que as soluções precisam originar no nó RFP e terminar no nó GFP, a aresta A de DNA contêm na extremidade 3´a metade de RFP seguida por a extremidade 5´de GFP. A aresta B de DNA se origina em GFP e termina em TT, dessa maneira, esse fragmento de DNA possui 3´GFP seguido de um terminado de transcrição duplo. A aresta C se origina em uma metade 3´ de RFP e termina em TT. Finalmente, com os genes codificadores para RFP e GFP estão intactos, com promotores e RBS, e seguintes de um terminador de transcripção, colônias ABC expressam fluorescência vermelha e verde, dessa maneira, possuem aparência amarela.

A programação de bacteria para computar soluções de problemas complexos podem oferecer as mesmas vantagens dos computadores atuais que estamos acostumados, porém, com as seguintes características adicionais: (i) sistemas bacterianos são autônomos, eliminando a necessidade de intervenção humana, (ii) computadores bacterianos podem se adaptar a condições flutuantes, evoluindo para resolver desafios de determinados problemas e (iii) o crescimento exponencial de bactérias continuamente aumente o número de processadores trabalhando em um problema (Baumgardner et al., 2009).

 Sem contar que eles ainda poderiam fazer fotossíntese…

 Adleman LM: Molecular computation of solutions to combinatorial problems. Science 1994, 266:1021-1024.

Benenson Y, Paz-Elizur T, Adar R, Keinan E, Livneh Z, Shapiro E: Programmable and autonomous computing machine made of biomolecules. Nature 2001, 414:430-434.

Baumgardner , J et al.  Solving a Hamiltonian Path Problem with a bacterial computer. J. Biol. Eng. 2009, 24;3:11.

O que é Biologia Sintética?: Reloaded

Como já foi postado aqui, “o que é biologia sintética?” é uma pergunta pouco difícil de definir. Synbio é uma área de intersecção entre Biologia de Sistemas, Engenharia Genética, Biofísica, Biocomputação, Engenharia Metabólica, Biologia Molecular e áreas relacionadas afins. Portanto, não é nada fácil dizer  que “aquilo” ou “isto” é biologia sintética porque apontar para algo em Synbio é também apontar para outras áreas mais veteranas no mundo da ciência.

Continuar lendo

DNA como Código de Barras

DNA barcodeDesde o incrível advento do sequenciamento gênico lá pelos idos dos anos 70 o volume de dados obtidos das mais variadas combinações de nucleotídeos encontradas na natureza é estonteante. Fazendo um cálculo bem simples com só cinco nucleotídeos, temos 3125 combinações diferentes das letrinhas A,T,C e G!

É lógico que hoje também conhecemos uma enorme quantidade de padrões dessas letrinhas que nos dizem: “Olha, aqui termina um gene!”, ou “É aqui que o ribossomo gruda!”, entre outras coisas. O ruim é que só à partir do DNA é bem mais trabalhoso e difícil dizer de qual criatura vieram aquelas informações encriptadas ali quando comparada à mera observação daquele ser vivo. E em alguns casos, mesmo que se conheça de onde vem o DNA, há a dúvida se ele veio mesmo de onde parece ter vindo: como se poderia ter certeza, por exemplo, se aquela bonita carteira de couro que te deram de presente não veio de uma espécie de jacaré em extinção em vez de um réptil criado em cativeiro!? A grande ideia é fazer o mesmo que você faz quando vai ao supermercado: em vez de escanear cada dobra da embalagem, abri-la, fazer uma fina análise do conteúdo, além de ter que sair por aí perguntado quanto custa, basta colocar aquela figurinha cheia de barras que existe em algum canto da embalagem num detector e pronto! Você passa a saber com rapidez do que se trata aquilo. No código genético tenta se fazer a mesma coisa.

A Vida Rotulada

A região do DNA (lócus) que deve ser usada para ser um “código de barras” (CB) tem que ao mesmo tempo ser conservada e variável, do mesmo modo que os CB’s são todos barrinhas pretas de mesmo tamanho, mas com comprimentos e espaçamentos variáveis. Essa região pode variar com os reinos dos seres vivos, mas no caso dos eucariotos, a região de 648 pares de bases do DNA mitocondrial que codifica a subunidade 1 da enzima citocromo mitocondrial C oxidase, é hoje amplamente usada como código de barras. O DNA mitocondrial é ideal para ser usado como CB uma vez que sua taxa de mutação nos seres vivos durante a evolução é muito alta, o que resulta em uma variação significativa das sequências entre as espécies.

Rotulando uma parte pelo todo é muito mais fácil para os biólogos associarem uma marca única de cada espécie às suas já elaboradas classificações do zoológico da vida, além de tornar muito mais fácil o controle, detecção e proteção de várias espécies de animais. Exitem grandes bancos de dados com um número crescente de DNA Barcodes (códigos de barras de DNA), um dos mais notórios é o projeto International Barcode of Life (Com site muito bonito aliás!) que já conta – pelo menos até agora pouco quando dei uma olhada – cerca de 1 milhão e 330 mil espécies no catálogo.

Código de Barras Literal

Aqui é o ponto em que a biologia sintética, ou pelo menos a engenharia genética, entra nisso tudo: como rotular os transgênicos? Bem, esse é um probleminha que foi bem discutido nos últimos anos que se passaram, principalmente porque as indústrias não queriam facilitar que sua tecnologia fosse copiada por outras companhias, enquanto governos e opinião pública queriam uma regulamentação que gerassem medidas que discriminassem um produto transgênico de um não-transgênico – um pouco por motivos ideológico-sociais, mas principalmente por motivos ecológicos: tornando a possibilidade de rastrear os culpados na hipótese de uma contaminação em certeza, haveria uma maior pressão para execução adequada das medidas de segurança impostas pela lei.

Foi aí então que criaram – ou melhor patentearam – uma padronização para códigos de barras bem interessante, que além de naturalmente tornar a identificação do transgênico muito mais fácil à partir de uma simples amostra de DNA, mantém a tecnologia em segredo e ainda conta com os mesmos processos utilizados em computador para correção de dados e compactação dos mesmos. Além dessa padronização que iremos explicar adiante, o próprio pessoal do Registro de Partes Padrão desenvolveu um Barcode para os Biobricks, que não é tão sofisticado, mas que corresponde à sua finalidade.

Escrevendo Com Quatro Letras

Para escrever textos com apenas quatro letras é muito simples se você sabe escrever

Imagem modificada retirada de http://tinyurl.com/3g46mnj

letras com números. Os computadores usam uma tabela que traduz o valores numéricos (ou melhor, bits) associados à um caractere do alfabeto alfanumérico: a famosa tabela ASCII. Para escrever letras no DNA então é muito mais fácil que no computador, principalmente porque ele utiliza o sistema binário de contagem, enquanto no DNA é possível usar o quaternário, com os 4 “números” possíveis: A, T, C e G, valendo 0, 1, 2, e 3 respectivamente (ver figura ao lado).

Com isso foi possível criar a seguinte (ver imagem abaixo) construção não-codificante de DNA que conta com informações relativas à por exemplo o nome da companhia, a espécie que foi modificada, ao ano em que o transgênico foi construído, e qual construção é aquela dentre todas as que a empresa possui. Ou seja, tudo aquilo que um código de barras em um transgênico precisa ter.

Código de Barras no DNA

Imagem modificada retirada de http://tinyurl.com/3g46mnj

No caso da imagem acima, o sistema binário de contagem foi utilizado, em que 1 é a sequência TGT e 0 é TAC. Os números 1, 3 e 1 do nome da empresa, espécie e construção gênica seriam consultados em banco de dados, de modo a identificar produtor do transgênico.

Esse tema foi até um projeto do iGEM, realizado pelo time de Hong Kong em 2010, cuja a grande ideia foi criar um processo que literalmente criptografa dos dados inseridos em DNA através da ação de uma recombinase. Além disso desenvolveram um programinha que converte os dados de caracteres (char) à números quaternários, disso à ATCG e depois à uma versão compactada da sequência (Quanto maior e mais repetitivo o texto, melhor é a compactação, se o texto for pequeno e pouco repetitivo a compactação vai fazer o trabalho oposto); vale a pena dar uma olhadinha (nesse link aqui ó: http://2010.igem.org/Team:Hong_Kong-CUHK/Model).

Synbiobrasil no “alfabeto nucleotídico” é TTAGTGCTTCGCTCACTCCTTCGGTCACTGACTCATTGAGTCCTTCGA (grande né!?). :)

À Prova de Erros

Tanto em computadores como no sequenciamento genético erros podem acontecer, em que um 1 pode se tornar um 0 ou um A pode se tornar T (apesar de isso acontecer com muito mais frequência no DNA). Em ambos usa-se os mesmos métodos que podem identificar o erro, e se for pequeno, repará-lo, possibilitando a leitura correta da informação. Esses métodos chamam-se Checagem de Pares e Códigos Convolucionais, e utilizam bits… ops, quer dizer, utilizam números secundários usados para verificar a consistência dos dados. Têm-se então os números fonte (f), que são os que contém a informação a ser lida e os número de checagem de paridade (p), estes últimos têm valor 1 se um conjunto determinado de números fonte tiverem uma quantidade ímpar de 1s (“ums”) e zero se o contrário.

Na checagem de pares o negócio funciona com números de checagem verificando blocos de código. Por exemplo: os números fonte 1001 (f1 f2 f3 f4) são verificados por três números de checagem: p1, que verifica os três primeiros dígitos, p2 que verifica a paridade do primeiro, segundo e quarto dígitos, e p3 que verifica o primeiro, terceiro e quarto dígitos. Temos então o seguinte código de checagem de pares: 1001100 (números de checagem em itálico), pois:

  • f1(1) + f2(0) + f3(0) = p1 (1), pois se tem “um 1″
  • f1(1) + f2(0) + f4(1) = p2 (0), pois se tem “dois 1s”
  • f1(1) + f3(0) + f4(1) = p3 (0), pois se tem “dois 1s”

Durante a leitura se não houver correlação entre os números de checagem e fonte, é possível dizer onde aconteceu o erro (caso o erro não seja generalizado). No exemplo foi utilizado um bloco de tamanho 4, mas ele pode ser maior, o que aumenta também o tamanho do código de checagem.

Utilizando Códigos de Convolução o processo é bem parecido, mas não ocorre em blocos, nele cada fn possui um pn que verifica os dois números fonte predecessores. Por exemplo, o número 1011 ficaria: 11011110 (f1 p1 f2 p2 f3 p3 f4 p4), pois:

  • f1(1) = p1(1), pois se tem “um 1″
  • f1(1) + f2(0) = p2(1), pois se tem “um 1″
  • f2(0) + f3(1) = p3(1), pois se tem “um 1″
  • f3(1) + f4(1) = p4(0), pois se tem “dois 1s”

Ensinando o computador a fazer os cálculos, utilizando esses dois métodos, e fazendo a conversão de zeros e uns para nucleotídeos (e vice-versa) é possível criar um sistema de leitura do sequenciamento genético do código de barras à prova de erros, preservando a informação original inserida na célula.

DNA “Zipado”

Assim como muita coisa na biologia sintética, os mesmos princípios da computação também podem ser aplicados na decodificação de informações inseridas em DNA. O mesmo algoritmo de compactação de arquivos usado na computação também pode ser usado para compactar as informações a serem inseridas em DNA, salvando espaço, tempo de leitura e dinheiro no bolso das empresas. É o amplamente conhecido Algoritmo de Codificação de Huffman (veja o link!), que se baseia no encurtamento de códigos bastante frequentes de um arquivo através de um algoritmo recursivo que constrói a “Árvore de Huffmam“, uma ramificação binária de nós de dados que contém informações relativas às frequências de caracteres. É preciso um pouco de conhecimento de programação para entender melhor como ele funciona; e isso foge um pouco do escopo desse post. Mas basta entender que você pode “zipar” as informações dentro do DNA!

Vale muito a pena conferir os links abaixo se você quiser saber mais sobre o assunto:

E até o próximo post!
Ou como se diria em 72 pares de base:
TAATTGTAGCCTACAATCGGACAATGAATGACGGAGTGCATCCTTCGTTCGGACAATGAATCGGTGAGTGTA!