Adentrando no mundo das filogenias por dados moleculares

Parte 1

Leandro Pereira Tosta

Universidade Federal do ABC

e-mail: leandropereiratosta@gmail.com

Sistemática: a “arte” de classificar

O ato de organizar e classificar as coisas tem por objetivo a comunicação entre as pessoas. Mas, existe algum padrão nessa comunicação? Todos nós entendemos o que todos nós falamos? A teoria da informação nos traz a resposta: em toda comunicação sempre haverá certo tipo de ruído! O ruído pode ser de cunho cultural, temporal ou espacial. Devemos considerar o momento histórico em que nos encontramos, a cultura que nos forma como pessoas sociáveis (ou não) e onde nos encontramos geograficamente. Logo, não há uma forma padrão de comunicação para tudo e entre todos. Mas há tentativas modernas: a partir da ciência nascente após a revolução francesa, o senso comum deixou de ser a base de medida para todas as coisas. O método científico passou a ser pregado a fim de orientar o homem em direção a um modelo de comunicação no qual todos os falantes que desejam compartilhar dessa “padronização”, necessária e inquestionável, pudessem fazê-lo.

Na sistemática biológica, o ato da classificação segue alguns critérios. Imaginemos descrever uma espécie no norte da África e mais ao sul também ser descrita a mesma espécie. Sabe-se da grandiosa miscelânea cultural africana: sem um padrão, os atos de comunicação, descrição e classificação seriam inviáveis mesmo dentro de um único continente (quem diria o mundo!).

Segundo o entomólogo alemão Willi Hennig (1950), os organismos que compartilhassem condições derivadas de caracteres poderiam ser inferidos como sendo descendentes da espécie ancestral a partir da qual a condição primitiva foi herdada. Para exemplificar, toma-se por base um organismo qualquer que possua apêndices que atue diretamente na sobrevivência desse animal. Ao longo dos tempos mutações e recombinações cromossômicas ocorrem na linhagem que remete a esse organismo, alterando os padrões morfológicos desses apêndices e os dotando de potencial de locomoção (apêndices primitivos dando origem às pernas). Deve-se considerar que as chances de tais alterações proporcionarem melhor desempenho de sobrevida e sexual são ínfimas. É uma loteria natural onde as chances do organismo sobreviver e repassar suas informações são muito pequenas. De qualquer maneira, Hennig chamava as características primitivas (os apêndices primitivos no nosso exemplo) de características plesiomórficas e as condições derivadas das primitivas (as pernas hipotéticas) de apomórficas.

Atualmente, partindo da necessidade de padronização da sistemática, faz-se necessário o uso de metodologias cada vez mais eficazes. O papel da sistemática filogenética, portanto, passa a ser o de organizar o conhecimento sobre a diversidade biológica a partir das relações de parentesco entre os grupos e do conhecimento da evolução das suas características morfológicas, comportamentais, ecológicas, fisiológicas, citogenéticas e moleculares. Como já discutido nesse blog, o resultado de tais estudos são apresentados graficamente na forma de filogenias (Miyaki et al., 2001).

Algoritmos para reconstrução da “Árvore da Vida”

Algoritmos são as técnicas usadas para exercer uma dada função ou uma atividade – são sequências finitas de instruções bem definidas e não ambíguas. Na biologia moderna eles são usados em diversas ocasiões desde diagnósticos médicos até reconstruções de árvores evolutivas. Sem tais algoritmos, seria inviável promover certas tarefas como as análises filogenéticas. No caso de nosso estudo, uma das ferramentas é de natureza molecular, i.e., as bases moleculares serão úteis para recriação de árvores da vida, enfatizando os metazoários (animais). Devido ao grande quantidade de informações nas amostras que serão analisadas, faremos uso de alguns algoritmos para reduzir o tempo de análise. Deve-se considerar que diferentes algoritmos podem influir nos resultados (Russo et al., 1996; Takezaki e Gojobori, 1999).

Para se ter uma idéia do tamanho do problema, um exemplo é útil: estima-se que algumas proteínas advindas do veneno da cascavel Crotalus durissus, muito comum em toda extensão do país, possuem cerca de 3000 aminoácidos (9000 bases de nucleotídeos); seria inviável a comparação manual, sem utilização de algum algoritmo computacional, de tais proteínas entre essa e outras espécies para construção da história evolutiva do grupo das serpentes e também deve-se salientar os mais novos trabalhos com nucleotídeos de artrópodes com mais de 42 mil bases analisadas em trabalhos de filogenia molecular com auxílio computacional.

Serão apresentados dois grupos de algoritmos usados para a obtenção de filogenias: os algoritmos exatos e os algoritmos heurísticos (Miyaki et al., 2001).

Algoritmos Exatos

O primeiro algoritmo a ser descrito é o da “busca exaustiva”. Tal algoritmo consiste em enumerar todas possíveis árvores existentes para os grupos taxonômicos sob escrutínio. Avalia-se, posteriormente, qual árvore melhor representa a situação em análise, seguindo critérios como parcimônia ou máxima verossimilhança.

Outro algoritmo exato é o “Branch-and-Bound”. Tal algoritimo assemelha-se ao da busca exaustiva. Todas as possibilidades são testadas na formação das árvores filogenéticas a um determinado número de amostras. A diferença é que o algoritmo descarta possibilidades subótimas, diminuindo o tempo de análise.

Algoritmos Heurísticos

Inicialmente descreveremos de modo simplificado a “decomposição por politomia”. Essa consiste em unir todos os táxons em um único nó interno. Depois se analisa cada par de decomposições do nó inicial desconsiderando condições subótimas.

Outro algoritmo é o “stepwise addition”. Forma-se uma árvore com três táxons. As etapas seguintes consistem em adicionar táxon por táxon, analisando as melhores posições (segundo o critério escolhido) entre tais táxons.

O terceiro algoritmo heurístico é o “branch-swapping” que consiste em análise de um grande número de táxons ao mesmo tempo. O algoritmo rearranja de forma a trocar as posições entre táxons vizinhos a fim melhor representar as posições possíveis.

Critério: Máxima Parcimônia

O método é simples por natureza, mas de grande utilidade e aplicação. Em linhas gerais, prevê que o aparecimento único de um caráter é mais provável que dois aparecimentos independentes.

Para o entendimento do método da máxima parcimônia segue a descição: as características posteriores à ocorrência de um dado traço morfológico ou molecular em seu estágio primitivo (plesiomórfico) serão herdadas nas novas espécies surgidas a partir dos ancestrais comuns (sinapormorfias). Não considerar tal método pode nos induzir a afirmar que os traços morfológicos semelhantes entre os descendentes e o organismo ancestral ocorreram por obra do acaso, por mera coincidência!

Para nosso estudo molecular, é mais parcimonioso pensar que uma base muda de A (adenina) para T (timina) – uma única mudança – do que de A para C (citosina) e posteriormente para T (duas mudanças). É importante ressaltar que alguns especialistas afirmam a necessidade de se adequar os pesos das transformações entre os nucleotídeos devido a uma série de fatores. Transições (de purina a purina, de pirimidina a pirimidina) são mais comuns que transversões (de purina a pirimidina) devido às possíveis distorções na largura da molécula de DNA e a probabilidade de reparo nas transversões serem maiores (Miyaki et al., 2001).

Critério: Máxima Verossimilhança

Para melhor compreensão dos estudos da biologia molecular devemos nos recordar dos trabalhos de Fisher durante o século XX, matemático e estatístico que dera grande colaboração as estudos da genética. Uma de suas teorias é conhecida como método de máxima verossimilhança. Tal método prevê um modelo probabilístico de evolução considerando pesos aos diversos tipos de mutação e suas freqüências (Nei e Kumar, 2000). O resultado dessa modelagem é uma árvore resultante de probabilidades dos organismos serem próximos. Hoje o modelo usado nos estudos de métodos probabilísticos levando em conta a máxima verossimilhança é um pouco diferente daquele proposto por Fisher (Pereira, 2001). Uma melhor valorização da teoria se dá aplicando o modelo da máxima verossimilhança considerando a variação dos ramos resultantes da filogenia.

Princípios

O objetivo primeiro do método de verossimilhança é estimar a probabilidade, com base em um dos modelos que serão apresentados, de que um conjunto de dados possa ter ocorrido. Na aplicação voltada à evolução dos dados genéticos, o método irá calcular a probabilidade de que as sequências tenham sido geradas seguindo as premissas do modelo evolutivo escolhido. A probabilidade é calculada para todas as topologias possíveis variando o tamanho dos ramos. A melhor representação – a mais verossímil –, é escolhida para a filogenia. O cálculo envolve a ocorrência de todos os possíveis estados ancestrais dos caracteres.

Alguns Modelos Matemáticos

O desenvolvimento de modelos cada vez mais complexos deu-se graças ao aumento gradativo do conhecimento a respeito da evolução de sequências do DNA (Myiaki et al., 2001).

1) Modelo de um tipo de substituição (1969):

Prevê que os nucleotídeos em uma sequência de DNA ocorrem com freqüências iguais e a probabilidade de substituição de um nucleotídeo qualquer “i” por outro “j”em um determinado intervalo de tempo “dt” depende de uma taxa de substituição “u”:

Pij= udt

2) Modelo de dois parâmetros (1980):

Substituições do tipo transição ocorrem com mais freqüência que as substituições do tipo transversões. Logo, adequou-se pesos diferentes (h taxa de transição e x para taxa de transversão) como forma de parâmetro.

Pij(dt)= {hdt

{xdt

3) Modelo proporcional (1981):

O modelo prevê que nem sempre as frequências de nucleotídeos são similares. Sendo assim, toma-se por base πj que representa a freqüência específica para cada nucleotídeo:

Pij(dt)= uπjdt

4) Modelo HKY85 (1985):

Combina-se as diferentes taxas de transição e transversão permitindo uma modelagem mais aperfeiçoada em relação aos outros até então desenvolvidos:

Pij(dt)= {hπjdt para transição

{xπjdt para transversão

5) Modelo TN93 (1993):

A diferença na composição de bases reflete diferenças não apenas na taxa de transversão e transição, mas também entre as transições entre pirimidinas e purinas.

Pij(dt)= {hRπjdt

{hYπjdt

{xπjdt

Encontrar uma árvore filogenética não é fácil. Deve-se, sempre que possível proceder com algoritmos heurísticos aliado aos modelos probabilísticos ou de parcimônia para melhor obtenção de resultados. É uma tarefa complicada!

6 comentários:

Anônimo19 de fevereiro de 2010 às 13:19
Muito interessante.Quando sai a próxima parte ??
parabénsss pelo trabalho
ResponderExcluir
Respostas
Leandro Pereira Tosta19 de fevereiro de 2010 às 13:53
Caro Leitor,
Gostaria de agradecer sua atenção.
A próxima postagem será publicada após o crivo do conteúdo (efetuado pelo meu orientador Dr. Charles Morphy).
Caso lhe interesse, posso disponibizar o material na íntegra.
Pode-se ler, também, a fonte primária. As referências logo disponibilizarei junto à parte 2.
Meu email é encontrado no início de todas as minhas publicações: entre em contato!Muito obrigado e leia sempre.
ResponderExcluir
Respostas
Anônimo20 de fevereiro de 2010 às 17:31
A biologia é uma ciência relativamente recente. A partir desta premissa pode-se inferir que ainda há muito o que ser desvendado no que tange as origens da vida na terra e a grande biodiversidade encontrada em nosso planeta. Ferramentas matemáticas e computacionais são extremamente úteis para ajudar a desvendar esses mistérios. Sendo assim, o trabalho de Leandro Pereira Tosta possui grande importancia para o melhoramento do entendimento científico no ramo da filogênia , pois aborada com elegância e clareza os principais algoritmos usados para o rastreamento de espécies ancestrais. Além disso, parabenizo o autor do trabalho pelo excelente texto redijido e pelo ótimo trabalho que ele vem realizando atualmente.

(Abraço, Ive - Aluna de Engenharia de Materias da UFABC)
ResponderExcluir
Respostas
Sarah Oliveira27 de fevereiro de 2010 às 07:29
Oi Leandro!
Concordo com a Ive e também aguardo a parte II.
Só gostaria de salientar que a utilização de algoritmos exatos ou heurísticos não é uma simples decisão do pesquisador e sim uma limitação computacional. Os algoritmos exatos são utilizados quando a amostragem sob estudo não passa de 20 táxons terminais (se não me engano, o TNT já faz buscas exatas com 30 táxons terminais). Amostragens mais amplas são, necessariamente, rodadas heurísticamente. Isso tende a ser mudado conforme as ferramentas matemáticas forem sendo aprimoradas. Em se tratando de análises moleculares, que geralmente lidam com bases de dados bastante grandes, os algoritmos heurísticos acabam sempre sendo utilizados e, consequentemente, novas opções acabem sendo desenvolvidas, como você mesmo comentou no seu texto.
Parabéns!
Abraços!
ResponderExcluir
Respostas
Leandro Pereira Tosta27 de fevereiro de 2010 às 10:09
Olá Sarah,
É um grande prazer responder os seus comentários!
Com certeza o número de táxons pode inviabilizar a computação de todas as possíveis filogenias, fazendo com que a variável "número de táxons" conduza o perfil a ser usado : heurístico ou exato!
Muito obrigado pela observação!
Acesse sempre este canal!
Att
Tosta L.P.
ResponderExcluir
Respostas
Leandro Pereira Tosta28 de fevereiro de 2010 às 13:30
Olá pessoal!
Seguirá na parte II do último texto as referências usadas para criação do mesmo!

Muito obrigado pelos acessos e divulgação!
Alguma dúvida ,ou pedido pessoal de referências, ultilizem nosso email pessoal!
Será um imenso prazer nosso e do Dr. Charles ajudá-los!
Tosta, L.P.
ResponderExcluir
Respostas

Adicionar comentário

sexta-feira, 19 de fevereiro de 2010