Análise e anotação funcional de dados NGS usando Stingray@Galaxy

Data: 25-27 agosto de 2014 , das 9-17hs

Local: Sala 6, Pav Cardoso Fontes, IOC, FIOCRUZ (Rio de Janeiro)

Número de vagas: 30 (10 para alunos internos da Fiocruz, 20 para alunos externos à FIOCRUZ)

Deadline para inscrição: Sexta 20 de junho de 2014

Se houver mais candidatos do que vagas, será feita uma seleção. Quem tiver feito o curso “Tratamento de dados NGS usando Stingray@Galaxy” ou tiver conhecimentos básicos sobre o assunto, e já tiver dados NGS (454 ou HiSEQ) gerados terá prioridade na seleção.

Resumidamente os dados NGS (tratados) serão analisados usando programas de identificação de ORFs como o Glimmer, similaridade como BLAST e RpsBLAST (para identificação de domínios conservados) e inferência de homologias como OrthoMCL e OrthoSearch. É essencial que os interessados tenham conhecimentos básicos sobre “análise de seqüências”. Ver slides do primeiro curso (2013): http://systemsbiology.biowebdb.org/2014/05/13/anotacao-stingraygalaxy/

* Os alunos selecionados precisam trazer seus laptops, pois NÃO haverá PC/laptops disponíveis para este curso. Será usada a rede WiFi do IOC para se conectar ao Stingray@Galaxy e as demais ferramentas disponíveis.
** Não haverá recursos para financiar os alunos selecionados que venham de fora da cidade do Rio de Janeiro
*** Requisitos: conhecimentos básicos de bioinformática e análise de seqüências

Sugestões de leitura:

Genome Annotation and Analysis
http://www.ncbi.nlm.nih.gov/books/NBK20253/

Domínios conservados:
http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd_help.shtml

Glimmer:
http://ccb.jhu.edu/software/glimmer/index.shtml

OrthoSearch:
http://www.ncbi.nlm.nih.gov/pubmed/20681479

Prodigal:
http://prodigal.ornl.gov

OrthoMCL:
http://www.ncbi.nlm.nih.gov/pubmed/12952885

Stingray:
http://www.biomedcentral.com/1756-0500/7/132

EMENTA:

Execução de um preditor de genes (Glimmer3)
Execução do BLAST
Utilização do Artemis para anotação (geração de arquivos Artemis, visualização)
Utilização do Prodigal (Microbial Gene Prediction)
Inferência de ortólogos: OrthoMCL e OrthoSearch
Anotação funcional: OrthoSearch e InterPro

 

Tratamento de dados NGS usando Stingray@Galaxy

Os slides da primeira edição do curso se encontram disponíveis em:

http://systemsbiology.biowebdb.org/?p=1156

Data: Terça 22 de Julho de 2014

Local: Sala A9, Pav Leonidas Deane, IOC, FIOCRUZ (Rio de Janeiro)

Número de vagas: 30 (20 para Fiocruz, 10 para alunos externos à Fiocruz)

Deadline para inscrição: Sexta 20 de junho de 2014

Se houver mais candidatos do que vagas, será feita uma seleção. Quem já tiver dados do sequenciador 454 ou HiSEQ gerados terá prioridade na seleção.

* Os alunos selecionados precisam trazer seus laptops, pois NÃO haverá PC/laptops disponíveis para este curso. Será usada a rede WiFi do IOC para se conectar ao Stingray@Galaxy e as demais ferramentas disponíveis.
** Não haverá recursos para financiar os alunos selecionados que venham de fora da cidade do Rio de Janeiro
*** Requisitos: conhecimentos básicos de bioinformática e análise de seqüências

EMENTA:

1 – Introdução
Histórico da ferramenta Stingray (http://www.biomedcentral.com/1756-0500/7/132)
Introdução aos conceitos de pipeline e workflow
Introdução a ferramenta Galaxy
2 – Stingray@Galaxy
Como acessar
O ambiente (Interface e suas separações, ferramentas com suas localizações)
Desenho do Workflow
Execução do Workflow
Aquisição de dados
Administração do History
3 – Uso pelos laboratórios
Criação de grupos, regras (roles) do laboratório (Admin e users)
Criação dos usuários
Permissões
Quota por usuário
4 – Inserção dos dados NGS e pre-processamento
5 – Prática
Importando Flowgram (454) e FastQ (Illumina)
Execução de ferramentas para tratamento de dados (454 e Illumina) – QC, SFF extract
Execução do Workflow de montagem (MIRA)

@Cloud

Enquanto a computação em grade (grid computing) tem sido tradicionalmente usada na academia, pode-se dizer que a computação em nuvem (cloud computing) é uma evolução dessa tecnologia, e tem sido maioritariamente usada na industria, notavelmente em corporações como Amazon e mais recentemente Alibaba. Segundo a associação da industria de software chinesa, no que se refere a computação em nuvem, Alibaba poderia inclusive atingir um valor de mercado de US$ 122 bilhões em 2015. Os serviços comerciais de computação em nuvem estão no mercado há vários anos, porém na área de genômica, talvez usar essas nuvens não seja tão simples, visto que podem existir 2 problemas principais: (i) transferência de um grande volume de dados pela rede (por exemplo datasets de Illumina) podem se tornar um problema real por conta da velocidade da rede (transferir 600GB não é assim tão simples em alguns lugares), (ii) considerações éticas, como por exemplo nos projetos de sequencialmento do genoma humano (vide: Genomes in the cloud: balancing privacy rights and the public good. 2013)

A nuvem computacional desenvolvida pelo Lab de Biologia Computacional e Sistemas (inicialmente para uso da Plataforma de Bioinformática do IOC), entrou em operação na última semana de maio de 2014. A ajuda do Dr. Rodrigo Jardim do LBCS e colegas do lab tem sido fundamental para este fim. O desenvolvimento desta nuvem privada demorou pouco mais de 18 meses, visto que diferentes tecnologias e plataformas de computação em nuvem foram testadas. No final, visto que nenhuma destas tecnologias são triviais e muito menos “plug & play”, a plataforma que se mostrou mais viável nas nossas mãos foi OpenNebula. Diferentes nuvens privadas podem ser interconectadas ou federadas usando como base a ideia de “Sky Computing” (Keahey et al 2009). Neste contexto o desenvolvimento e adoção de padrões de programação comuns, interfaces padronizadas e abertas, bem como portabilidade de aplicações são altamente desejáveis (Architecturing a Sky Computing Platform. Petcu et al 2011). Com a tecnologia de computação em nuvem “absorvida” e implementada na Plataforma de Bioinformática, os próximos passos são (i) a adquisição/adição de mais hardware para fazer uso da “elasticidade” do ambiente da nuvem e poder dar conta do processamento do enorme volume de dados a ser produzido pelo sequenciador HiSEQ (Illumina), (ii) adaptação do nosso sistema “Stingray@Galaxy” para usufruir da nova infra-estrutura da nuvem, e (iii) teste e adaptação de programas que demandam enorme poder de processamento (eg:  montagem de genomas, filogenômica, etc) para o ambiente de nuvem. Um trabalho publicado na revista PlosOne em 2013 discute o uso de software para montagem de genomas em infra-estruturas locais e de nuvem (Comparing memory-efficient genome assemblers on stand-alone and cloud infrastructures), propondo duas nova estratégias de montagem em infra-estruturas com pouca disponibilidade de memória RAM. Para o objetivo de portar aplicações para a nuvem, está planejada a adoção do Hadoop e MapReduce. Finalmente, estamos fazendo testes com o banco noSQL Cassandra para armazenamento de grandes volumes de dados de projetos de “genômica comparativa” e “metagenômica”, visando usufruir das novas tecnologias desenvolvidas no contexto de “Big Data”. Contamos com a expertise e ajuda do nosso colaborador Dr Fabrício Silva nestes desafios. Um artigo publicado em 2013 no periódico “J Biomed Inform”, discute o uso destas tecnologias como sendo relevantes para o processamento e análise paralelizado e distribuído de dados, na escala de Petabytes (‘Big data’, Hadoop and cloud computing in genomics).

Atualmente, a nossa nuvem privada conta com 1 controlador (gráfico com fundo azul claro) e 14 nós (gráficos com fundo laranja ou amarelo), totalizando 64 CPUs. Quanto mais escuro o fundo do gráfico, mais “sobrecarregado” se encontra esse nó:

15-nos-nuvem

 

Nossos testes mostram um ganho computacional considerável usando inicialmente a aplicação ClustalW. Porém este ganho na nuvem é evidente apenas quando acima de 100 “arquivos multi-fasta”  são alinhados. No gráfico, o eixo X corresponde ao número de “arquivos multi-fasta”, e o eixo Y corresponde ao tempo (segundos) de processamento:

clustalw-cloud

671 “arquivos multi-fasta” são alinhados localmente em 129min 49 seg, enquanto usando a nuvem privada os mesmos são processados em 69min 14seg. Isto apenas corrobora que a tecnologia de computação em nuvem é mais apropriada para processamento de grande volumes de dados, como por exemplo genomas completos e metagenomas, ou inclusive projetos “microbioma”.

Monitoramento da carga (Processos versus CPU) na nuvem privada. O gráfico a seguir mostra o número total de CPUs (64) e nós ativos (14 + 1 controlador) e não-ativos (0) da nossa nuvem privada. O quadrado com tons de laranja (Server Load Distribution) é um “HeatMap” resumido da nuvem inteira, cada “quadrado menor” representa a carga de um nó, quanto mais escuro o “quadrado menor” mais carregado se encontra esse nó. O gráfico do lado do HeatMap mostra a relação entre CPU, processos e nós no espaço de tempo de 1 hora: naquele momento estavam sendo usados os 14 nós (mais o controlador), os 64 CPUs e 27 processos sendo executados:

carga-cpus-nuvem

 

 

Stingray@Galaxy

 

 

 

 

Alejandra Saori Araki – Laboratorio de Biologia Molecular de Insetos

Cynara de Melo Rodovalho – Laboratório de Fisiologia e Controle de Artrópodes Vetores

Edson Delatorre – Lab. de AIDS e Imunologia Molecular

Érica Fonseca – Lab de Genética Molecular de Microorganismos

Fernanda Freitas – Lab de Genética Molecular de Microorganismos

Lia Lima Gomes – Laboratório de Biologia Molecular Aplicada a Micobactérias

Luiza O. R. Pereira – Laboratório Interdisciplinar de Pesquisas

Marcos Césa Mendonça – Laboratório de Flavivirus

Maria Fantinatti Fernandes da Silva – Laboratório Interdisciplinar de Pesquisas Médicas

Mário Campos Junior – Laboratório de Genética Humana

Melise Chaves Silveira – Laboratório de Pesquisa em Infecção Hospitalar

Nilcéia de Veiga Ramos – Lab. de Genética Molecular de Microrganismos

Renata Carvalho de Oliveira Pires dos Santos – Laboratório de Hantaviroses e Rickettsioses

Sérgio Pereira – Laboratório de Hepatites Virais

OrthoMCL @ Galaxy

(kindly brought to you by Rodrigo Jardim and Diogo Tschoeke)

Access the URL: http://brucei.biowebdb.org:8080

Use your login/password

Once logged choose the option Shared Data / Data Libraries

Choose the Curso Bioinformática library then the “proteomes” you need

Once the proteomes have been selected then choose:

Import to current history

Get back to the initial page by clicking the option Analyze Data

After that, the selected proteomes will be available at the right side menu

Choose the OrthoMCL / orthomcl option at the left side menu, then choose the proteomes loaded from the Curso Bioinformatica library then click on Execute

All the (5 files) results will appear at the right side menu

 

In the right side menu (History) the processes being executed (yellow) and then finished (green) can be viewed.

Click in the “eye” icon to visualize the files (results):

 

B. subtilis fasta:

OrthoMCL result:

OrthoMCL fasta groups:

OrthoMCL result matrix :

 

 

 

Tutorial de uso do STINGRAY para barcoding

‘[slideshow id=STINGRAY]‘* Siga o tutorial clicando sobre as imagens acima.

 

1)  Tela de apresentação do STINGRAY.

-  Apos colocar o login e senha disponibilizados encontramos a tela de apresentação do STINGRAY.

- Todo novo projeto do STINGRAY não possui dados inseridos, logo o aviso “Your database is empty“.

- Qualquer usuário que possua seus cromatogramas  poderá clicar nos links ”Rename and Submit plate” e “Submit plate“.

2) Submit plate

- O STINGRAY trabalha com bibliotecas de sequências, logo sera necessário criar uma nova biblioteca para submeter seus cromatos.

- A criação de bibliotecas poderá ser efetuada ao clicarmos sobre o link ”New Library“.

3) Insert New Library

- A tela se criação de bibliotecas permite que o usuário formalize a criação de uma nova biblioteca.

- Lembrando que devemos seguir as determinações estabelecidas pelos campos ( eg: Os três caracteres como o código da biblioteca).

4) Inserindo Cromatos

- Para a inserção de cromatos devemos ir na barra principal do STINGRAY na seção ”Libraries and Sequences” e seguir a ordem.

== Libraries and Sequences –> Chromats –> Submit a plate with chromatograms ==

5) Rename and Submit plate

-  Para submeter cromatogramas devemos seguir as determinações estabelecidas do tipo de arquivo.

* formato .zip

*formato .tar.gz

- Nesse caso existem dois tipos de submissão possíveis: Submissão de placas ou submissão de uma placa individual.

**Placas individuais devem ser nomeadas ( ao serem submetidas) de acordo com a nomenclatura estabelecida pelo STINGRAY presente na tabela “Check name model” para uma biblioteca escolhida entre as criadas previamente em seu projeto.

- A submissão efetiva dos cromatogramas retornara uma tela apontando o sucesso do carregamento dos arquivos para sua biblioteca.

6) Analise de similaridade

- Na barra principal do STINGRAY podemos clicar na seção ”Home & Statistics” para retornarmos a pagina original do STINGRAY onde teremos as sequências submetidas dispostas numa tabela geral.

- Para que o usuário possa utilizar a ferramenta de busca de similaridade BLAST ele devera na barra principal selecionar sequência:

== Analyses -> Similarity –> Basic Local Alignment Search Tool ==

7) BLAST

- Na pagina de apresentação do BLAST o usuário poderá ajustar o tipo de BLAST que deseja de acordo com suas sequências (egblastnblastp…).

- O usuário também poderá ajustar os parâmetros necessários e a base de dados desejada para a análise de similaridade.

- Apos a seleção dos parâmetros o usuário pode acionar a busca por similaridade.

- O mesmo poderá acompanhar o processo na mesma pagina (presente no fundo da pagina com o título “Blast already done“) assim como o histórico de todos os BLASTs já requisitados.

8 ) Resultados do BLAST

- O usuário poderá acessar os resultados da análise por BLAST através da barra principal do STINGRAY seguindo a sequência:

== Results –> Similarity –> Basic local Aligment Search Tool (BLAST) ==

9) Acessando analises para construção de arvore filogenética

- O usuário poderá acessar os dados de sua biblioteca a partir da seleção ”Home & statistics” na barra principal do STINGRAY.

- Clicando sobre o nome criado para biblioteca temos acesso ao seu conteúdo.

10) Acessando sequências

- Depois de clicarmos sobre o nome da biblioteca, o seu conteúdo fica disponível sobre a forma de número de “clusters”(4  no exemplo indicado) para cada “read” ( uma presente no exemplo indicado) presente.

- Podemos ter acesso as sequências de forma particular ao selecionarmos o número presente de “clusters ” (eg:4).

11) Selecionado as sequências especificas

- O usuário obtém maiores detalhes sobre as suas sequências a partir da seleção de seus nomes tabelados em formato determinado pelo STINGRAY (egBXBCTUDOA02.b) na seção “Clusters by libraries”

12) Solicitando análises

- O usuário observa maiores informações sobre a sequência escolhida (comprimento e taxa do conteúdo de GC), alem do resumo das analises feitas com a sequência na tabela “Resume Cluster Analysis”.

- O usuário poderá fazer novas analises a partir da seleção da opção ”View programs analyses” no fundo da pagina.

13) Construindo arvores filogenéticas

- O usuário poderá construir arvores filogenéticas a partir da seleção de no minimo três sequências pertencentes as coleção presente na tabela “Similarity Best Hits”.

- Apos a seleção das sequências, no fundo da pagina existe a opção ”Make tree” onde temos duas opções onde o usuário poderá determinar a forma de uso das sequências (Sequências de forma direta ou traduzidas) e o tamanho do hit utilizado (Sequências completas ou parciais dos hits).

- Apos a seleção o usuário poderá submeter a analise no botão “Make Tree”

14) Resultados das arvores

- O usuário poderá determinar sua preferencia de quais programas serão utilizados para a construção arvores.

- O resultado gerado pode ser visto a partir do alinhamento das sequências seguido de construção das arvores com o algoritmo escolhido.

- A tela de resultado traz o nome da sequência utilizada.

- Para termos acesso aos resultados e visualização das arvores,  clicamos na pequena imagem da lupa na extrema direita.

- O usuário então terá disponível para download os resultados das analises filogenéticas e de alinhamento dos algoritmos previamente escolhidos.