Análise e anotação funcional de dados NGS usando Stingray@Galaxy

Data: 25-27 agosto de 2014 , das 9-17hs

Local: Sala 6, Pav Cardoso Fontes, IOC, FIOCRUZ (Rio de Janeiro)

Número de vagas: 30 (10 para alunos internos da Fiocruz, 20 para alunos externos à FIOCRUZ)

Deadline para inscrição: Sexta 20 de junho de 2014

Se houver mais candidatos do que vagas, será feita uma seleção. Quem tiver feito o curso “Tratamento de dados NGS usando Stingray@Galaxy” ou tiver conhecimentos básicos sobre o assunto, e já tiver dados NGS (454 ou HiSEQ) gerados terá prioridade na seleção.

Resumidamente os dados NGS (tratados) serão analisados usando programas de identificação de ORFs como o Glimmer, similaridade como BLAST e RpsBLAST (para identificação de domínios conservados) e inferência de homologias como OrthoMCL e OrthoSearch. É essencial que os interessados tenham conhecimentos básicos sobre “análise de seqüências”. Ver slides do primeiro curso (2013): http://systemsbiology.biowebdb.org/2014/05/13/anotacao-stingraygalaxy/

* Os alunos selecionados precisam trazer seus laptops, pois NÃO haverá PC/laptops disponíveis para este curso. Será usada a rede WiFi do IOC para se conectar ao Stingray@Galaxy e as demais ferramentas disponíveis.
** Não haverá recursos para financiar os alunos selecionados que venham de fora da cidade do Rio de Janeiro
*** Requisitos: conhecimentos básicos de bioinformática e análise de seqüências

Sugestões de leitura:

Genome Annotation and Analysis
http://www.ncbi.nlm.nih.gov/books/NBK20253/

Domínios conservados:
http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd_help.shtml

Glimmer:
http://ccb.jhu.edu/software/glimmer/index.shtml

OrthoSearch:
http://www.ncbi.nlm.nih.gov/pubmed/20681479

Prodigal:
http://prodigal.ornl.gov

OrthoMCL:
http://www.ncbi.nlm.nih.gov/pubmed/12952885

Stingray:
http://www.biomedcentral.com/1756-0500/7/132

EMENTA:

Execução de um preditor de genes (Glimmer3)
Execução do BLAST
Utilização do Artemis para anotação (geração de arquivos Artemis, visualização)
Utilização do Prodigal (Microbial Gene Prediction)
Inferência de ortólogos: OrthoMCL e OrthoSearch
Anotação funcional: OrthoSearch e InterPro

 

Tratamento de dados NGS usando Stingray@Galaxy

Os slides da primeira edição do curso se encontram disponíveis em:

http://systemsbiology.biowebdb.org/?p=1156

Data: Terça 22 de Julho de 2014

Local: Sala A9, Pav Leonidas Deane, IOC, FIOCRUZ (Rio de Janeiro)

Número de vagas: 30 (20 para Fiocruz, 10 para alunos externos à Fiocruz)

Deadline para inscrição: Sexta 20 de junho de 2014

Se houver mais candidatos do que vagas, será feita uma seleção. Quem já tiver dados do sequenciador 454 ou HiSEQ gerados terá prioridade na seleção.

* Os alunos selecionados precisam trazer seus laptops, pois NÃO haverá PC/laptops disponíveis para este curso. Será usada a rede WiFi do IOC para se conectar ao Stingray@Galaxy e as demais ferramentas disponíveis.
** Não haverá recursos para financiar os alunos selecionados que venham de fora da cidade do Rio de Janeiro
*** Requisitos: conhecimentos básicos de bioinformática e análise de seqüências

EMENTA:

1 – Introdução
Histórico da ferramenta Stingray (http://www.biomedcentral.com/1756-0500/7/132)
Introdução aos conceitos de pipeline e workflow
Introdução a ferramenta Galaxy
2 – Stingray@Galaxy
Como acessar
O ambiente (Interface e suas separações, ferramentas com suas localizações)
Desenho do Workflow
Execução do Workflow
Aquisição de dados
Administração do History
3 – Uso pelos laboratórios
Criação de grupos, regras (roles) do laboratório (Admin e users)
Criação dos usuários
Permissões
Quota por usuário
4 – Inserção dos dados NGS e pre-processamento
5 – Prática
Importando Flowgram (454) e FastQ (Illumina)
Execução de ferramentas para tratamento de dados (454 e Illumina) – QC, SFF extract
Execução do Workflow de montagem (MIRA)

@Cloud

Enquanto a computação em grade (grid computing) tem sido tradicionalmente usada na academia, pode-se dizer que a computação em nuvem (cloud computing) é uma evolução dessa tecnologia, e tem sido maioritariamente usada na industria, notavelmente em corporações como Amazon e mais recentemente Alibaba. Segundo a associação da industria de software chinesa, no que se refere a computação em nuvem, Alibaba poderia inclusive atingir um valor de mercado de US$ 122 bilhões em 2015. Os serviços comerciais de computação em nuvem estão no mercado há vários anos, porém na área de genômica, talvez usar essas nuvens não seja tão simples, visto que podem existir 2 problemas principais: (i) transferência de um grande volume de dados pela rede (por exemplo datasets de Illumina) podem se tornar um problema real por conta da velocidade da rede (transferir 600GB não é assim tão simples em alguns lugares), (ii) considerações éticas, como por exemplo nos projetos de sequencialmento do genoma humano (vide: Genomes in the cloud: balancing privacy rights and the public good. 2013)

A nuvem computacional desenvolvida pelo Lab de Biologia Computacional e Sistemas (inicialmente para uso da Plataforma de Bioinformática do IOC), entrou em operação na última semana de maio de 2014. A ajuda do Dr. Rodrigo Jardim do LBCS e colegas do lab tem sido fundamental para este fim. O desenvolvimento desta nuvem privada demorou pouco mais de 18 meses, visto que diferentes tecnologias e plataformas de computação em nuvem foram testadas. No final, visto que nenhuma destas tecnologias são triviais e muito menos “plug & play”, a plataforma que se mostrou mais viável nas nossas mãos foi OpenNebula. Diferentes nuvens privadas podem ser interconectadas ou federadas usando como base a ideia de “Sky Computing” (Keahey et al 2009). Neste contexto o desenvolvimento e adoção de padrões de programação comuns, interfaces padronizadas e abertas, bem como portabilidade de aplicações são altamente desejáveis (Architecturing a Sky Computing Platform. Petcu et al 2011). Com a tecnologia de computação em nuvem “absorvida” e implementada na Plataforma de Bioinformática, os próximos passos são (i) a adquisição/adição de mais hardware para fazer uso da “elasticidade” do ambiente da nuvem e poder dar conta do processamento do enorme volume de dados a ser produzido pelo sequenciador HiSEQ (Illumina), (ii) adaptação do nosso sistema “Stingray@Galaxy” para usufruir da nova infra-estrutura da nuvem, e (iii) teste e adaptação de programas que demandam enorme poder de processamento (eg:  montagem de genomas, filogenômica, etc) para o ambiente de nuvem. Um trabalho publicado na revista PlosOne em 2013 discute o uso de software para montagem de genomas em infra-estruturas locais e de nuvem (Comparing memory-efficient genome assemblers on stand-alone and cloud infrastructures), propondo duas nova estratégias de montagem em infra-estruturas com pouca disponibilidade de memória RAM. Para o objetivo de portar aplicações para a nuvem, está planejada a adoção do Hadoop e MapReduce. Finalmente, estamos fazendo testes com o banco noSQL Cassandra para armazenamento de grandes volumes de dados de projetos de “genômica comparativa” e “metagenômica”, visando usufruir das novas tecnologias desenvolvidas no contexto de “Big Data”. Contamos com a expertise e ajuda do nosso colaborador Dr Fabrício Silva nestes desafios. Um artigo publicado em 2013 no periódico “J Biomed Inform”, discute o uso destas tecnologias como sendo relevantes para o processamento e análise paralelizado e distribuído de dados, na escala de Petabytes (‘Big data’, Hadoop and cloud computing in genomics).

Atualmente, a nossa nuvem privada conta com 1 controlador (gráfico com fundo azul claro) e 14 nós (gráficos com fundo laranja ou amarelo), totalizando 64 CPUs. Quanto mais escuro o fundo do gráfico, mais “sobrecarregado” se encontra esse nó:

15-nos-nuvem

 

Nossos testes mostram um ganho computacional considerável usando inicialmente a aplicação ClustalW. Porém este ganho na nuvem é evidente apenas quando acima de 100 “arquivos multi-fasta”  são alinhados. No gráfico, o eixo X corresponde ao número de “arquivos multi-fasta”, e o eixo Y corresponde ao tempo (segundos) de processamento:

clustalw-cloud

671 “arquivos multi-fasta” são alinhados localmente em 129min 49 seg, enquanto usando a nuvem privada os mesmos são processados em 69min 14seg. Isto apenas corrobora que a tecnologia de computação em nuvem é mais apropriada para processamento de grande volumes de dados, como por exemplo genomas completos e metagenomas, ou inclusive projetos “microbioma”.

Monitoramento da carga (Processos versus CPU) na nuvem privada. O gráfico a seguir mostra o número total de CPUs (64) e nós ativos (14 + 1 controlador) e não-ativos (0) da nossa nuvem privada. O quadrado com tons de laranja (Server Load Distribution) é um “HeatMap” resumido da nuvem inteira, cada “quadrado menor” representa a carga de um nó, quanto mais escuro o “quadrado menor” mais carregado se encontra esse nó. O gráfico do lado do HeatMap mostra a relação entre CPU, processos e nós no espaço de tempo de 1 hora: naquele momento estavam sendo usados os 14 nós (mais o controlador), os 64 CPUs e 27 processos sendo executados:

carga-cpus-nuvem

 

 

Stingray@Galaxy

 

 

 

 

Alejandra Saori Araki – Laboratorio de Biologia Molecular de Insetos

Cynara de Melo Rodovalho – Laboratório de Fisiologia e Controle de Artrópodes Vetores

Edson Delatorre – Lab. de AIDS e Imunologia Molecular

Érica Fonseca – Lab de Genética Molecular de Microorganismos

Fernanda Freitas – Lab de Genética Molecular de Microorganismos

Lia Lima Gomes – Laboratório de Biologia Molecular Aplicada a Micobactérias

Luiza O. R. Pereira – Laboratório Interdisciplinar de Pesquisas

Marcos Césa Mendonça – Laboratório de Flavivirus

Maria Fantinatti Fernandes da Silva – Laboratório Interdisciplinar de Pesquisas Médicas

Mário Campos Junior – Laboratório de Genética Humana

Melise Chaves Silveira – Laboratório de Pesquisa em Infecção Hospitalar

Nilcéia de Veiga Ramos – Lab. de Genética Molecular de Microrganismos

Renata Carvalho de Oliveira Pires dos Santos – Laboratório de Hantaviroses e Rickettsioses

Sérgio Pereira – Laboratório de Hepatites Virais

OrthoMCL @ Galaxy

(kindly brought to you by Rodrigo Jardim and Diogo Tschoeke)

Access the URL: http://brucei.biowebdb.org:8080

Use your login/password

Once logged choose the option Shared Data / Data Libraries

Choose the Curso Bioinformática library then the “proteomes” you need

Once the proteomes have been selected then choose:

Import to current history

Get back to the initial page by clicking the option Analyze Data

After that, the selected proteomes will be available at the right side menu

Choose the OrthoMCL / orthomcl option at the left side menu, then choose the proteomes loaded from the Curso Bioinformatica library then click on Execute

All the (5 files) results will appear at the right side menu

 

In the right side menu (History) the processes being executed (yellow) and then finished (green) can be viewed.

Click in the “eye” icon to visualize the files (results):

 

B. subtilis fasta:

OrthoMCL result:

OrthoMCL fasta groups:

OrthoMCL result matrix :