H2O Flow
O H2O Flow é uma interface de usuário de código aberto para o H2O. É um ambiente interativo baseado na web que permite combinar a execução de código, texto, matemática, gráficos e rich media em um único documento.
Com o H2O Flow, você pode capturar, reexecutar, anotar, apresentar e compartilhar seu fluxo de trabalho. O H2O Flow permite que você use o H2O interativamente para importar arquivos, construir modelos e melhorá-los iterativamente. Com base em seus modelos, você pode fazer previsões e adicionar rich text para criar vinhetas do seu trabalho, tudo dentro do ambiente baseado no navegador do Flow.
A interface de usuário híbrida da Flow combina perfeitamente a computação de linha de comando com uma interface gráfica moderna. No entanto, em vez de exibir a saída como texto simples, o Flow fornece uma interface com o usuário do tipo apontar e clicar para cada operação do H2O. Ele permite que você acesse qualquer objeto H2O na forma de dados tabulares bem organizados.
O H2O Flow envia comandos para o H2O como uma sequência de células executáveis. As células podem ser modificadas, reorganizadas ou salvas em uma biblioteca. Cada célula contém um campo de entrada que permite inserir comandos, definir funções, chamar outras funções e acessar outras células ou objetos na página. Quando você executa a célula, a saída é um objeto gráfico, que pode ser inspecionado para exibir detalhes adicionais.
Enquanto o H2O Flow suporta API REST, scripts R e CoffeeScript, nenhuma experiência de programação é necessária para executar o Fluxo H2O. Você pode clicar no seu caminho através de qualquer operação H2O sem nunca escrever uma única linha de código. Você pode até mesmo desabilitar as células de entrada para executar o H2O Flow usando apenas a GUI. O H2O Flow foi projetado para guiá-lo em todas as etapas, fornecendo prompts de entrada, ajuda interativa e fluxos de exemplo.
Efetuando o download do Flow
Primeiro, faça o download do H2O. Isso fará o download de um arquivo zip na sua pasta Downloads que contém tudo o que você precisa para começar. Como alternativa, você pode executar o seguinte na sua linha de comando, substituindo “{version}” pela versão apropriada.
Em seguida no seu terminal, insira as seguintes linhas de comando, uma de cada vez:
(A primeira linha muda para a pasta Downloads, a segunda linha descompacta o arquivo zip, a terceira linha muda para a pasta adequada, a quarta linha executa o arquivo jar.):
Finalmente, para iniciar o Flow, aponte seu navegador para
Na próxima vez que você desejar iniciar o Flow, altere para o diretório que contém seu pacote H2O e execute o arquivo JAR a partir da linha de comandos.
Nota: Se o seu pacote H2O não estiver na pasta Downloads, substitua o seguinte caminho ~ / Downloads / h2o- {versão} pelo caminho correto para o seu pacote h2o- {versão}:
INTERFACE DO FLOW — COMO USAR
1-Acessando a Ajuda
Na página Web do Flow, pressionando a tecla h abrirá uma lista de atalhos úteis na sua tela:
Para fechar esta janela, clique no X no canto superior direito ou clique no botão Close no canto inferior direito. Você também pode clicar atrás da janela para fechá-la. Você também pode acessar essa lista de atalhos clicando no menu Help e selecionando Keyboard Shortcuts.
Você também pode digitar assist em uma célula em branco e pressionar Ctrl + Enter. Uma lista de tarefas comuns é exibida para ajudá-lo a encontrar o comando correto.
Existem vários recursos para ajudar você a começar a usar o Flow na barra lateral da Ajuda.
Nota: para ocultar a barra lateral, clique no botão >> acima dela:
Para exibir a barra lateral se estiver oculta, clique no botão >>:
Para acessar esta documentação, selecione o link Flow Web UI… abaixo do cabeçalho General na barra lateral da Ajuda.
2-Exibindo fluxos de exemplo
Você pode explorar os fluxos pré-configurados disponíveis no H2O Flow para uma demonstração de como criar um fluxo. Para ver os fluxos de exemplo:
Clique no link View Exemple Flows abaixo do botão Quickstart Videos na barra lateral Help.
, ou,
Clique no link Browse Installed Packs… na subseção Packs da barra lateral Help. Clique na pasta Examples e selecione o fluxo de exemplo na lista.
Se você tiver um fluxo aberto no momento, uma janela de confirmação será exibida perguntando se o bloco atual deve ser substituído. Para carregar o fluxo de exemplo, clique no botão Load Notebook.
3- Ver a documentação da API REST
Para visualizar a documentação da API REST, clique na guia Help na barra lateral e selecione o tipo de documentação da API REST (Routes ou Schemas).
Nota / observação -> antes de começar a usar o H2O Flow, certifique-se de entender bem os diferentes modos de célula. Determinadas ações só podem ser executadas quando a célula está em um modo específico.
Usando Flows
É possível usar e modificar fluxos de diversos modos, a saber:
- Clips permitem que você salve células individuais
- Contornos mostram resumos do seu fluxo de trabalho
- Fluxos podem ser salvos, duplicados, carregados ou baixados
Usando clipes
Os clipes permitem que você salve células contendo seu fluxo de trabalho para reutilização posterior. Para salvar uma célula como um clipe, clique no ícone de clipe de papel à direita da célula (destacado na caixa vermelha na captura de tela a seguir).
Para usar um clip no workflow, clique na aba "Clips" na barra lateral situada à direita:
Todos os clipes salvos, incluindo os clipes padrão do sistema (como assist, importFiles e predict), são listados. Os clipes que você criou são listados sob o título “My Clips”. Para selecionar um clipe para inserir, clique no botão circular à esquerda do nome do clipe; para excluir um clipe, clique no ícone da lixeira à direita do nome do clipe.
NOTA: Os clipes padrão listados em “System” não podem ser excluídos.
Clipes excluídos são armazenados na lixeira. Para excluir permanentemente todos os clipes na lixeira, clique no botão Empty Trash.
NOTA: Os dados salvos, incluindo fluxos e clipes, são persistentes, desde que o mesmo endereço IP seja usado para o cluster. Se um novo IP for usado, os fluxos e clipes salvos anteriormente não estarão disponíveis.
Visualizar Outlines
A aba Outline na barra lateral exibe um breve resumo das células atualmente usadas no seu fluxo; essencialmente, um histórico de comandos. Para pular para uma célula específica, clique na descrição da célula. Para excluir uma célula, selecione-a e pressione a tecla X no teclado.
Salvando os Flows (fluxos)
Você pode salvar seu fluxo para reutilização posterior. Depois que um Fluxo for salvo, você poderá carregá-lo clicando na guia Flows na barra lateral direita. Em seguida, na janela de confirmação exibida, selecione Load Notebook. Consulte Carregando Fluxos para mais informações.
Para salvar seu fluxo como um caderno, clique no botão “Salvar” (o primeiro botão na linha de botões abaixo do nome do fluxo) ou clique no menu suspenso “Fluxo” e selecione “Salvar Fluxo”. nome do fluxo, clique no nome do fluxo padrão (“Fluxo sem título”) e digite o nome do fluxo desejado. Um ícone de lápis indica onde inserir o nome desejado.
Para reutilizar um fluxo salvo, clique na guia “Flows” na barra lateral e, em seguida, clique no nome do fluxo. Para excluir um fluxo salvo, clique no ícone da lixeira à direita do nome do fluxo.
Por default, os fluxos são salvos sempre no sub-diretório denominado "h2oflows" , sob o seu diretório-casa (home folder). Para especificar um local diferente para fluxos salvos, use o argumento da linha de comandos -flow_dir ao ativar o H2O.
Se você estiver executando o H2O Flow em um cluster do Hadoop, o H2O tentará localizar o diretório inicial do HDFS para usar como o diretório padrão para fluxos. Se o diretório inicial do HDFS não for localizado, os fluxos não poderão ser salvos, a menos que um diretório seja especificado durante o lançamento usando -flow_dir.
Para criar uma cópia do fluxo atual, selecione o menu Flow e clique em Make a Copy. O nome do fluxo atual é alterado para Copy of <FlowName> (em que <FlowName> é o nome do fluxo). Você pode salvar o fluxo duplicado usando esse nome clicando em Flow> Save Flow, ou renomeá-lo antes de salvar.
Depois de salvar um fluxo como um caderno, clique no menu Flow e selecione Download This Flow. Uma nova janela é aberta e o fluxo salvo é baixado para a pasta de downloads padrão no seu computador. O arquivo é exportado como <filename> .flow, em que <filename> é o nome especificado quando o fluxo foi salvo.
Para carregar um fluxo salvo, clique na guia “Flows” na barra lateral à direita. Na janela pop-up de confirmação exibida, selecione Load Notebook ou clique em Cancel para retornar ao fluxo atual.
Depois de clicar em Load Notebook, o fluxo salvo é carregado.
(observação: para carregar um fluxo exportado, clique no menu Flow e selecione Open Flow…. Na janela pop-up exibida, clique no botão Choose File, selecione o fluxo exportado e clique no botão Open.
Entendendo Modos de Célula
Existem dois modos operacionais para as células: Edição e Comando. No modo Edição, a célula é amarela com uma barra piscando para indicar onde o texto pode ser inserido e há uma bandeira laranja à esquerda da célula.
No modo de Comando, o sinalizador é amarelo. O sinalizador também indica o formato da célula:
- MD : Markdown (pressione Ctrl+Enter para ativar Markdown)
- CS: Código de programação (modo default)
- RAW: para inserir comentários
- H[1–6]: para inserir cabeçalhos (headers com diferentes tamanhos de fontes)
Em caso de erro na célula, o flag assumirá a cor vermelha:
Se a célula estiver executando comandos, o sinalizador será azulado/esverdeado. O sinalizador retorna para cor amarela quando a tarefa é concluída.
Para alterar o formato da célula (por exemplo, do Código para Markdown), verifique se você está no modo de Comando e se a célula que deseja alterar está selecionada. A maneira mais fácil de fazer isso é clicar na bandeira à esquerda da célula. Digite o atalho de teclado para o formato que você deseja usar. O texto da bandeira é alterado para exibir o formato atual.
Executando Células
A série de botões na parte superior da página abaixo dos menus executa as células em um fluxo.
Para executar todas as células no fluxo, clique no menu Flow e, em seguida, clique em Run All Cells todas as células.
Para executar a célula atual e todas as células subseqüentes, clique no menu Flow e, em seguida, clique em Run All Cells Below.
Para executar uma célula individual em um fluxo, confirme se a célula está no Modo de Edição (consulte Usando o Modo de Edição) e, em seguida:
- pressione Ctrl + Enter, ou
- clique no botão Run
Executando Flows
Quando você executa o fluxo, uma barra de progresso indica o status atual do fluxo. Você pode cancelar o fluxo atualmente em execução clicando no botão Parar na barra de progresso.
Quando a execução do fluxo estiver completa, uma mensagem de confirmação surgirá no canto superior da tela:
(em caso de algum erro, a execução pára na célula que contém o erro).
Atalhos de Teclado
Aqui estão alguns atalhos de teclado importantes para lembrar:
- Clique em uma célula e pressione Enter para entrar no modo de edição, que permite alterar o conteúdo de uma célula.
- Para sair do modo de edição, pressione Esc.
- Para executar o conteúdo de uma célula, pressione os botões Ctrl e Enter ao mesmo tempo.
- Os seguintes comandos devem ser inseridos no Modo de Comando. (Consulte Uso do Modo de Comando.)
- Para adicionar uma nova célula acima da célula atual, pressione a.
- Para adicionar uma nova célula abaixo da célula atual, pressione b.
- Para excluir a célula atual, pressione a tecla d duas vezes. (dd)
- Você pode visualizar esses atalhos clicando em Help> Keyboard Shortcuts ou clicando na guia Help na barra lateral.
Usando variáveis em células
As variáveis podem ser usadas para armazenar informações, como locais de download. Para usar uma variável no fluxo:
- Defina a variável em uma célula de código (por exemplo,
2. Execute a célula; o H2o vai validar a variável:
3. Utilize a variável em outra célula de código — por exemplo:
Para simplificar ainda mais o seu fluxo de trabalho, você pode salvar as células contendo as variáveis e definições como clipes.
Usando os Botões no Flow
Há também uma série de botões na parte superior da página, abaixo do nome do fluxo, que permitem salvar o fluxo atual, adicionar uma nova célula, mover as células para cima ou para baixo, executar a célula atual e recortar, copiar ou colar célula atual. Se você passar o mouse sobre o botão, será exibida uma descrição da função do botão.
Você também pode usar os menus na parte superior da tela para editar a ordem das células, alternar tipos de formato específicos (como entrada ou saída), criar modelos ou marcar modelos. Você também pode acessar informações de solução de problemas ou obter ajuda com o Flow.
DADOS
Agora que você está familiarizado com os modos de célula, vamos importar alguns dados. Se você não tiver dados próprios para trabalhar, poderá encontrar alguns exemplos de conjuntos de dados em http://data.h2o.ai.
Importando Arquivos
Existem várias maneiras de importar dados no fluxo de H2O:
Clique no botão Assist Me! na linha de botões abaixo dos menus e, em seguida, clique no link importFiles. Digite o caminho do arquivo no campo de entrada Pesquisa de conclusão automática e pressione Enter. Selecione o arquivo nos resultados da pesquisa e confirme clicando no link Adicionar tudo.
Em uma célula em branco, selecione o formato CS e digite importFiles [“path / filename.format”] (em que path / filename.format representa o caminho completo do arquivo, incluindo o nome completo do arquivo. O caminho do arquivo pode ser um caminho do arquivo local ou endereço de um site. Nota: Para locais de arquivos S3, use o formato importFiles [“s3: /path/to/bucket/file/file.tab.gz”]
Após selecionar o arquivo a ser importado, o caminho do arquivo é exibido na seção “Resultados da pesquisa”. Para importar um único arquivo, clique no sinal de adição ao lado do arquivo. Para importar todos os arquivos nos resultados da pesquisa, clique no link Add All. Os arquivos selecionados para importação são exibidos na seção “Arquivos selecionados”.
* Para importar o (s) arquivo (s) selecionado (s), clique no botão Import.
* Para remover todos os arquivos da lista “Arquivos selecionados”, clique no link Clear All.
* Para remover um arquivo específico, clique no X próximo ao caminho do arquivo.
Depois de clicar no botão Import, o código bruto do trabalho atual é exibido. Um resumo exibe os resultados da importação de arquivos, incluindo o número de arquivos importados e seus locais no Network File System (nfs).
Upload de arquivos
Para fazer upload de um arquivo local, clique no menu Data e selecione Upload File…. Clique no botão Choose File, selecione o arquivo, clique no botão Choose e clique no botão Upload.
Quando o arquivo foi carregado com êxito, uma mensagem é exibida no canto superior direito e a célula Setup Parse. Agora que seus dados estão disponíveis no H2O Flow, vamos para a próxima etapa: a análise. Clique no botão Setup these files para continuar.
Analisando Dados
Depois de importar seus dados, analise-os.
O campo Fontes somente leitura mostra o caminho do arquivo para os dados importados selecionados para análise. O ID contém o nome gerado automaticamente para os dados analisados (por padrão, o nome do arquivo importado usa .hex como extensão de arquivo). Use o nome padrão ou insira um nome personalizado neste campo.
1. Selecione o tipo de analisador (se necessário) na lista suspensa Parser. Para a maioria dos dados analisados, o H2O reconhece automaticamente o tipo de dados; portanto, as configurações padrão normalmente não precisam ser alteradas. As seguintes opções estão disponíveis:
AUTO
ARFF
XLS (apenas BIFF 8)
XLSX (apenas BIFF 8)
CSV
SVMLight
ORC
AVRO
PARQUET
2. Se um separador ou delimitador for usado, selecione-o na lista Separator.
3. Selecione uma opção de cabeçalho de coluna, se aplicável:
- Auto: detecta automaticamente os tipos de cabeçalho.
- First row contains column names: especifique o cabeçalho como nomes de colunas.
- First row contains data: especifique o cabeçalho como dados. Esta opção é selecionada por padrão.
4. Selecione todas as opções adicionais necessárias:
- Enable single quotes as a field quotation character: trate aspas simples (também conhecidas como apóstrofes) nos dados como um caractere, em vez de uma enumeração. Esta opção não está selecionada por padrão.
- Delete on done: marque esta caixa de seleção para excluir os dados importados após a análise. Esta opção é selecionada por padrão.
Uma visualização dos dados é exibida na seção “Editar nomes e tipos de colunas”. Para alterar ou adicionar um nome de coluna, edite ou digite o texto no campo de entrada da coluna. Na captura de tela abaixo, o campo de entrada da coluna 16 é destacado em vermelho.
Para alterar o tipo de coluna, selecione a lista suspensa à direita do campo de entrada do nome da coluna e selecione o tipo de dados. As opções são: Desconhecido, Numérico, Enum, Tempo, UUID, Corda, Inválido.
Nota: Ao analisar um arquivo de dados contendo registros de data e hora que não incluem um fuso horário, os registros de data e hora serão interpretados como UTC (GMT).
Você pode procurar uma coluna inserindo-a no campo de entrada Search by column name… acima do primeiro campo de entrada do nome da coluna. Enquanto você digita, o H2O exibe as colunas que correspondem aos termos de pesquisa especificados.
Nota: Apenas nomes de colunas personalizadas são pesquisáveis. Os nomes de colunas padrão não podem ser pesquisados.
Para navegar na visualização de dados, clique nos botões <- Previous Page ou -> Next Page.
Depois de fazer suas seleções, clique no botão Parse. O código do trabalho atual é exibido.