Skip to content

Commit

Permalink
Copy Files From Source Repo (2024-07-01 02:30)
Browse files Browse the repository at this point in the history
  • Loading branch information
olprod committed Jul 1, 2024
1 parent 3dcc89b commit b359868
Show file tree
Hide file tree
Showing 5 changed files with 12 additions and 43 deletions.
11 changes: 8 additions & 3 deletions Instructions/Labs/07-real-time-Intelligence.md
Original file line number Diff line number Diff line change
Expand Up @@ -34,11 +34,16 @@ Agora que você tem um espaço de trabalho, é hora de fazer o download do arqui

O KQL (Linguagem de Consulta Kusto) é usada para consultar dados estáticos ou de streaming em uma tabela definida em um banco de dados KQL. Para analisar os dados de vendas, você precisa criar uma tabela em um banco de dados KQL e ingerir os dados do arquivo.

1. No portal da experiência do **Microsoft Fabric**, escolha a imagem da experiência **Inteligência em Tempo Real**, conforme mostrado aqui:
1. No canto inferior esquerdo do portal, alterne para a experiência de Inteligência em Tempo Real.

![Captura de tela da home page da Experiência do Fabric com a Inteligência em Tempo Real selecionadas](./Images/fabric-experience-home.png)
![Captura de tela do menu do alternador de experiência.](./Images/fabric-real-time.png)

2. Na **home page** da experiência de **Inteligência em Tempo Real**, selecione **Banco de dados KQL** e crie um banco de dados com um nome de sua escolha.
2. Na página inicial da Inteligência em Tempo Real, crie um novo **Eventhouse** com um nome de sua escolha.

![Captura de tela do Editor RTI com o Eventhouse em destaque.](./Images/create-kql-db.png)

O Eventhouse é usado para agrupar e gerenciar seus bancos de dados entre projetos. Um banco de dados KQL vazio é automaticamente criado com o nome do eventhouse.

3. Quando o banco de dados for criado, selecione a opção para obter dados de um **Arquivo Local**. Em seguida, use o assistente para importar os dados para uma nova tabela selecionando as seguintes opções:
- **Destino**:
- **Banco de dados**: *o banco de dados que você criou já está selecionado*
Expand Down
6 changes: 3 additions & 3 deletions Instructions/Labs/08d-data-science-batch.md
Original file line number Diff line number Diff line change
Expand Up @@ -167,7 +167,7 @@ Para usar o modelo, você precisará de um conjunto de dados de detalhes de paci
# Save the data in a delta table
table_name = "diabetes_test"
df.write.format("delta").mode("overwrite").save(f"Tables/{table_name}")
df.write.format("delta").mode("overwrite").saveAsTable(table_name)
print(f"Spark dataframe saved to delta table: {table_name}")
```
Expand Down Expand Up @@ -196,7 +196,7 @@ Agora você pode usar o modelo treinado anteriormente para gerar previsões de p
df_test = model.transform(df)
# Save the results (the original features PLUS the prediction)
df_test.write.format('delta').mode("overwrite").option("mergeSchema", "true").save(f"Tables/{table_name}")
df_test.write.format('delta').mode("overwrite").option("mergeSchema", "true").saveAsTable(table_name)
```
1. Após a conclusão do código, selecione **...** ao lado da tabela **diabetes_test** no painel **Explorador do Lakehouse** e selecione **Atualizar**. Um novo campo **previsões** foi adicionado.
Expand All @@ -210,4 +210,4 @@ Caso tenha terminado de explorar o notebook, exclua o workspace que você criou
1. Na barra à esquerda, selecione o ícone do workspace para ver todos os itens que ele contém.
2. No menu **…** da barra de ferramentas, selecione **Configurações do workspace**.
3. Na seção **Geral**, selecione **Remover este workspace**.
3. Na seção **Geral**, selecione **Remover este espaço de trabalho**.
38 changes: 1 addition & 37 deletions Instructions/Labs/10-ingest-notebooks.md
Original file line number Diff line number Diff line change
Expand Up @@ -143,42 +143,6 @@ Agora você deverá ver sua nova pasta **RawData** com um "arquivo" **yellow_tax

Agora você se conectou com êxito a dados externos, gravou-os em um arquivo parquet, carregou os dados em um DataFrame, transformou os dados e os carregou em uma tabela Delta.

## Otimizar as gravações na tabela Delta

Você provavelmente está usando Big Data na sua organização e é por isso que escolheu os notebooks do Fabric para ingestão de dados, portanto, vamos abordar também como fazer para otimizar a ingestão e as leituras dos seus dados. Primeiro, repetiremos as etapas para transformar e gravar em uma tabela Delta com as otimizações de gravação incluídas.

1. Crie uma nova célula de código e insira o seguinte código:

```python
from pyspark.sql.functions import col, to_timestamp, current_timestamp, year, month

# Read the parquet data from the specified path
raw_df = spark.read.parquet(output_parquet_path)

# Add dataload_datetime column with current timestamp
opt_df = raw_df.withColumn("dataload_datetime", current_timestamp())

# Filter columns to exclude any NULL values in storeAndFwdFlag
opt_df = opt_df.filter(opt_df["storeAndFwdFlag"].isNotNull())

# Enable V-Order
spark.conf.set("spark.sql.parquet.vorder.enabled", "true")

# Enable automatic Delta optimized write
spark.conf.set("spark.microsoft.delta.optimizeWrite.enabled", "true")

# Load the filtered data into a Delta table
table_name = "yellow_taxi_opt" # New table name
opt_df.write.format("delta").mode("append").saveAsTable(table_name)

# Display results
display(opt_df.limit(1))
```

1. Confirme se você deve ter os mesmos resultados que tinha antes do código de otimização.

Agora, observe os tempos de execução dos dois blocos de código. Seus tempos variam, mas você pode ver um claro aumento de desempenho com o código otimizado.

## Analisar os dados da tabela Delta com consultas SQL

Este laboratório se concentra na ingestão de dados, o que realmente explica o processo *extrair, transformar, carregar*, mas também é importante que você faça uma prévia dos dados.
Expand Down Expand Up @@ -223,7 +187,7 @@ Este laboratório se concentra na ingestão de dados, o que realmente explica o

## Limpar os recursos

Neste exercício, você usou notebooks com o PySpark no Fabric para carregar dados e salvá-los no Parquet. Em seguida, você usou esse arquivo Parquet para transformar ainda mais os dados e otimizar as gravações de tabela Delta. Por fim, você usou o SQL para consultar as tabelas Delta.
Neste exercício, você usou notebooks com o PySpark no Fabric para carregar dados e salvá-los no Parquet. Em seguida, você usou esse arquivo Parquet para transformar ainda mais os dados. Por fim, você usou o SQL para consultar as tabelas Delta.

Quando concluir a exploração, você poderá excluir o espaço de trabalho que criou nesse exercício.

Expand Down
Binary file added Instructions/Labs/Images/create-kql-db.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added Instructions/Labs/Images/fabric-real-time.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.

0 comments on commit b359868

Please sign in to comment.