diff --git a/Instructions/Labs/07-real-time-Intelligence.md b/Instructions/Labs/07-real-time-Intelligence.md index eb88d6f..382cd66 100644 --- a/Instructions/Labs/07-real-time-Intelligence.md +++ b/Instructions/Labs/07-real-time-Intelligence.md @@ -34,11 +34,16 @@ Agora que você tem um espaço de trabalho, é hora de fazer o download do arqui O KQL (Linguagem de Consulta Kusto) é usada para consultar dados estáticos ou de streaming em uma tabela definida em um banco de dados KQL. Para analisar os dados de vendas, você precisa criar uma tabela em um banco de dados KQL e ingerir os dados do arquivo. -1. No portal da experiência do **Microsoft Fabric**, escolha a imagem da experiência **Inteligência em Tempo Real**, conforme mostrado aqui: +1. No canto inferior esquerdo do portal, alterne para a experiência de Inteligência em Tempo Real. - ![Captura de tela da home page da Experiência do Fabric com a Inteligência em Tempo Real selecionadas](./Images/fabric-experience-home.png) + ![Captura de tela do menu do alternador de experiência.](./Images/fabric-real-time.png) -2. Na **home page** da experiência de **Inteligência em Tempo Real**, selecione **Banco de dados KQL** e crie um banco de dados com um nome de sua escolha. +2. Na página inicial da Inteligência em Tempo Real, crie um novo **Eventhouse** com um nome de sua escolha. + + ![Captura de tela do Editor RTI com o Eventhouse em destaque.](./Images/create-kql-db.png) + + O Eventhouse é usado para agrupar e gerenciar seus bancos de dados entre projetos. Um banco de dados KQL vazio é automaticamente criado com o nome do eventhouse. + 3. Quando o banco de dados for criado, selecione a opção para obter dados de um **Arquivo Local**. Em seguida, use o assistente para importar os dados para uma nova tabela selecionando as seguintes opções: - **Destino**: - **Banco de dados**: *o banco de dados que você criou já está selecionado* diff --git a/Instructions/Labs/08d-data-science-batch.md b/Instructions/Labs/08d-data-science-batch.md index f26f164..be1e538 100644 --- a/Instructions/Labs/08d-data-science-batch.md +++ b/Instructions/Labs/08d-data-science-batch.md @@ -167,7 +167,7 @@ Para usar o modelo, você precisará de um conjunto de dados de detalhes de paci # Save the data in a delta table table_name = "diabetes_test" - df.write.format("delta").mode("overwrite").save(f"Tables/{table_name}") + df.write.format("delta").mode("overwrite").saveAsTable(table_name) print(f"Spark dataframe saved to delta table: {table_name}") ``` @@ -196,7 +196,7 @@ Agora você pode usar o modelo treinado anteriormente para gerar previsões de p df_test = model.transform(df) # Save the results (the original features PLUS the prediction) - df_test.write.format('delta').mode("overwrite").option("mergeSchema", "true").save(f"Tables/{table_name}") + df_test.write.format('delta').mode("overwrite").option("mergeSchema", "true").saveAsTable(table_name) ``` 1. Após a conclusão do código, selecione **...** ao lado da tabela **diabetes_test** no painel **Explorador do Lakehouse** e selecione **Atualizar**. Um novo campo **previsões** foi adicionado. @@ -210,4 +210,4 @@ Caso tenha terminado de explorar o notebook, exclua o workspace que você criou 1. Na barra à esquerda, selecione o ícone do workspace para ver todos os itens que ele contém. 2. No menu **…** da barra de ferramentas, selecione **Configurações do workspace**. -3. Na seção **Geral**, selecione **Remover este workspace**. +3. Na seção **Geral**, selecione **Remover este espaço de trabalho**. diff --git a/Instructions/Labs/10-ingest-notebooks.md b/Instructions/Labs/10-ingest-notebooks.md index 09eded1..7fbeed5 100644 --- a/Instructions/Labs/10-ingest-notebooks.md +++ b/Instructions/Labs/10-ingest-notebooks.md @@ -143,42 +143,6 @@ Agora você deverá ver sua nova pasta **RawData** com um "arquivo" **yellow_tax Agora você se conectou com êxito a dados externos, gravou-os em um arquivo parquet, carregou os dados em um DataFrame, transformou os dados e os carregou em uma tabela Delta. -## Otimizar as gravações na tabela Delta - -Você provavelmente está usando Big Data na sua organização e é por isso que escolheu os notebooks do Fabric para ingestão de dados, portanto, vamos abordar também como fazer para otimizar a ingestão e as leituras dos seus dados. Primeiro, repetiremos as etapas para transformar e gravar em uma tabela Delta com as otimizações de gravação incluídas. - -1. Crie uma nova célula de código e insira o seguinte código: - - ```python - from pyspark.sql.functions import col, to_timestamp, current_timestamp, year, month - - # Read the parquet data from the specified path - raw_df = spark.read.parquet(output_parquet_path) - - # Add dataload_datetime column with current timestamp - opt_df = raw_df.withColumn("dataload_datetime", current_timestamp()) - - # Filter columns to exclude any NULL values in storeAndFwdFlag - opt_df = opt_df.filter(opt_df["storeAndFwdFlag"].isNotNull()) - - # Enable V-Order - spark.conf.set("spark.sql.parquet.vorder.enabled", "true") - - # Enable automatic Delta optimized write - spark.conf.set("spark.microsoft.delta.optimizeWrite.enabled", "true") - - # Load the filtered data into a Delta table - table_name = "yellow_taxi_opt" # New table name - opt_df.write.format("delta").mode("append").saveAsTable(table_name) - - # Display results - display(opt_df.limit(1)) - ``` - -1. Confirme se você deve ter os mesmos resultados que tinha antes do código de otimização. - -Agora, observe os tempos de execução dos dois blocos de código. Seus tempos variam, mas você pode ver um claro aumento de desempenho com o código otimizado. - ## Analisar os dados da tabela Delta com consultas SQL Este laboratório se concentra na ingestão de dados, o que realmente explica o processo *extrair, transformar, carregar*, mas também é importante que você faça uma prévia dos dados. @@ -223,7 +187,7 @@ Este laboratório se concentra na ingestão de dados, o que realmente explica o ## Limpar os recursos -Neste exercício, você usou notebooks com o PySpark no Fabric para carregar dados e salvá-los no Parquet. Em seguida, você usou esse arquivo Parquet para transformar ainda mais os dados e otimizar as gravações de tabela Delta. Por fim, você usou o SQL para consultar as tabelas Delta. +Neste exercício, você usou notebooks com o PySpark no Fabric para carregar dados e salvá-los no Parquet. Em seguida, você usou esse arquivo Parquet para transformar ainda mais os dados. Por fim, você usou o SQL para consultar as tabelas Delta. Quando concluir a exploração, você poderá excluir o espaço de trabalho que criou nesse exercício. diff --git a/Instructions/Labs/Images/create-kql-db.png b/Instructions/Labs/Images/create-kql-db.png new file mode 100644 index 0000000..53a2011 Binary files /dev/null and b/Instructions/Labs/Images/create-kql-db.png differ diff --git a/Instructions/Labs/Images/fabric-real-time.png b/Instructions/Labs/Images/fabric-real-time.png new file mode 100644 index 0000000..935011c Binary files /dev/null and b/Instructions/Labs/Images/fabric-real-time.png differ