Skip to content

Commit

Permalink
Copy Files From Source Repo (2024-06-25 03:32)
Browse files Browse the repository at this point in the history
  • Loading branch information
olprod committed Jun 25, 2024
1 parent eb89016 commit a76430c
Show file tree
Hide file tree
Showing 105 changed files with 1,019 additions and 129 deletions.
Binary file not shown.
Binary file not shown.
11 changes: 11 additions & 0 deletions Allfiles/Labs/00-Setup/VM-Setup.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,11 @@
## Machine requirements

In order to complete certain labs, you need access to a SQL Server instance to restore the sample database.

- Use SQL Server Management Studio (SSMS) to connect to "localhost"

Restore AdventureWorksDW2022.bak database to SQL Server localhost.

Install the most recent version of Power BI Desktop application.


6 changes: 6 additions & 0 deletions Allfiles/Labs/01/Assets/01-Snippets.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,6 @@
>> Use SQL to query tables
==================================================
SELECT Item, SUM(Quantity * UnitPrice) AS Revenue
FROM sales
GROUP BY Item
ORDER BY Revenue DESC;
11 changes: 7 additions & 4 deletions Instructions/Labs/01-lakehouse.md
Original file line number Diff line number Diff line change
Expand Up @@ -43,7 +43,7 @@ lab:

## 上传文件

Fabric 提供了多种将数据加载到湖屋的方法,包括对复制数据外部源和可以基于 Power Query 使用可视化工具定义的数据流 (Gen 2) 的管道的内置支持。 但是,引入少量数据的最简单方法之一是从本地计算机(或实验室 VM,如果适用)上传文件或文件夹。
Fabric 提供了多种将数据加载到湖屋的方法,包括对从外部源复制数据的管道和可以基于 Power Query 使用可视化工具定义的数据流 (Gen 2) 的内置支持。 但是,引入少量数据的最简单方法之一是从本地计算机(或实验室 VM,如果适用)上传文件或文件夹。

1.`https://raw.githubusercontent.com/MicrosoftLearning/dp-data/main/sales.csv` 下载 sales.csv 文件,在本地计算机(或实验室 VM,如果适用)上将其保存为 sales.csv。

Expand Down Expand Up @@ -98,6 +98,7 @@ Fabric 提供了多种将数据加载到湖屋的方法,包括对复制数据
GROUP BY Item
ORDER BY Revenue DESC;
```
> **注意**:如果你位于实验室 VM 中并且输入 SQL 查询时出现问题,则可以从 `https://github.com/MicrosoftLearning/mslearn-fabric/raw/main/Allfiles/Labs/01/Assets/01-Snippets.txt` 下载 01-Snippets.txt[](https://github.com/MicrosoftLearning/mslearn-fabric/raw/main/Allfiles/Labs/01/Assets/01-Snippets.txt) 文件,并将其保存在 VM 上。 然后,你可以从该文本文件复制查询。

3. 使用 ▷(“运行”)按钮运行查询并查看结果,结果应显示每个产品的总收入。

Expand Down Expand Up @@ -134,9 +135,11 @@ Fabric 提供了多种将数据加载到湖屋的方法,包括对复制数据

1. 在“SQL 终结点”页底部,选择“模型”选项卡。**** 显示语义模型的数据模型架构。

![语义模型的屏幕截图。](./Images/data-model.png)
![屏幕截图 2024-04-29 155248](https://github.com/afelix-95/mslearn-fabric/assets/148110824/ba9bd67d-8968-4c46-ac7a-f96a9f697f4c)

> **注意**:在本练习中,数据模型由单个表组成。 在实际场景中,你可能会在湖屋中创建多个表,每个表都将包含在模型中。 然后,可以在模型中定义这些表之间的关系。
> **说明 1**:在本练习中,数据模型由单个表组成。 在实际场景中,你可能会在湖屋中创建多个表,每个表都将包含在模型中。 然后,可以在模型中定义这些表之间的关系。

> 备注 2****:视图 `frequently_run_queries``long_running_queries``exec_sessions_history``exec_requests_history` 是 Fabric 自动创建的 `queryinsights` 架构的一部分。 此功能提供 SQL 分析终结点上历史查询活动的整体视图。 由于此功能已超出本练习的范围,因此暂时应当忽略这些视图。

2. 在菜单功能区中,选择“报告”选项卡。然后选择“新建报表” 。 此时会打开一个新的浏览器选项卡,你可以在其中设计报表。

Expand Down Expand Up @@ -169,4 +172,4 @@ Fabric 提供了多种将数据加载到湖屋的方法,包括对复制数据

1. 在左侧栏中,选择工作区的图标以查看其包含的所有项。
2. 在工具栏上的“...”菜单中,选择“工作区设置” 。
3. 在“其他”部分中,选择“删除此工作区”
3. 在“常规”部分中,选择“删除此工作区”********
8 changes: 4 additions & 4 deletions Instructions/Labs/02-analyze-spark.md
Original file line number Diff line number Diff line change
Expand Up @@ -270,11 +270,11 @@ Apache Spark 是用于分布式数据处理的开放源代码引擎,广泛用
> 注意:对于用于进一步分析或引入到分析存储的数据文件,通常首选 Parquet 格式。 Parquet 是一种非常高效的格式,大多数大规模数据分析系统都支持这种格式。 事实上,有时数据转换要求可能只是将数据从其他格式(如 CSV)转换为 Parquet!
2. 运行单元格并等待数据已保存的消息。 然后在左侧的“湖屋”窗格中,在“Files”节点的“...”菜单中,选择“刷新”;然后选择 transformed_orders 文件夹以验证它是否包含名为 orders 的新文件夹,该文件夹是否又包含一个或多个 Parquet 文件************************。
2. 运行单元格并等待数据已保存的消息。 然后在左侧的“湖屋”窗格中,在“Files”节点的“...”菜单中选择“刷新”;然后选择 transformed_data 文件夹以验证它是否包含名为 orders 的新文件夹,该文件夹是否又包含一个或多个 Parquet 文件************************。
![包含 parquet 文件的文件夹的屏幕截图。](./Images/saved-parquet.png)
3. 添加包含以下代码的新单元格,以从 transformed_orders/orders 文件夹中的 parquet 文件加载新的数据帧:
3. 添加包含以下代码的新单元格,以从 transformed_data/orders 文件夹中的 parquet 文件加载新的数据帧****
```Python
orders_df = spark.read.format("parquet").load("Files/transformed_data/orders")
Expand Down Expand Up @@ -358,7 +358,7 @@ Spark 元存储中的表是数据湖中文件的关系抽象。 表可以管理
GROUP BY YEAR(OrderDate)
ORDER BY OrderYear;
```
2. 运行单元格并查看结果。 观察以下情况:
- 单元格开头的 `%%sql` 行(称为 magic)指示应使用 Spark SQL 语言运行时来运行此单元格中的代码,而不是 PySpark。
- SQL 代码引用以前创建的 salesorders 表。
Expand Down Expand Up @@ -587,4 +587,4 @@ Spark 元存储中的表是数据湖中文件的关系抽象。 表可以管理
1. 在左侧栏中,选择工作区的图标以查看其包含的所有项。
2. 在工具栏上的“...”菜单中,选择“工作区设置” 。
3. 在“其他”部分中,选择“删除此工作区”
3. 在“常规”部分中,选择“删除此工作区”。********
2 changes: 1 addition & 1 deletion Instructions/Labs/03-delta-lake.md
Original file line number Diff line number Diff line change
Expand Up @@ -324,4 +324,4 @@ Delta Lake 支持流式处理数据。 Delta 表可以是接收器,也可以

1. 在左侧栏中,选择工作区的图标以查看其包含的所有项。
2. 在工具栏上的“...”菜单中,选择“工作区设置” 。
3. 在“其他”部分中,选择“删除此工作区”
3. 在“常规”部分中,选择“移除此工作区”********
2 changes: 1 addition & 1 deletion Instructions/Labs/03b-medallion-lakehouse.md
Original file line number Diff line number Diff line change
Expand Up @@ -612,4 +612,4 @@ lab:

1. 在左侧栏中,选择工作区的图标以查看其包含的所有项。
2. 在工具栏上的“...”菜单中,选择“工作区设置” 。
3. 在“其他”部分中,选择“删除此工作区”
3. 在“常规”部分中,选择“移除此工作区”********
16 changes: 9 additions & 7 deletions Instructions/Labs/04-ingest-pipeline.md
Original file line number Diff line number Diff line change
Expand Up @@ -39,7 +39,7 @@ Fabric 还支持 Apache Spark,使你能够编写和运行代码以大规模处

引入数据的一种简单方法是使用管道中的“复制数据”活动从源中提取数据并将其复制到湖屋中的文件。

1. 在湖屋的主页上,选择“新建数据管道”,并创建名为“引入销售数据”的新数据管道
1. 在湖屋的“主页”上,选择“获取数据”,再选择“新建数据管道”,并创建名为“引入销售数据”的新数据管道****************
2. 如果“复制数据”向导未自动打开,请在管道编辑器页中选择“复制数据” 。
3. 在“复制数据”向导的“选择数据源”页上的“数据源”部分中,选择“通用协议”选项卡,然后选择“HTTP” 。

Expand All @@ -49,8 +49,9 @@ Fabric 还支持 Apache Spark,使你能够编写和运行代码以大规模处
- **URL**`https://raw.githubusercontent.com/MicrosoftLearning/dp-data/main/sales.csv`
- 连接:创建新连接
- 连接名称:指定一个唯一名称
- 身份验证类型:基本(将用户名和密码留空)
5. 选择“**下一页**”。 然后确保已选择以下设置:
- 数据网关:(无)****
- 身份验证类型:匿名
5. 选择**下一步**。 然后确保已选择以下设置:
- 相对 URL:留空
- 请求方法:GET
- 其他标题:留空
Expand All @@ -64,7 +65,7 @@ Fabric 还支持 Apache Spark,使你能够编写和运行代码以大规模处
- 首行用作标题:已选择
- 压缩类型:无
7. 选择“预览数据”,查看要引入的数据的示例。 然后关闭数据预览并选择“下一步”。
8. 在“选择数据目标”页上,选择现有湖屋。 然后,选择“下一步”。
8. 在“连接到数据目标”页上,选择现有湖屋****。 然后,选择“下一步”。
9. 设置以下数据目标选项,然后选择“下一步”:
- 根文件夹:Files
- 文件夹路径名称:new_data
Expand Down Expand Up @@ -148,8 +149,7 @@ Fabric 还支持 Apache Spark,使你能够编写和运行代码以大规模处
- 常规:
- 名称:删除旧文件
- **Source**
- 数据存储类型:工作区
- 工作区数据存储:湖屋
- 连接****:你的湖屋**
- 文件路径类型:通配符文件路径
- 文件夹路径:Files/new_data
- 通配符文件名:*.csv
Expand Down Expand Up @@ -181,6 +181,8 @@ Fabric 还支持 Apache Spark,使你能够编写和运行代码以大规模处

![包含“数据流”活动的管道的屏幕截图。](./Images/pipeline-run.png)

> 注意:如果收到错误消息 *只能在湖屋的上下文中执行 Spark SQL 查询。请附加湖屋以继续操作*:请打开笔记本,在左侧窗格中造择已创建的湖屋,选择“移除所有湖屋”,然后再次添加它。**** 返回到管道设计器并选择“▷ 运行”****。

8. 在门户左边缘的中心菜单栏中选择湖屋。
9. 在“资源管理器”窗格中,展开“Tables”,选择“new_sales”表以预览其包含的数据 。 此表是在管道运行笔记本时由笔记本创建的。

Expand All @@ -194,4 +196,4 @@ Fabric 还支持 Apache Spark,使你能够编写和运行代码以大规模处

1. 在左侧栏中,选择工作区的图标以查看其包含的所有项。
2. 在工具栏上的“...”菜单中,选择“工作区设置” 。
3. 在“其他”部分中,选择“删除此工作区”
3. 在“常规”部分中,选择“删除此工作区”********
5 changes: 2 additions & 3 deletions Instructions/Labs/05-dataflows-gen2.md
Original file line number Diff line number Diff line change
Expand Up @@ -93,7 +93,7 @@ lab:

6. 选择“发布”以发布数据流。 然后等待在工作区中创建 Dataflow 1 数据流。

7. 发布后,可以右键单击工作区中的数据流,选择“属性”,然后重命名数据流。
7. 发布后,可以在工作区中单击数据流旁边的省略号 (...),选择“属性”,然后重命名数据流。********

## 将数据流添加到管道

Expand Down Expand Up @@ -136,5 +136,4 @@ lab:
1. 在浏览器中导航到 Microsoft Fabric。
1. 在左侧栏中,选择工作区的图标以查看其包含的所有项。
1. 在工具栏上的“...”菜单中,选择“工作区设置” 。
1. 在“其他”部分中,选择“删除此工作区” 。
1. 不要保存对 Power BI Desktop 所做的更改,也不要删除 .pbix 文件(如果已保存)。
1. 在“常规”部分中,选择“移除此工作区”********
2 changes: 1 addition & 1 deletion Instructions/Labs/06-data-warehouse.md
Original file line number Diff line number Diff line change
Expand Up @@ -243,4 +243,4 @@ Microsoft Fabric 中的数据仓库具有许多可能在关系数据库中使用

1. 在左侧栏中,选择工作区的图标以查看其包含的所有项。
2. 在工具栏上的“...”菜单中,选择“工作区设置” 。
3. 在“其他”部分中,选择“删除此工作区”
3. 在“常规”部分中,选择“移除此工作区”********
4 changes: 2 additions & 2 deletions Instructions/Labs/06a-data-warehouse-load.md
Original file line number Diff line number Diff line change
Expand Up @@ -29,7 +29,7 @@ lab:

1. 在“Synapse 数据工程”主页中,新建湖屋并为其指定名称 。

大约一分钟后,一个新的空湖屋创建完成。 需要将一些数据引入数据湖屋进行分析。 有多种方法可以执行此操作,但在本练习中,需要把 CVS 文件下载到本地计算机(或实验室 VM,如果适用),然后上传到湖屋。
大约一分钟后,一个新的空湖屋创建完成。 需要将一些数据引入数据湖屋进行分析。 有多种方法可以执行此操作,但在本练习中,需要把 CSV 文件下载到本地计算机(或实验室 VM,如果适用),然后上传到湖屋。

1.`https://github.com/MicrosoftLearning/dp-data/raw/main/sales.csv` 下载本练习的文件。

Expand Down Expand Up @@ -249,4 +249,4 @@ lab:

1. 在左侧栏中,选择工作区的图标以查看其包含的所有项。
2. 在工具栏上的“...”菜单中,选择“工作区设置” 。
3. 在“其他”部分中,选择“删除此工作区”
3. 在“常规”部分中,选择“删除此工作区”********
2 changes: 1 addition & 1 deletion Instructions/Labs/06b-data-warehouse-query.md
Original file line number Diff line number Diff line change
Expand Up @@ -184,4 +184,4 @@ SQL 查询编辑器支持 IntelliSense、代码完成、语法突出显示、客

1. 在左侧栏中,选择工作区的图标以查看其包含的所有项。
2. 在工具栏上的“...”菜单中,选择“工作区设置” 。
3. 在“其他”部分中,选择“删除此工作区”
3. 在“常规”部分中,选择“移除此工作区”********
2 changes: 1 addition & 1 deletion Instructions/Labs/06c-monitor-data-warehouse.md
Original file line number Diff line number Diff line change
Expand Up @@ -130,4 +130,4 @@ Microsoft Fabric 数据仓库提供查询见解,这是一组特殊的视图,

1. 在左侧栏中,选择工作区的图标以查看其包含的所有项。
2. 在工具栏上的“...”菜单中,选择“工作区设置” 。
3. 在“其他”部分中,选择“删除此工作区”
3. 在“常规”部分中,选择“移除此工作区”********
Loading

0 comments on commit a76430c

Please sign in to comment.