完成项目1/2/3：CPU优化、CUDA集成、AI聊天机器人 by Promin3 · Pull Request #46 · InfiniTensor/llaisys

Promin3 · 2026-03-16T11:02:07Z

项目1 CPU推理优化：为全部算子添加 OpenMP 多线程并行 + AVX2/FMA SIMD 向量化 + OpenBLAS 集成，linear 算子 F32 大矩阵与 PyTorch 持平，rope/swiglu/rms_norm 等算子加速 2-33x
项目2 CUDA集成与GPU推理加速：实现完整 CUDA Runtime API + 10 个 CUDA 算子（含 cuBLAS Tensor Core），GPU 推理输出与 PyTorch 完全一致
项目3 AI聊天机器人：实现 Temperature/Top-K/Top-P 随机采样算子（CPU+CUDA）、FastAPI 聊天服务器（OpenAI 兼容 API，支持流式 SSE）、现代化 Web 聊天界面

保留作业阶段的提交历史，代码更新为项目 InfiniTensor#1/InfiniTensor#2/InfiniTensor#3 完整实现。

- 新增项目1.md：CPU算子性能Profile报告（OpenMP+AVX2+OpenBLAS vs PyTorch） - 新增项目2.md：CUDA算子正确性与性能报告（10个CUDA算子+GPU推理验证） - 新增项目3.md：AI聊天机器人验证报告（FastAPI服务器+SSE流式+Web UI） - 修复test/ops/self_attention.py中temp_mask未指定device导致CUDA测试失败的bug - REPORT.md重命名为报告.md，修正了不存在的test_ops.py引用 Made-with: Cursor

Promin3 added 11 commits February 1, 2026 15:40

task 1 finished

ae3a9af

Merge remote-tracking branch 'upstream/main'

96b70a1

chore: trigger CI

86aa45b

task2 complete

7ae8bf6

Delete llaisys-env directory

f4e1972

chore: import current project

60ef78e

merge origin/main (keep local snapshot)

d7ddcc3

finished

82aa95e

update report

1c69419

合并旧作业历史，更新为完整项目实现

7452adb

保留作业阶段的提交历史，代码更新为项目 InfiniTensor#1/InfiniTensor#2/InfiniTensor#3 完整实现。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

完成项目1/2/3：CPU优化、CUDA集成、AI聊天机器人#46

完成项目1/2/3：CPU优化、CUDA集成、AI聊天机器人#46
Promin3 wants to merge 11 commits intoInfiniTensor:mainfrom
Promin3:main

Promin3 commented Mar 16, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

Promin3 commented Mar 16, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant