From 4101bafc6ec15a1749ba0291cf6eb9071d9d99c0 Mon Sep 17 00:00:00 2001
From: Daniel Kiss <daniel.kiss@arm.com>
Date: Tue, 6 Aug 2024 11:26:43 +0200
Subject: [PATCH 01/36] Add DS_Store to the git ignore. (#339)

---
 .gitignore | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/.gitignore b/.gitignore
index 1639fde7..271193c4 100644
--- a/.gitignore
+++ b/.gitignore
@@ -1,3 +1,4 @@
 tmp
 pdfs
-tex2pdf*
\ No newline at end of file
+tex2pdf*
+.DS_Store
\ No newline at end of file

From ede45987c799c92d2724a88c28184518a7daf16e Mon Sep 17 00:00:00 2001
From: CarolineConcatto <caroline.concatto@arm.com>
Date: Wed, 14 Aug 2024 10:34:33 +0100
Subject: [PATCH 02/36] Remove request for preprocessor guards from header
 files. (#321)

Remove request for preprocessor guards from header files.

Co-authored-by: rsandifo-arm <richard.sandiford@arm.com>
Co-authored-by: Sander de Smalen <sander.desmalen@arm.com>
---
 main/acle.md | 63 +++++++++++++++++++++++++++++++++++++++++-----------
 1 file changed, 50 insertions(+), 13 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index 34b1283d..adefa8f1 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -923,8 +923,8 @@ and:
 to the more specific header files below. These intrinsics are in the
 C implementation namespace and begin with double underscores. It is
 unspecified whether they are available without the header being
-included. The `__ARM_ACLE` macro should be tested before including the
-header:
+included. When `__ARM_ACLE` is defined to `1`, the header file is
+guaranteed to be available.
 
 ``` c
   #ifdef __ARM_ACLE
@@ -937,8 +937,9 @@ header:
 `<arm_fp16.h>` is provided to define the scalar 16-bit floating point
 arithmetic intrinsics. As these intrinsics are in the user namespace,
 an implementation would not normally define them until the header is
-included. The `__ARM_FEATURE_FP16_SCALAR_ARITHMETIC` feature macro
-should be tested before including the header:
+included. When `__ARM_FEATURE_FP16_SCALAR_ARITHMETIC` is defined to `1`,
+the header file is available regardless of the context in which the macro
+is evaluated.
 
 ``` c
   #ifdef __ARM_FEATURE_FP16_SCALAR_ARITHMETIC
@@ -951,8 +952,9 @@ should be tested before including the header:
 `<arm_bf16.h>` is provided to define the 16-bit brain floating point
 arithmetic intrinsics. As these intrinsics are in the user namespace,
 an implementation would not normally define them until the header is
-included. The `__ARM_FEATURE_BF16` feature macro
-should be tested before including the header:
+included. When `__ARM_FEATURE_BF16` is defined to `1`, the header file is
+guaranteed to be available regardless of the context in which the macro
+is evaluated.
 
 ``` c
   #ifdef __ARM_FEATURE_BF16
@@ -973,8 +975,10 @@ instructions available are conversion intrinsics between `bfloat16_t` and
 intrinsics](#advanced-simd-neon-intrinsics) and associated
 [data types](#vector-data-types). As these intrinsics and data types are
 in the user namespace, an implementation would not normally define them
-until the header is included. The `__ARM_NEON` macro should be tested
-before including the header:
+until the header is included. When `__ARM_NEON` is defined to `1`,
+the header file is available regardless of the context in which the macro is
+evaluated.
+
 
 ``` c
   #ifdef __ARM_NEON
@@ -995,8 +999,8 @@ to be included, if the header files are available:
 `<arm_sve.h>` defines data types and intrinsics for SVE and its
 extensions; see [SVE language extensions and
 intrinsics](#sve-language-extensions-and-intrinsics) for details.
-You should test the `__ARM_FEATURE_SVE` macro before including the
-header:
+When `__ARM_FEATURE_SVE` is defined to `1`, the header file is available
+regardless of the context in which the macro is evaluated.
 
 ``` c
   #ifdef __ARM_FEATURE_SVE
@@ -1015,7 +1019,7 @@ Including `<arm_sve.h>` also includes the following header files:
 
 `<arm_neon_sve_bridge.h>` defines intrinsics for moving data between
 Neon and SVE vector types; see [NEON-SVE Bridge](#neon-sve-bridge)
-for details.  The `__ARM_NEON_SVE_BRIDGE` macro should be tested
+for details. The `__ARM_NEON_SVE_BRIDGE` macro should be tested
 before including the header:
 
 ``` c
@@ -1057,8 +1061,8 @@ change or be extended in the future.
 
 `<arm_sme.h>` declares functions and defines intrinsics for SME
 and its extensions; see [SME language extensions and intrinsics](#sme-language-extensions-and-intrinsics)
-for details. The `__ARM_FEATURE_SME` macro should be tested before
-including the header:
+for details. When `__ARM_FEATURE_SME` is defined to `1`, the header file is
+available regardless of the context in which the macro is evaluated.
 
 ``` c
   #ifdef __ARM_FEATURE_SME
@@ -1068,6 +1072,39 @@ including the header:
 
 Including `<arm_sme.h>` also includes [`<arm_sve.h>`](#arm_sve.h).
 
+### Predefined feature macros and header files
+
+Evaluating a feature macro returns the availability of intrinsics and inline
+assembly for that feature, but no assumptions should be made on the order or
+context in which the preprocessor macros are evaluated. For example:
+
+``` c
+    __attribute__((target("+sve")))
+    void foo() {
+    #ifdef __ARM_FEATURE_SVE
+      // The user should make no assumptions that the target attribute
+     // has enabled the __ARM_FEATURE_SVE macro.
+    #endif
+}
+```
+
+The compiler may add additional restrictions to the intrinsics beyond what is
+captured by the ACLE macros depending on the context in which the intrinsics
+are used. For example:
+
+``` c
+    #include <arm_sme.h>
+    void foo(svbool_t pg, void *ptr, uint32_t slice_base) {
+    #ifdef __ARM_FEATURE_SME
+      svst1_hor_za8(0, slice_base, pg, ptr);
+    #endif
+    }
+```
+
+If `__ARM_FEATURE_SME` evaluates to `true` the SME intrinsic `svst1_hor_za8`
+is available, but `foo` may still fail to compile because the call does not
+occur in a [streaming statement](#streaming-statement).
+
 ## Attributes
 
 GCC-style attributes are provided to annotate types, objects and

From 92bc9582a78e39fc86bffe433a9f92a651564188 Mon Sep 17 00:00:00 2001
From: Daniel Kiss <daniel.kiss@arm.com>
Date: Mon, 19 Aug 2024 12:36:40 +0200
Subject: [PATCH 03/36] [FMV] Add __FUNCTION_MULTI_VERSIONING_SUPPORT_LEVEL.
 (#301)

---
 main/acle.md | 11 +++++++++++
 1 file changed, 11 insertions(+)

diff --git a/main/acle.md b/main/acle.md
index adefa8f1..72b13f3f 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -400,6 +400,8 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
 * Added a requirement for function version declaration in Function Multi Versioning.
 * Fixed some rendering issues in the online Markdown documentation and fixed
   a misplaced anchor.
+* Added `__FUNCTION_MULTI_VERSIONING_SUPPORT_LEVEL` to indicate the support
+  level of the [Function Multi Versioning](#function-multi-versioning).
 
 ### References
 
@@ -2572,6 +2574,15 @@ following:
 versioning mechanism described in this section is supported by the
 compiler and it is enabled.
 
+`__FUNCTION_MULTI_VERSIONING_SUPPORT_LEVEL` is defined to the currently supported
+version of the ACLE. The value and the format are the same as the `__ARM_ACLE`.
+
+For example, it can be implemented as:
+
+``` c
+#define __FUNCTION_MULTI_VERSIONING_SUPPORT_LEVEL __ARM_ACLE_VERSION(2024, 3, 0)
+```
+
 ### Name mangling
 
 The `"default"` version is mangled with `".default"` on top of the

From e98f3badb6742b8a2fd058368bde1b23e1a75209 Mon Sep 17 00:00:00 2001
From: rsandifo-arm <richard.sandiford@arm.com>
Date: Tue, 20 Aug 2024 12:26:14 +0100
Subject: [PATCH 04/36] Add Alpha support for SME2.1 (#309)

---
 main/acle.md | 484 +++++++++++++++++++++++++++++++++++++++++++--------
 1 file changed, 416 insertions(+), 68 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index 72b13f3f..96957a27 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -402,6 +402,8 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
   a misplaced anchor.
 * Added `__FUNCTION_MULTI_VERSIONING_SUPPORT_LEVEL` to indicate the support
   level of the [Function Multi Versioning](#function-multi-versioning).
+* Added [**Alpha**](#current-status-and-anticipated-changes)
+  support for SME2.1 (FEAT_SME2p1).
 
 ### References
 
@@ -1906,23 +1908,31 @@ intrinsics are available. This implies that the following macros are nonzero:
 
 #### Scalable Matrix Extension (SME)
 
-The specification for SME is in
-[**Beta** state](#current-status-and-anticipated-changes) and may
-change or be extended in the future.
+The specification for SME2.1 is in
+[**Alpha** state](#current-status-and-anticipated-changes) and the
+specification for the rest of SME is in
+[**Beta** state](#current-status-and-anticipated-changes).  The
+specifications may change or be extended in the future.
+
+ACLE provides [features](#sme-language-extensions-and-intrinsics)
+for accessing the Scalable Matrix Extension (SME). Each revision
+of SME has an associated preprocessor macro, given in the table below:
 
-`__ARM_FEATURE_SME` is defined to 1 if there is hardware support
-for the FEAT_SME instructions and if the associated [ACLE
-features](#sme-language-extensions-and-intrinsics) are available.
-This implies that `__ARM_FEATURE_SVE` is nonzero.
+| **Feature** | **Macro**                  |
+| ----------- | -------------------------- |
+| FEAT_SME    | __ARM_FEATURE_SME          |
+| FEAT_SME2   | __ARM_FEATURE_SME2         |
+| FEAT_SME2p1 | __ARM_FEATURE_SME2p1       |
+
+Each macro is defined if there is hardware support for the associated
+architecture feature and if all of the [ACLE
+features](#sme-language-extensions-and-intrinsics) that are conditional
+on the macro are supported.
 
 In addition, `__ARM_FEATURE_LOCALLY_STREAMING` is defined to 1 if
 the [`arm_locally_streaming`](#arm_locally_streaming) attribute
 is available.
 
-`__ARM_FEATURE_SME2` is defined to 1 if the FEAT_SME2 instructions
-are available and if the associated [ACLE
-features](#sme-language-extensions-and-intrinsics) are supported.
-
 #### M-profile Vector Extension
 
 `__ARM_FEATURE_MVE` is defined as a bitmap to indicate M-profile Vector
@@ -1974,6 +1984,16 @@ instructions from Armv8.2-A are supported and intrinsics targeting them are
 available. This implies that `__ARM_FEATURE_FP16_SCALAR_ARITHMETIC` is
 defined to a nonzero value.
 
+#### Half-precision floating-point SME intrinsics
+
+The specification for SME2.1 is in
+[**Alpha** state](#current-status-and-anticipated-changes) and may change or be
+extended in the future.
+
+`__ARM_FEATURE_SME_F16F16` is defined to `1` if there is hardware support
+for the SME2 half-precision (FEAT_SME_F16F16) instructions and if their
+associated intrinsics are available.
+
 #### Brain 16-bit floating-point support
 
 `__ARM_BF16_FORMAT_ALTERNATIVE` is defined to 1 if the Arm
@@ -1999,6 +2019,32 @@ See [Half-precision brain
 floating-point](#half-precision-brain-floating-point) for details
 of half-precision brain floating-point types.
 
+#### Non-widening brain 16-bit floating-point support
+
+The specification for B16B16 is in
+[**Alpha** state](#current-status-and-anticipated-changes) and may change or be
+extended in the future.
+
+`__ARM_FEATURE_SVE_B16B16` is defined to `1` if there is hardware support
+for the FEAT_SVE_B16B16 instructions and if their associated intrinsics
+are available.  Specifically, if this macro is defined to `1`, then:
+
+*    the SVE subset of the FEAT_SVE_B16B16 intrinsics are available in
+     [non-streaming statements](#non-streaming-statement)
+     if `__ARM_FEATURE_SVE` is nonzero.
+
+*    the SVE subset of the FEAT_SVE_B16B16 intrinsics are available in
+     [streaming-compatible statements](#streaming-compatible-statement)
+     if `__ARM_FEATURE_SME` is nonzero.
+
+*    all FEAT_SVE_B16B16 intrinsics are available in
+     [streaming statements](#streaming-statement) if `__ARM_FEATURE_SME`
+     is nonzero.
+
+`__ARM_FEATURE_SME_B16B16` is defined to `1` if there is hardware support
+for the FEAT_SME_B16B16 instructions and if their associated intrinsics
+are available.
+
 ### Cryptographic extensions
 
 #### “Crypto” extension
@@ -2392,10 +2438,13 @@ be found in [[BA]](#BA).
 | [`__ARM_FEATURE_SM4`](#sm4-extension)                                                                                                                   | SM4 Crypto extension (Arm v8.4-A, optional Armv8.2-A, Armv8.3-A)                                   | 1           |
 | [`__ARM_FEATURE_SME`](#scalable-matrix-extension-sme)                                                                                                   | Scalable Matrix Extension (FEAT_SME)                                                               | 1           |
 | [`__ARM_FEATURE_SME2`](#scalable-matrix-extension-sme)                                                                                                  | Scalable Matrix Extension (FEAT_SME2)                                                              | 1           |
+| [`__ARM_FEATURE_SME_B16B16`](#non-widening-brain-16-bit-floating-point-support)                                                                         | Non-widening brain 16-bit floating-point SME intrinsics (FEAT_SME_B16B16)                          | 1           |
+| [`__ARM_FEATURE_SME_F16F16`](#half-precision-floating-point-sme-intrinsics)                                                                             | Half-precision floating-point SME intrinsics (FEAT_SME_F16F16)                                     | 1           |
 | [`__ARM_FEATURE_SME_F64F64`](#double-precision-floating-point-outer-product-intrinsics)                                                                 | Double precision floating-point outer product intrinsics (FEAT_SME_F64F64)                         | 1           |
 | [`__ARM_FEATURE_SME_I16I64`](#16-bit-to-64-bit-integer-widening-outer-product-intrinsics)                                                               | 16-bit to 64-bit integer widening outer product intrinsics (FEAT_SME_I16I64)                       | 1           |
 | [`__ARM_FEATURE_SME_LOCALLY_STREAMING`](#scalable-matrix-extension-sme)                                                                                 | Support for the `arm_locally_streaming` attribute                                                  | 1           |
 | [`__ARM_FEATURE_SVE`](#scalable-vector-extension-sve)                                                                                                   | Scalable Vector Extension (FEAT_SVE)                                                               | 1           |
+| [`__ARM_FEATURE_SVE_B16B16`](#non-widening-brain-16-bit-floating-point-support)                                                                         | Non-widening brain 16-bit floating-point intrinsics (FEAT_SVE_B16B16)                              | 1           |
 | [`__ARM_FEATURE_SVE_BF16`](#brain-16-bit-floating-point-support)                                                                                        | SVE support for the 16-bit brain floating-point extension (FEAT_BF16)                              | 1           |
 | [`__ARM_FEATURE_SVE_BITS`](#scalable-vector-extension-sve)                                                                                              | The number of bits in an SVE vector, when known in advance                                         | 256         |
 | [`__ARM_FEATURE_SVE_MATMUL_FP32`](#multiplication-of-32-bit-floating-point-matrices)                                                                    | 32-bit floating-point matrix multiply extension (FEAT_F32MM)                                       | 1           |
@@ -8683,8 +8732,8 @@ The specification for B16B16 is in
 [**Alpha** state](#current-status-and-anticipated-changes) and may change or be
 extended in the future.
 
-The instructions in this section are available when __ARM_FEATURE_B16B16 is
-non-zero.
+The instructions in this section are available when `__ARM_FEATURE_SVE_B16B16`
+is non-zero.
 
 #### BFADD, BFSUB
 
@@ -8755,6 +8804,7 @@ BFloat16 floating-point maximum/minimum number (predicated).
    ```
 
 #### BFMLA, BFMLS
+
 BFloat16 floating-point fused multiply add or sub vectors.
 
  ``` c
@@ -10202,17 +10252,16 @@ Replacing `_hor` with `_ver` gives the associated vertical forms.
     __arm_streaming __arm_inout("za");
 ```
 
-#### FMOPA (non-widening)
+#### BFMOPA, FMOPA (non-widening)
 
 ``` c
+  // Variants are also available for:
+  //   _za16[_bf16]_m (only if __ARM_FEATURE_SME_B16B16 != 0)
+  //   _za16[_f16]_m (only if __ARM_FEATURE_SME_F16F16 != 0)
+  //   _za64[_f64]_m (only if __ARM_FEATURE_SME_F64F64 != 0)
   void svmopa_za32[_f32]_m(uint64_t tile, svbool_t pn, svbool_t pm,
                            svfloat32_t zn, svfloat32_t zm)
     __arm_streaming __arm_inout("za");
-
-  // Only if __ARM_FEATURE_SME_F64F64 != 0
-  void svmopa_za64[_f64]_m(uint64_t tile, svbool_t pn, svbool_t pm,
-                           svfloat64_t zn, svfloat64_t zm)
-    __arm_streaming __arm_inout("za");
 ```
 
 #### BFMOPS, FMOPS (widening), SMOPS, UMOPS
@@ -10245,17 +10294,16 @@ Replacing `_hor` with `_ver` gives the associated vertical forms.
     __arm_streaming __arm_inout("za");
 ```
 
-#### FMOPS (non-widening)
+#### BFMOPS, FMOPS (non-widening)
 
 ``` c
+  // Variants are also available for:
+  //   _za16[_bf16]_m (only if __ARM_FEATURE_SME_B16B16 != 0)
+  //   _za16[_f16]_m (only if __ARM_FEATURE_SME_F16F16 != 0)
+  //   _za64[_f64]_m (only if __ARM_FEATURE_SME_F64F64 != 0)
   void svmops_za32[_f32]_m(uint64_t tile, svbool_t pn, svbool_t pm,
                            svfloat32_t zn, svfloat32_t zm)
     __arm_streaming __arm_inout("za");
-
-  // Only if __ARM_FEATURE_SME_F64F64 != 0
-  void svmops_za64[_f64]_m(uint64_t tile, svbool_t pn, svbool_t pm,
-                           svfloat64_t zn, svfloat64_t zm)
-    __arm_streaming __arm_inout("za");
 ```
 
 #### RDSVL
@@ -10473,12 +10521,14 @@ Multi-vector add
   svint8x4_t svadd[_single_s8_x4](svint8x4_t zdn, svint8_t zm) __arm_streaming;
   ```
 
-#### ADD, SUB, FADD, FSUB (accumulate into ZA)
+#### ADD, SUB, BFADD, BFSUB, FADD, FSUB (accumulate into ZA)
 
 Multi-vector add/sub and accumulate into ZA
 
 ``` c
   // Variants are available for:
+  //   _za16[_bf16] (only if __ARM_FEATURE_SME_B16B16 != 0)
+  //   _za16[_f16] (only if __ARM_FEATURE_SME_F16F16 != 0)
   //   _za32[_f32]
   //   _za32[_s32]
   //   _za32[_u32]
@@ -10490,6 +10540,8 @@ Multi-vector add/sub and accumulate into ZA
 
 
   // Variants are available for:
+  //   _za16[_bf16] (only if __ARM_FEATURE_SME_B16B16 != 0)
+  //   _za16[_f16] (only if __ARM_FEATURE_SME_F16F16 != 0)
   //   _za32[_f32]
   //   _za32[_s32]
   //   _za32[_u32]
@@ -10501,6 +10553,8 @@ Multi-vector add/sub and accumulate into ZA
 
 
   // Variants are available for:
+  //   _za16[_bf16] (only if __ARM_FEATURE_SME_B16B16 != 0)
+  //   _za16[_f16] (only if __ARM_FEATURE_SME_F16F16 != 0)
   //   _za32[_f32]
   //   _za32[_s32]
   //   _za32[_u32]
@@ -10512,6 +10566,8 @@ Multi-vector add/sub and accumulate into ZA
 
 
   // Variants are available for:
+  //   _za16[_bf16] (only if __ARM_FEATURE_SME_B16B16 != 0)
+  //   _za16[_f16] (only if __ARM_FEATURE_SME_F16F16 != 0)
   //   _za32[_f32]
   //   _za32[_s32]
   //   _za32[_u32]
@@ -10531,6 +10587,16 @@ Multi-vector floating-point convert from single-precision to interleaved half-pr
   svbfloat16_t svcvtn_bf16[_f32_x2](svfloat32x2_t zn) __arm_streaming;
   ```
 
+#### FCVTL
+
+Multi-vector floating-point convert from half-precision to deinterleaved
+single-precision.
+
+```
+  // Only if __ARM_FEATURE_SME_F16F16 != 0
+  svfloat32x2_t svcvtl_f32[_f16_x2](svfloat16_t zn) __arm_streaming;
+```
+
 #### FCVT, BFCVT, FCVTZS, FCVTZU, SCVTF, UCVTF
 
 Multi-vector convert to/from floating-point.
@@ -10546,6 +10612,9 @@ Multi-vector convert to/from floating-point.
 
   // Variants are also available for _f32[_u32_x4], _s32[_f32_x4] and _u32[_f32_x4]
   svfloat32x4_t svcvt_f32[_s32_x4](svint32x4_t zn) __arm_streaming;
+
+  // Only if __ARM_FEATURE_SME_F16F16 != 0
+  svfloat32x2_t svcvt_f32[_f16_x2](svfloat16_t zn) __arm_streaming;
   ```
 
 #### SQCVT, SQCVTU, UQCVT
@@ -10792,12 +10861,14 @@ Bitwise exclusive NOR population count outer product and accumulate/subtract
     __arm_streaming __arm_inout("za");
   ```
 
-#### FMLA, FMLS (single)
+#### BFMLA, BFMLS, FMLA, FMLS (single)
 
 Multi-vector floating-point fused multiply-add/subtract
 
 ``` c
   // Variants are available for:
+  //   _za16[_bf16] (only if __ARM_FEATURE_SME_B16B16 != 0)
+  //   _za16[_f16] (only if __ARM_FEATURE_SME_F16F16 != 0)
   //   _za32[_f32]
   //   _za64[_f64] (only if __ARM_FEATURE_SME_F64F64 != 0)
   void svmla[_single]_za32[_f32]_vg1x2(uint32_t slice, svfloat32x2_t zn,
@@ -10806,6 +10877,8 @@ Multi-vector floating-point fused multiply-add/subtract
 
 
   // Variants are available for:
+  //   _za16[_bf16] (only if __ARM_FEATURE_SME_B16B16 != 0)
+  //   _za16[_f16] (only if __ARM_FEATURE_SME_F16F16 != 0)
   //   _za32[_f32]
   //   _za64[_f64] (only if __ARM_FEATURE_SME_F64F64 != 0)
   void svmla[_single]_za32[_f32]_vg1x4(uint32_t slice, svfloat32x4_t zn,
@@ -10814,6 +10887,8 @@ Multi-vector floating-point fused multiply-add/subtract
 
 
   // Variants are available for:
+  //   _za16[_bf16] (only if __ARM_FEATURE_SME_B16B16 != 0)
+  //   _za16[_f16] (only if __ARM_FEATURE_SME_F16F16 != 0)
   //   _za32[_f32]
   //   _za64[_f64] (only if __ARM_FEATURE_SME_F64F64 != 0)
   void svmls[_single]_za32[_f32]_vg1x2(uint32_t slice, svfloat32x2_t zn,
@@ -10822,6 +10897,8 @@ Multi-vector floating-point fused multiply-add/subtract
 
 
   // Variants are available for:
+  //   _za16[_bf16] (only if __ARM_FEATURE_SME_B16B16 != 0)
+  //   _za16[_f16] (only if __ARM_FEATURE_SME_F16F16 != 0)
   //   _za32[_f32]
   //   _za64[_f64] (only if __ARM_FEATURE_SME_F64F64 != 0)
   void svmls[_single]_za32[_f32]_vg1x4(uint32_t slice, svfloat32x4_t zn,
@@ -10829,12 +10906,14 @@ Multi-vector floating-point fused multiply-add/subtract
     __arm_streaming __arm_inout("za");
   ```
 
-#### FMLA, FMLS (multi)
+#### BFMLA, BFMLS, FMLA, FMLS (multi)
 
 Multi-vector floating-point fused multiply-add/subtract
 
 ``` c
   // Variants are available for:
+  //   _za16[_bf16] (only if __ARM_FEATURE_SME_B16B16 != 0)
+  //   _za16[_f16] (only if __ARM_FEATURE_SME_F16F16 != 0)
   //   _za32[_f32]
   //   _za64[_f64] (only if __ARM_FEATURE_SME_F64F64 != 0)
   void svmla_za32[_f32]_vg1x2(uint32_t slice, svfloat32x2_t zn,
@@ -10843,6 +10922,8 @@ Multi-vector floating-point fused multiply-add/subtract
 
 
   // Variants are available for:
+  //   _za16[_bf16] (only if __ARM_FEATURE_SME_B16B16 != 0)
+  //   _za16[_f16] (only if __ARM_FEATURE_SME_F16F16 != 0)
   //   _za32[_f32]
   //   _za64[_f64] (only if __ARM_FEATURE_SME_F64F64 != 0)
   void svmla_za32[_f32]_vg1x4(uint32_t slice, svfloat32x4_t zn,
@@ -10851,6 +10932,8 @@ Multi-vector floating-point fused multiply-add/subtract
 
 
   // Variants are available for:
+  //   _za16[_bf16] (only if __ARM_FEATURE_SME_B16B16 != 0)
+  //   _za16[_f16] (only if __ARM_FEATURE_SME_F16F16 != 0)
   //   _za32[_f32]
   //   _za64[_f64] (only if __ARM_FEATURE_SME_F64F64 != 0)
   void svmls_za32[_f32]_vg1x2(uint32_t slice, svfloat32x2_t zn,
@@ -10859,6 +10942,8 @@ Multi-vector floating-point fused multiply-add/subtract
 
 
   // Variants are available for:
+  //   _za16[_bf16] (only if __ARM_FEATURE_SME_B16B16 != 0)
+  //   _za16[_f16] (only if __ARM_FEATURE_SME_F16F16 != 0)
   //   _za32[_f32]
   //   _za64[_f64] (only if __ARM_FEATURE_SME_F64F64 != 0)
   void svmls_za32[_f32]_vg1x4(uint32_t slice, svfloat32x4_t zn,
@@ -10866,12 +10951,14 @@ Multi-vector floating-point fused multiply-add/subtract
     __arm_streaming __arm_inout("za");
   ```
 
-#### FMLA, FMLS (indexed)
+#### BFMLA. BFMLS, FMLA, FMLS (indexed)
 
 Multi-vector floating-point fused multiply-add/subtract
 
 ``` c
   // Variants are available for:
+  //   _za16[_bf16] (only if __ARM_FEATURE_SME_B16B16 != 0)
+  //   _za16[_f16] (only if __ARM_FEATURE_SME_F16F16 != 0)
   //   _za32[_f32]
   //   _za64[_f64] (only if __ARM_FEATURE_SME_F64F64 != 0)
   void svmla_lane_za32[_f32]_vg1x2(uint32_t slice, svfloat32x2_t zn,
@@ -10880,6 +10967,8 @@ Multi-vector floating-point fused multiply-add/subtract
 
 
   // Variants are available for:
+  //   _za16[_bf16] (only if __ARM_FEATURE_SME_B16B16 != 0)
+  //   _za16[_f16] (only if __ARM_FEATURE_SME_F16F16 != 0)
   //   _za32[_f32]
   //   _za64[_f64] (only if __ARM_FEATURE_SME_F64F64 != 0)
   void svmla_lane_za32[_f32]_vg1x4(uint32_t slice, svfloat32x4_t zn,
@@ -10888,6 +10977,8 @@ Multi-vector floating-point fused multiply-add/subtract
 
 
   // Variants are available for:
+  //   _za16[_bf16] (only if __ARM_FEATURE_SME_B16B16 != 0)
+  //   _za16[_f16] (only if __ARM_FEATURE_SME_F16F16 != 0)
   //   _za32[_f32]
   //   _za64[_f64] (only if __ARM_FEATURE_SME_F64F64 != 0)
   void svmls_lane_za32[_f32]_vg1x2(uint32_t slice, svfloat32x2_t zn,
@@ -10896,6 +10987,8 @@ Multi-vector floating-point fused multiply-add/subtract
 
 
   // Variants are available for:
+  //   _za16[_bf16] (only if __ARM_FEATURE_SME_B16B16 != 0)
+  //   _za16[_f16] (only if __ARM_FEATURE_SME_F16F16 != 0)
   //   _za32[_f32]
   //   _za64[_f64] (only if __ARM_FEATURE_SME_F64F64 != 0)
   void svmls_lane_za32[_f32]_vg1x4(uint32_t slice, svfloat32x4_t zn,
@@ -11287,114 +11380,214 @@ Multi-vector multiply-subtract long long (widening)
     __arm_streaming __arm_inout("za");
   ```
 
-#### SMAX, SMIN, UMAX, UMIN, FMAX, FMIN (single)
+#### SMAX, SMIN, UMAX, UMIN, BFMAX, BFMIN, FMAX, FMIN (single)
 
 Multi-vector min/max
 
 ``` c
-  // Variants are also available for _single_s8_x2, _single_u8_x2,
-  // _single_s16_x2, _single_u16_x2, _single_s32_x2, _single_u32_x2,
-  // _single_f32_x2, _single_s64_x2, _single_u64_x2 and _single_f64_x2
+  // Variants are also available for:
+  //   _single_s8_x2
+  //   _single_u8_x2,
+  //   _single_bf16_x2 (only if __ARM_FEATURE_SVE_B16B16 != 0)
+  //   _single_s16_x2
+  //   _single_u16_x2
+  //   _single_s32_x2
+  //   _single_u32_x2,
+  //   _single_f32_x2
+  //   _single_s64_x2
+  //   _single_u64_x2
+  //   _single_f64_x2
   svfloat16x2_t svmax[_single_f16_x2](svfloat16x2_t zdn, svfloat16_t zm)
     __arm_streaming;
 
 
-  // Variants are also available for _single_s8_x4, _single_u8_x4,
-  // _single_s16_x4, _single_u16_x4, _single_s32_x4, _single_u32_x4,
-  // _single_f32_x4, _single_s64_x4, _single_u64_x4 and _single_f64_x4
+  // Variants are also available for:
+  //   _single_s8_x4
+  //   _single_u8_x4,
+  //   _single_bf16_x4 (only if __ARM_FEATURE_SVE_B16B16 != 0)
+  //   _single_s16_x4
+  //   _single_u16_x4
+  //   _single_s32_x4
+  //   _single_u32_x4,
+  //   _single_f32_x4
+  //   _single_s64_x4
+  //   _single_u64_x4
+  //   _single_f64_x4
   svfloat16x4_t svmax[_single_f16_x4](svfloat16x4_t zdn, svfloat16_t zm)
     __arm_streaming;
 
 
-  // Variants are also available for _single_s8_x2, _single_u8_x2,
-  // _single_s16_x2, _single_u16_x2, _single_s32_x2, _single_u32_x2,
-  // _single_f32_x2, _single_s64_x2, _single_u64_x2 and _single_f64_x2
+  // Variants are also available for:
+  //   _single_s8_x2
+  //   _single_u8_x2,
+  //   _single_bf16_x2 (only if __ARM_FEATURE_SVE_B16B16 != 0)
+  //   _single_s16_x2
+  //   _single_u16_x2
+  //   _single_s32_x2
+  //   _single_u32_x2,
+  //   _single_f32_x2
+  //   _single_s64_x2
+  //   _single_u64_x2
+  //   _single_f64_x2
   svfloat16x2_t svmin[_single_f16_x2](svfloat16x2_t zdn, svfloat16_t zm)
     __arm_streaming;
 
 
-  // Variants are also available for _single_s8_x4, _single_u8_x4,
-  // _single_s16_x4, _single_u16_x4, _single_s32_x4, _single_u32_x4,
-  // _single_f32_x4, _single_s64_x4, _single_u64_x4 and _single_f64_x4
+  // Variants are also available for:
+  //   _single_s8_x4
+  //   _single_u8_x4,
+  //   _single_bf16_x4 (only if __ARM_FEATURE_SVE_B16B16 != 0)
+  //   _single_s16_x4
+  //   _single_u16_x4
+  //   _single_s32_x4
+  //   _single_u32_x4,
+  //   _single_f32_x4
+  //   _single_s64_x4
+  //   _single_u64_x4
+  //   _single_f64_x4
   svfloat16x4_t svmin[_single_f16_x4](svfloat16x4_t zdn, svfloat16_t zm)
     __arm_streaming;
   ```
 
-#### SMAX, SMIN, UMAX, UMIN, FMAX, FMIN (multi)
+#### SMAX, SMIN, UMAX, UMIN, BFMAX, BFMIN, FMAX, FMIN (multi)
 
 Multi-vector min/max
 
 ``` c
-  // Variants are also available for _s8_x2, _u8_x2, _s16_x2, _u16_x2,
-  // _s32_x2, _u32_x2, _f32_x2, _s64_x2, _u64_x2 and _f64_x2
+  // Variants are also available for:
+  //   _s8_x2
+  //   _u8_x2
+  //   _bf16_x2 (only if __ARM_FEATURE_SVE_B16B16 != 0)
+  //   _s16_x2
+  //   _u16_x2,
+  //   _s32_x2
+  //   _u32_x2
+  //   _f32_x2
+  //   _s64_x2
+  //   _u64_x2
+  //   _f64_x2
   svfloat16x2_t svmax[_f16_x2](svfloat16x2_t zdn, svfloat16x2_t zm)
     __arm_streaming;
 
 
-  // Variants are also available for _s8_x4, _u8_x4, _s16_x4, _u16_x4,
-  // _s32_x4, _u32_x4, _f32_x4, _s64_x4, _u64_x4 and _f64_x4
+  // Variants are also available for:
+  //   _s8_x4
+  //   _u8_x4
+  //   _bf16_x4 (only if __ARM_FEATURE_SVE_B16B16 != 0)
+  //   _s16_x4
+  //   _u16_x4,
+  //   _s32_x4
+  //   _u32_x4
+  //   _f32_x4
+  //   _s64_x4
+  //   _u64_x4
+  //   _f64_x4
   svfloat16x4_t svmax[_f16_x4](svfloat16x4_t zdn, svfloat16x4_t zm)
     __arm_streaming;
 
 
-  // Variants are also available for _s8_x2, _u8_x2, _s16_x2, _u16_x2,
-  // _s32_x2, _u32_x2, _f32_x2, _s64_x2, _u64_x2 and _f64_x2
+  // Variants are also available for:
+  //   _s8_x2
+  //   _u8_x2
+  //   _bf16_x2 (only if __ARM_FEATURE_SVE_B16B16 != 0)
+  //   _s16_x2
+  //   _u16_x2,
+  //   _s32_x2
+  //   _u32_x2
+  //   _f32_x2
+  //   _s64_x2
+  //   _u64_x2
+  //   _f64_x2
   svfloat16x2_t svmin[_f16_x2](svfloat16x2_t zdn, svfloat16x2_t zm)
     __arm_streaming;
 
 
-  // Variants are also available for _s8_x4, _u8_x4, _s16_x4, _u16_x4,
-  // _s32_x4, _u32_x4, _f32_x4, _s64_x4,_u64_x4 and _f64_x4
+  // Variants are also available for:
+  //   _s8_x4
+  //   _u8_x4
+  //   _bf16_x4 (only if __ARM_FEATURE_SVE_B16B16 != 0)
+  //   _s16_x4
+  //   _u16_x4,
+  //   _s32_x4
+  //   _u32_x4
+  //   _f32_x4
+  //   _s64_x4
+  //   _u64_x4
+  //   _f64_x4
   svfloat16x4_t svmin[_f16_x4](svfloat16x4_t zdn, svfloat16x4_t zm)
     __arm_streaming;
   ```
 
-#### FMAXNM, FMINNM (single)
+#### BFMAXNM, BFMINNM, FMAXNM, FMINNM (single)
 
 Multi-vector floating point min/max number
 
 ``` c
-  // Variants are also available for _single_f32_x2 and _single_f64_x2
+  // Variants are also available for:
+  //   _single_bf16_x2 (only if __ARM_FEATURE_SVE_B16B16 != 0)
+  //   _single_f32_x2
+  //   _single_f64_x2
   svfloat16x2_t svmaxnm[_single_f16_x2](svfloat16x2_t zdn, svfloat16_t zm)
     __arm_streaming;
 
 
-  // Variants are also available for _single_f32_x4 and _single_f64_x4
+  // Variants are also available for:
+  //   _single_bf16_x4 (only if __ARM_FEATURE_SVE_B16B16 != 0)
+  //   _single_f32_x4
+  //   _single_f64_x4
   svfloat16x4_t svmaxnm[_single_f16_x4](svfloat16x4_t zdn, svfloat16_t zm)
     __arm_streaming;
 
 
-  // Variants are also available for _single_f32_x2 and _single_f64_x2
+  // Variants are also available for:
+  //   _single_bf16_x2 (only if __ARM_FEATURE_SVE_B16B16 != 0)
+  //   _single_f32_x2
+  //   _single_f64_x2
   svfloat16x2_t svminnm[_single_f16_x2](svfloat16x2_t zdn, svfloat16_t zm)
     __arm_streaming;
 
 
-  // Variants are also available for _single_f32_x4 and _single_f64_x4
+  // Variants are also available for:
+  //   _single_bf16_x4 (only if __ARM_FEATURE_SVE_B16B16 != 0)
+  //   _single_f32_x4
+  //   _single_f64_x4
   svfloat16x4_t svminnm[_single_f16_x4](svfloat16x4_t zdn, svfloat16_t zm)
     __arm_streaming;
   ```
 
-#### FMAXNM, FMINNM (multi)
+#### BFMAXNM, BFMINNM, FMAXNM, FMINNM (multi)
 
 Multi-vector floating point min/max number
 
 ``` c
-  // Variants are also available for _f32_x2 and _f64_x2
+  // Variants are also available for:
+  //   _bf16_x2 (only if __ARM_FEATURE_SVE_B16B16 != 0)
+  //   _f32_x2
+  //   _f64_x2
   svfloat16x2_t svmaxnm[_f16_x2](svfloat16x2_t zdn, svfloat16x2_t zm)
     __arm_streaming;
 
 
-  // Variants are also available for _f32_x4 and _f64_x4
+  // Variants are also available for:
+  //   _bf16_x4 (only if __ARM_FEATURE_SVE_B16B16 != 0)
+  //   _f32_x4
+  //   _f64_x4
   svfloat16x4_t svmaxnm[_f16_x4](svfloat16x4_t zdn, svfloat16x4_t zm)
     __arm_streaming;
 
 
-  // Variants are also available for _f32_x2 and _f64_x2
+  // Variants are also available for:
+  //   _bf16_x2 (only if __ARM_FEATURE_SVE_B16B16 != 0)
+  //   _f32_x2
+  //   _f64_x2
   svfloat16x2_t svminnm[_f16_x2](svfloat16x2_t zdn, svfloat16x2_t zm)
     __arm_streaming;
 
 
-  // Variants are also available for _f32_x4 and _f64_x4
+  // Variants are also available for:
+  //   _bf16_x4 (only if __ARM_FEATURE_SVE_B16B16 != 0)
+  //   _f32_x4
+  //   _f64_x4
   svfloat16x4_t svminnm[_f16_x4](svfloat16x4_t zdn, svfloat16x4_t zm)
     __arm_streaming;
   ```
@@ -11584,22 +11777,40 @@ Move multi-vectors to/from ZA
     __arm_streaming __arm_inout("za");
   ```
 
-#### UCLAMP, SCLAMP, FCLAMP
+#### UCLAMP, SCLAMP, BFCLAMP, FCLAMP
 
 Multi-vector clamp to minimum/maximum vector
 
 ``` c
-  // Variants are also available for _single_s8_x2, _single_u8_x2,
-  // _single_s16_x2, _single_u16_x2, _single_s32_x2, _single_u32_x2,
-  // _single_f32_x2, _single_s64_x2, _single_u64_x2 and _single_f64_x2
+  // Variants are also available for:
+  //   _single_s8_x2
+  //   _single_u8_x2,
+  //   _single_bf16_x2 (only if __ARM_FEATURE_SVE_B16B16 != 0)
+  //   _single_s16_x2
+  //   _single_u16_x2
+  //   _single_s32_x2
+  //   _single_u32_x2,
+  //   _single_f32_x2
+  //   _single_s64_x2
+  //   _single_u64_x2
+  //   _single_f64_x2
   svfloat16x2_t svclamp[_single_f16_x2](svfloat16x2_t zd, svfloat16_t zn,
                                         svfloat16_t zm)
     __arm_streaming;
 
 
-  // Variants are also available for _single_s8_x4, _single_u8_x4,
-  // _single_s16_x4, _single_u16_x4, _single_s32_x4, _single_u32_x4,
-  // _single_f32_x4, _single_s64_x4, _single_u64_x4 and _single_f64_x4
+  // Variants are also available for:
+  //   _single_s8_x4
+  //   _single_u8_x4,
+  //   _single_bf16_x4 (only if __ARM_FEATURE_SVE_B16B16 != 0)
+  //   _single_s16_x4
+  //   _single_u16_x4
+  //   _single_s32_x4
+  //   _single_u32_x4,
+  //   _single_f32_x4
+  //   _single_s64_x4
+  //   _single_u64_x4
+  //   _single_f64_x4
   svfloat16x4_t svclamp[_single_f16_x4](svfloat16x4_t zd, svfloat16_t zn,
                                         svfloat16_t zm)
     __arm_streaming;
@@ -11821,6 +12032,143 @@ element types.
   svint8x4_t svuzpq[_s8_x4](svint8x4_t zn) __arm_streaming;
   ```
 
+### SME2.1 instruction intrinsics
+
+The specification for SME2.1 is in
+[**Alpha** state](#current-status-and-anticipated-changes) and may change or be
+extended in the future.
+
+The intrinsics in this section are defined by the header file
+[`<arm_sme.h>`](#arm_sme.h) when `__ARM_FEATURE_SME2p1` is defined.
+
+#### MOVAZ (tile to vector, single)
+
+Move and zero ZA tile slice to vector register.
+
+```
+  // And similarly for u8.
+  svint8_t svreadz_hor_za8_s8(uint64_t tile, uint32_t slice)
+    __arm_streaming __arm_inout("za");
+
+  // And similarly for u16, bf16 and f16.
+  svint16_t svreadz_hor_za16_s16(uint64_t tile, uint32_t slice)
+    __arm_streaming __arm_inout("za");
+
+  // And similarly for u32 and f32.
+  svint32_t svreadz_hor_za32_s32(uint64_t tile, uint32_t slice)
+    __arm_streaming __arm_inout("za");
+
+  // And similarly for u64 and f64.
+  svint64_t svreadz_hor_za64_s64(uint64_t tile, uint32_t slice)
+    __arm_streaming __arm_inout("za");
+
+  // And similarly for s16, s32, s64, u8, u16, u32, u64, bf16, f16, f32, f64
+  svint8_t svreadz_hor_za128_s8(uint64_t tile, uint32_t slice)
+    __arm_streaming __arm_inout("za");
+
+  // And similarly for u8.
+  svint8_t svreadz_ver_za8_s8(uint64_t tile, uint32_t slice)
+    __arm_streaming __arm_inout("za");
+
+  // And similarly for u16, bf16 and f16.
+  svint16_t svreadz_ver_za16_s16(uint64_t tile, uint32_t slice)
+    __arm_streaming __arm_inout("za");
+
+  // And similarly for u32 and f32.
+  svint32_t svreadz_ver_za32_s32(uint64_t tile, uint32_t slice)
+    __arm_streaming __arm_inout("za");
+
+  // And similarly for u64 and f64.
+  svint64_t svreadz_ver_za64_s64(uint64_t tile, uint32_t slice)
+    __arm_streaming __arm_inout("za");
+
+  // And similarly for s16, s32, s64, u8, u16, u32, u64, bf16, f16, f32, f64
+  svint8_t svreadz_ver_za128_s8(uint64_t tile, uint32_t slice)
+    __arm_streaming __arm_inout("za");
+```
+
+#### MOVAZ (tile to vector, multiple)
+
+Move and zero multiple ZA tile slices to vector registers
+
+``` c
+  // Variants are also available for _za8_u8, _za16_s16, _za16_u16,
+  // _za16_f16, _za16_bf16, _za32_s32, _za32_u32, _za32_f32,
+  // _za64_s64, _za64_u64 and _za64_f64
+  svint8x2_t svreadz_hor_za8_s8_vg2(uint64_t tile, uint32_t slice)
+    __arm_streaming __arm_inout("za");
+
+
+  // Variants are also available for _za8_u8, _za16_s16, _za16_u16,
+  // _za16_f16, _za16_bf16, _za32_s32, _za32_u32, _za32_f32,
+  // _za64_s64, _za64_u64 and _za64_f64
+  svint8x4_t svreadz_hor_za8_s8_vg4(uint64_t tile, uint32_t slice)
+    __arm_streaming __arm_inout("za");
+
+
+  // Variants are also available for _za8_u8, _za16_s16, _za16_u16,
+  // _za16_f16, _za16_bf16, _za32_s32, _za32_u32, _za32_f32,
+  // _za64_s64, _za64_u64 and _za64_f64
+  svint8x2_t svreadz_ver_za8_s8_vg2(uint64_t tile, uint32_t slice)
+    __arm_streaming __arm_inout("za");
+
+
+  // Variants are also available for _za8_u8, _za16_s16, _za16_u16,
+  // _za16_f16, _za16_bf16, _za32_s32, _za32_u32, _za32_f32,
+  // _za64_s64, _za64_u64 and _za64_f64
+  svint8x4_t svreadz_ver_za8_s8_vg4(uint64_t tile, uint32_t slice)
+    __arm_streaming __arm_inout("za");
+```
+
+#### MOVAZ (array to vector)
+
+Move and zero multiple ZA single-vector groups to vector registers
+
+```
+  // Variants are also available for _za8_u8, _za16_s16, _za16_u16,
+  // _za16_f16, _za16_bf16, _za32_s32, _za32_u32, _za32_f32,
+  // _za64_s64, _za64_u64 and _za64_f64
+  svint8x2_t svreadz_za8_s8_vg1x2(uint32_t slice)
+    __arm_streaming __arm_inout("za");
+
+
+  // Variants are also available for _za8_u8, _za16_s16, _za16_u16,
+  // _za16_f16, _za16_bf16, _za32_s32, _za32_u32, _za32_f32,
+  // _za64_s64, _za64_u64 and _za64_f64
+  svint8x4_t svreadz_za8_s8_vg1x4(uint32_t slice)
+    __arm_streaming __arm_inout("za");
+```
+
+#### ZERO (vector groups)
+
+Zero ZA vector groups
+
+```
+  void svzero_za64_vg1x2(uint32_t slice)
+    __arm_streaming __arm_inout("za");
+
+  void svzero_za64_vg1x4(uint32_t slice)
+    __arm_streaming __arm_inout("za");
+
+  void svzero_za64_vg2x1(uint32_t slice)
+    __arm_streaming __arm_inout("za");
+
+  void svzero_za64_vg2x2(uint32_t slice)
+    __arm_streaming __arm_inout("za");
+
+  void svzero_za64_vg2x4(uint32_t slice)
+    __arm_streaming __arm_inout("za");
+
+  void svzero_za64_vg4x1(uint32_t slice)
+    __arm_streaming __arm_inout("za");
+
+  void svzero_za64_vg4x2(uint32_t slice)
+    __arm_streaming __arm_inout("za");
+
+  void svzero_za64_vg4x4(uint32_t slice)
+    __arm_streaming __arm_inout("za");
+```
+
 ### Streaming-compatible versions of standard routines
 
 ACLE provides the following streaming-compatible functions,

From 6f11d88deec56fd13d86d39ff4e187022928a846 Mon Sep 17 00:00:00 2001
From: Victor Campos <victor.campos@arm.com>
Date: Tue, 3 Sep 2024 10:17:21 +0100
Subject: [PATCH 05/36] Fix incorrect naming of __ARM_FEATURE_SVE2p1 (#338)

In one instance, it was incorrectly named `__ARM_FEATURE_SVE2.1`.
---
 main/acle.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/main/acle.md b/main/acle.md
index 96957a27..cca7631c 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -12197,7 +12197,7 @@ extended in the future.
 
 The functions in this section are defined by either the header file
  [`<arm_sve.h>`](#arm_sve.h) or [`<arm_sme.h>`](#arm_sme.h)
-when `__ARM_FEATURE_SVE2.1` or `__ARM_FEATURE_SME2` is defined, respectively.
+when `__ARM_FEATURE_SVE2p1` or `__ARM_FEATURE_SME2` is defined, respectively.
 
 These intrinsics can only be called from non-streaming code if
 `__ARM_FEATURE_SVE2p1` is defined. They can only be called from streaming code

From ddfc04800edad91bfcefa37200618da21ed63e12 Mon Sep 17 00:00:00 2001
From: Lukacma <Marian.Lukac@arm.com>
Date: Tue, 3 Sep 2024 10:17:51 +0100
Subject: [PATCH 06/36] Fix formatting error from #321 (#341)

---
 main/acle.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/main/acle.md b/main/acle.md
index cca7631c..6951d9cc 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -1087,7 +1087,7 @@ context in which the preprocessor macros are evaluated. For example:
     void foo() {
     #ifdef __ARM_FEATURE_SVE
       // The user should make no assumptions that the target attribute
-     // has enabled the __ARM_FEATURE_SVE macro.
+      // has enabled the __ARM_FEATURE_SVE macro.
     #endif
 }
 ```

From e938350b3034512912eb2655402324750cb8c1ef Mon Sep 17 00:00:00 2001
From: Momchil Velikov <momchil.velikov@arm.com>
Date: Tue, 3 Sep 2024 15:37:41 +0100
Subject: [PATCH 07/36] Intrinsics for absolute minimum and maximum, and table
 lookup (#324)

* Intrinsics for absolute minimum and maximum, and table lookup
---
 main/acle.md                                  | 148 +++++++++++++++++-
 neon_intrinsics/advsimd.md                    |  77 ++++++++-
 neon_intrinsics/advsimd.template.md           |   4 +-
 tools/intrinsic_db/advsimd.csv                |  81 +++++++++-
 tools/intrinsic_db/advsimd_classification.csv |  62 +++++++-
 5 files changed, 363 insertions(+), 9 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index 6951d9cc..692baa3d 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -405,6 +405,11 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
 * Added [**Alpha**](#current-status-and-anticipated-changes)
   support for SME2.1 (FEAT_SME2p1).
 
+* Added specifications for floating-point absolute minimum
+  and maximum intrinsics (FEAT_FAMINMAX).
+
+* Added specifications for table lookup intrinsics (FEAT_LUT, FEAT_SME_LUTv2).
+
 ### References
 
 This document refers to the following documents.
@@ -2124,6 +2129,22 @@ support for the SVE2 SM4 (FEAT_SVE_SM4) instructions and if the associated
 ACLE intrinsics are available. This implies that `__ARM_FEATURE_SM4` and
 `__ARM_FEATURE_SVE2` are both nonzero.
 
+### Floating-point absolute minimum and maximum extension
+
+`__ARM_FEATURE_FAMINMAX` is defined to 1 if there is hardware support for
+floating-point absolute minimum and maximum instructions (FEAT_FAMINMAX)
+and if the associated ACLE intrinsics are available.
+
+### Lookup table extensions
+
+`__ARM_FEATURE_LUT` is defined to 1 if there is hardware support for
+lookup table instructions with 2-bit and 4-bit indices (FEAT_LUT)
+and if the associated ACLE intrinsics are available.
+
+`__ARM_FEATURE_SME_LUTv2` is defined to 1 if there is hardware support for
+lookup table instructions with 4-bit indices and 8-bit elements (FEAT_SME_LUTv2)
+and if the associated ACLE intrinsics are available.
+
 ### Other floating-point and vector extensions
 
 #### Fused multiply-accumulate (FMA)
@@ -2411,12 +2432,14 @@ be found in [[BA]](#BA).
 | [`__ARM_FEATURE_DIRECTED_ROUNDING`](#directed-rounding)                                                                                                 | Directed Rounding                                                                                  | 1           |
 | [`__ARM_FEATURE_DOTPROD`](#availability-of-dot-product-intrinsics)                                                                                      | Dot product extension (ARM v8.2-A)                                                                 | 1           |
 | [`__ARM_FEATURE_DSP`](#dsp-instructions)                                                                                                                | DSP instructions (Arm v5E) (32-bit-only)                                                           | 1           |
+| [`__ARM_FEATURE_FAMINMAX`](#floating-point-absolute-minimum-and-maximum-extension)                                                                      | Floating-point absolute minimum and maximum extension                                              | 1           |
 | [`__ARM_FEATURE_FMA`](#fused-multiply-accumulate-fma)                                                                                                   | Floating-point fused multiply-accumulate                                                           | 1           |
 | [`__ARM_FEATURE_FP16_FML`](#fp16-fml-extension)                                                                                                         | FP16 FML extension (Arm v8.4-A, optional Armv8.2-A, Armv8.3-A)                                     | 1           |
 | [`__ARM_FEATURE_FRINT`](#availability-of-armv8.5-a-floating-point-rounding-intrinsics)                                                                  | Floating-point rounding extension (Arm v8.5-A)                                                     | 1           |
 | [`__ARM_FEATURE_IDIV`](#hardware-integer-divide)                                                                                                        | Hardware Integer Divide                                                                            | 1           |
 | [`__ARM_FEATURE_JCVT`](#javascript-floating-point-conversion)                                                                                           | Javascript conversion (ARMv8.3-A)                                                                  | 1           |
 | [`__ARM_FEATURE_LDREX`](#ldrexstrex) *(Deprecated)*                                                                                                     | Load/store exclusive instructions                                                                  | 0x0F        |
+| [`__ARM_FEATURE_LUT`](#lookup-table-extensions)                                                                                                         | Lookup table extensions (FEAT_LUT)                                                                 | 1           |
 | [`__ARM_FEATURE_MATMUL_INT8`](#availability-of-armv8.6-a-integer-matrix-multiply-intrinsics)                                                            | Integer Matrix Multiply extension (Armv8.6-A, optional Armv8.2-A, Armv8.3-A, Armv8.4-A, Armv8.5-A) | 1           |
 | [`__ARM_FEATURE_MEMORY_TAGGING`](#memory-tagging)                                                                                                       | Memory Tagging (Armv8.5-A)                                                                         | 1           |
 | [`__ARM_FEATURE_MOPS`](#memcpy-family-of-memory-operations-standarization-instructions---mops)                                                          | `memcpy`, `memset`, and `memmove` family of operations standardization instructions               | 1           |
@@ -2443,6 +2466,7 @@ be found in [[BA]](#BA).
 | [`__ARM_FEATURE_SME_F64F64`](#double-precision-floating-point-outer-product-intrinsics)                                                                 | Double precision floating-point outer product intrinsics (FEAT_SME_F64F64)                         | 1           |
 | [`__ARM_FEATURE_SME_I16I64`](#16-bit-to-64-bit-integer-widening-outer-product-intrinsics)                                                               | 16-bit to 64-bit integer widening outer product intrinsics (FEAT_SME_I16I64)                       | 1           |
 | [`__ARM_FEATURE_SME_LOCALLY_STREAMING`](#scalable-matrix-extension-sme)                                                                                 | Support for the `arm_locally_streaming` attribute                                                  | 1           |
+| [`__ARM_FEATURE_SME_LUTv2`](#lookup-table-extensions)                                                                                                   | Lookup table extensions (FEAT_SME_LUTv2)                                                           | 1           |
 | [`__ARM_FEATURE_SVE`](#scalable-vector-extension-sve)                                                                                                   | Scalable Vector Extension (FEAT_SVE)                                                               | 1           |
 | [`__ARM_FEATURE_SVE_B16B16`](#non-widening-brain-16-bit-floating-point-support)                                                                         | Non-widening brain 16-bit floating-point intrinsics (FEAT_SVE_B16B16)                              | 1           |
 | [`__ARM_FEATURE_SVE_BF16`](#brain-16-bit-floating-point-support)                                                                                        | SVE support for the 16-bit brain floating-point extension (FEAT_BF16)                              | 1           |
@@ -9125,6 +9149,73 @@ Interleave elements from halves of each pair of quadword vector segments.
    svuint8_t svzipq2[_u8](svuint8_t zn, svuint8_t zm);
    ```
 
+### SVE2 maximum and minimum absolute value
+
+The intrinsics in this section are defined by the header file
+[`<arm_sve.h>`](#arm_sve.h) when either `__ARM_FEATURE_SVE2` or
+`__ARM_FEATURE_SME2` is defined to 1, and `__ARM_FEATURE_FAMINMAX`
+is defined to 1.
+
+#### FAMAX
+
+Floating-point absolute maximum (predicated).
+``` c
+  // Variants are also available for: _f32 and _f64
+  svfloat16_t svamax[_f16]_m(svbool_t pg, svfloat16_t zn, svfloat16_t zm);
+  svfloat16_t svamax[_f16]_x(svbool_t pg, svfloat16_t zn, svfloat16_t zm);
+  svfloat16_t svamax[_f16]_z(svbool_t pg, svfloat16_t zn, svfloat16_t zm);
+
+  // Variants are also available for: _f32 and _f64
+  svfloat16_t svamax[_n_f16]_m(svbool_t pg, svfloat16_t zn, float16_t zm);
+  svfloat16_t svamax[_n_f16]_x(svbool_t pg, svfloat16_t zn, float16_t zm);
+  svfloat16_t svamax[_n_f16]_z(svbool_t pg, svfloat16_t zn, float16_t zm);
+```
+
+#### FAMIN
+
+Floating-point absolute minimum (predicated).
+``` c
+  // Variants are also available for: _f32 and _f64
+  svfloat16_t svamin[_f16]_m(svbool_t pg, svfloat16_t zn, svfloat16_t zm);
+  svfloat16_t svamin[_f16]_x(svbool_t pg, svfloat16_t zn, svfloat16_t zm);
+  svfloat16_t svamin[_f16]_z(svbool_t pg, svfloat16_t zn, svfloat16_t zm);
+
+  // Variants are also available for: _f32 and _f64
+  svfloat16_t svamin[_n_f16]_m(svbool_t pg, svfloat16_t zn, float16_t zm);
+  svfloat16_t svamin[_n_f16]_x(svbool_t pg, svfloat16_t zn, float16_t zm);
+  svfloat16_t svamin[_n_f16]_z(svbool_t pg, svfloat16_t zn, float16_t zm);
+```
+
+### SVE2 lookup table
+
+The intrinsics in this section are defined by the header file
+[`<arm_sve.h>`](#arm_sve.h) when either `__ARM_FEATURE_SVE2` or
+`__ARM_FEATURE_SME2` is defined to 1, and `__ARM_FEATURE_LUT`
+is defined to 1.
+
+#### LUTI2
+
+Lookup table read with 2-bit indices.
+```c
+  // Variant is  also available for: _u8
+  svint8_t svluti2_lane[_s8](svint8_t table, svuint8_t indices, uint64_t imm_idx);
+
+  // Variant are also available for: _u16, _f16 and _bf16
+  svint16_t svluti2_lane[_s16]( svint16_t table, svuint8_t indices, uint64_t imm_idx);
+```
+
+#### LUTI4
+
+Lookup table read with 4-bit indices.
+```c
+  // Variant is also available for: _u8
+  svint8_t svluti4_lane[_s8](svint8_t table, svuint8_t indices, uint64_t imm_idx);
+
+  // Variant are also available for: _u16, _f16, _bf16
+  svint16_t svluti4_lane[_s16](svint16_t table, svuint8_t indices, uint64_t imm_idx);
+  svint16_t svluti4_lane[_s16_x2](svint16x2_t table, svuint8_t indices, uint64_t imm_idx);
+```
+
 # SME language extensions and intrinsics
 
 The specification for SME is in
@@ -12714,7 +12805,62 @@ While (resulting in predicate tuple)
   // _b64[_s64]_x2, _b8[_u64]_x2, _b16[_u64]_x2, _b32[_u64]_x2 and
   // _b64[_u64]_x2
   svboolx2_t svwhilelt_b8[_s64]_x2(int64_t rn, int64_t rm);
-  ```
+```
+
+
+### SME2 maximum and minimum absolute value
+
+The intrinsics in this section are defined by the header file
+[`<arm_sme.h>`](#arm_sme.h) when `__ARM_FEATURE_SME2` is defined to 1
+and `__ARM_FEATURE_FAMINMAX` is defined to 1.
+
+#### FAMAX
+
+Absolute maximum.
+``` c
+  // Variants are also available for:
+  //  [_f32_x2], [_f64_x2],
+  //  [_f16_x4], [_f32_x4] and [_f64_x4]
+  svfloat16x2_t svamax[_f16_x2](svfloat16x2 zd, svfloat16x2_t zm) __arm_streaming;
+```
+
+#### FAMIN
+
+Absolute minimum.
+``` c
+  // Variants are also available for:
+  //  [_f32_x2], [_f64_x2],
+  //  [_f16_x4], [_f32_x4] and [_f64_x4]
+  svfloat16x2_t svamin[_f16_x2](svfloat16x2 zd, svfloat16x2_t zm) __arm_streaming;
+```
+
+### SME2 lookup table
+
+The intrinsics in this section are defined by the header file
+[`<arm_sme.h>`](#arm_sme.h) when `__ARM_FEATURE_SME_LUTv2` is defined to 1.
+
+#### MOVT
+
+Move vector register to ZT0.
+``` c
+  // Variants are also available for:
+  // [_s8], [_u16], [_s16], [_u32], [_s32], [_u64], [_s64]
+  // [_bf16], [_f16], [_f32], [_f64]
+  void svwrite_zt[_u8](uint64_t zt0, svuint8_t zt) __arm_streaming __arm_out("zt0");
+
+  // Variants are also available for:
+  // [_s8], [_u16], [_s16], [_u32], [_s32], [_u64], [_s64]
+  // [_bf16], [_f16], [_f32], [_f64]
+  void svwrite_lane_zt[_u8](uint64_t zt0, svuint8_t zt, uint64_t idx) __arm_streaming __arm_inout("zt0");
+```
+
+#### LUTI4
+
+Lookup table read with 4-bit indexes and 8-bit elements.
+``` c
+  // Variants are also available for: _u8
+  svint8x4_t svluti4_zt_s8_x4(uint64_t zt0, svuint8x2_t zn) __arm_streaming __arm_in("zt0");
+```
 
 # M-profile Vector Extension (MVE) intrinsics
 
diff --git a/neon_intrinsics/advsimd.md b/neon_intrinsics/advsimd.md
index ffdd5952..ee89c92b 100644
--- a/neon_intrinsics/advsimd.md
+++ b/neon_intrinsics/advsimd.md
@@ -12,7 +12,7 @@ toc: true
 ---
 
 <!--
-SPDX-FileCopyrightText: Copyright 2014-2023 Arm Limited and/or its affiliates <open-source-office@arm.com>
+SPDX-FileCopyrightText: Copyright 2014-2024 Arm Limited and/or its affiliates <open-source-office@arm.com>
 SPDX-FileCopyrightText: Copyright 2021 Matt P. Dziubinski <matdzb@gmail.com>
 CC-BY-SA-4.0 AND Apache-Patent-License
 See LICENSE.md file for details
@@ -107,7 +107,7 @@ for more information about Arm’s trademarks.
 
 ## Copyright
 
-* Copyright 2014-2023 Arm Limited and/or its affiliates <open-source-office@arm.com>
+* Copyright 2014-2024 Arm Limited and/or its affiliates <open-source-office@arm.com>
 * Copyright 2021 Matt P. Dziubinski <matdzb@gmail.com>
 
 ## Document history
@@ -887,6 +887,21 @@ The intrinsics in this section are guarded by the macro ``__ARM_NEON``.
 | <code>int32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqabss_s32" target="_blank">vqabss_s32</a>(int32_t a)</code>     | `a -> Sn`              | `SQABS Sd,Sn`         | `Sd -> result`     | `A64`                     |
 | <code>int64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqabsd_s64" target="_blank">vqabsd_s64</a>(int64_t a)</code>     | `a -> Dn`              | `SQABS Dd,Dn`         | `Dd -> result`     | `A64`                     |
 
+##### Absolute minimum and maximum
+
+| Intrinsic                                                                                                                                                                                                                                 | Argument preparation           | AArch64 Instruction         | Result            | Supported architectures   |
+|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------|-----------------------------|-------------------|---------------------------|
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamax_f16" target="_blank">vamax_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vm)</code>   | `vn -> Vn.4H`<br>`vm -> Vm.4H` | `FAMAX Vd.4H, Vn.4H, Vm.4H` | `Vd.4H -> result` | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamaxq_f16" target="_blank">vamaxq_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vm)</code> | `vn -> Vn.8H`<br>`vm -> Vm.8H` | `FAMAX Vd.8H, Vn.8H, Vm.8H` | `Vd.8H -> result` | `A64`                     |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamax_f32" target="_blank">vamax_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vm)</code>   | `vn -> Vn.2S`<br>`vm -> Vm.2S` | `FAMAX Vd.2S, Vn.2S, Vm.2S` | `Vd.2S -> result` | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamaxq_f32" target="_blank">vamaxq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vm)</code> | `vn -> Vn.4S`<br>`vm -> Vm.4S` | `FAMAX Vd.4S, Vn.4S, Vm.4S` | `Vd.4S -> result` | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamaxq_f64" target="_blank">vamaxq_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vm)</code> | `vn -> Vn.2D`<br>`vm -> Vm.2D` | `FAMAX Vd.2D, Vn.2D, Vm.2D` | `Vd.2D -> result` | `A64`                     |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamin_f16" target="_blank">vamin_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vm)</code>   | `vn -> Vn.4H`<br>`vm -> Vm.4H` | `FAMIN Vd.4H, Vn.4H, Vm.4H` | `Vd.4H -> result` | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vaminq_f16" target="_blank">vaminq_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vm)</code> | `vn -> Vn.8H`<br>`vm -> Vm.8H` | `FAMIN Vd.8H, Vn.8H, Vm.8H` | `Vd.8H -> result` | `A64`                     |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vamin_f32" target="_blank">vamin_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vm)</code>   | `vn -> Vn.2S`<br>`vm -> Vm.2S` | `FAMIN Vd.2S, Vn.2S, Vm.2S` | `Vd.2S -> result` | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vaminq_f32" target="_blank">vaminq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vm)</code> | `vn -> Vn.4S`<br>`vm -> Vm.4S` | `FAMIN Vd.4S, Vn.4S, Vm.4S` | `Vd.4S -> result` | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vaminq_f64" target="_blank">vaminq_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vm)</code> | `vn -> Vn.2D`<br>`vm -> Vm.2D` | `FAMIN Vd.2D, Vn.2D, Vm.2D` | `Vd.2D -> result` | `A64`                     |
+
 #### Maximum
 
 | Intrinsic                                                                                                                                                                                                                             | Argument preparation           | AArch64 Instruction         | Result             | Supported architectures   |
@@ -4490,6 +4505,64 @@ The intrinsics in this section are guarded by the macro ``__ARM_NEON``.
 | <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx4_p8" target="_blank">vqtbx4_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>      | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`   | `TBX Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
 | <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx4q_p8" target="_blank">vqtbx4q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code> | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B` | `TBX Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
 
+#### Lookup table read with 2-bit indices
+
+| Intrinsic                                                                                                                                                                                                                                                                                               | Argument preparation                              | AArch64 Instruction                 | Result             | Supported architectures   |
+|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------|-------------------------------------|--------------------|---------------------------|
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_u8" target="_blank">vluti2_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>               | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_u8" target="_blank">vluti2_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_u8" target="_blank">vluti2q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_u8" target="_blank">vluti2q_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_s8" target="_blank">vluti2_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                 | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_s8" target="_blank">vluti2_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>              | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_s8" target="_blank">vluti2q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>              | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_s8" target="_blank">vluti2q_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>           | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_p8" target="_blank">vluti2_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>               | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_p8" target="_blank">vluti2_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_p8" target="_blank">vluti2q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_p8" target="_blank">vluti2q_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI2 Vd.16B, {Vn.16B}, Vm[index]` | `Vd.16B -> result` | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_u16" target="_blank">vluti2_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_u16" target="_blank">vluti2_laneq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_u16" target="_blank">vluti2q_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>          | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_u16" target="_blank">vluti2q_laneq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_s16" target="_blank">vluti2_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>              | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_s16" target="_blank">vluti2_laneq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>           | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_s16" target="_blank">vluti2q_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_s16" target="_blank">vluti2q_laneq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_f16" target="_blank">vluti2_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>          | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_f16" target="_blank">vluti2_laneq_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_f16" target="_blank">vluti2q_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>        | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_f16" target="_blank">vluti2q_laneq_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>     | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_bf16" target="_blank">vluti2_lane_bf16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>      | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_bf16" target="_blank">vluti2_laneq_bf16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>   | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_bf16" target="_blank">vluti2q_lane_bf16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>    | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_bf16" target="_blank">vluti2q_laneq_bf16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code> | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_lane_p16" target="_blank">vluti2_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2_laneq_p16" target="_blank">vluti2_laneq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_lane_p16" target="_blank">vluti2q_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>          | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 3`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti2q_laneq_p16" target="_blank">vluti2q_laneq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn -> Vn.8H`<br>`vm -> Vm`<br>`0 <= index <= 7`  | `LUTI2 Vd.8H, {Vn.8H}, Vm[index]`   | `Vd.8H -> result`  | `A64`                     |
+
+#### Lookup table read with 4-bit indices
+
+| Intrinsic                                                                                                                                                                                                                                                                                                       | Argument preparation                                                              | AArch64 Instruction                        | Result             | Supported architectures   |
+|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------|--------------------------------------------|--------------------|---------------------------|
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_u8" target="_blank">vluti4q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                    | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 0`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_u8" target="_blank">vluti4q_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                 | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_s8" target="_blank">vluti4q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                      | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 0`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_s8" target="_blank">vluti4q_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                   | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_p8" target="_blank">vluti4q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                    | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 0`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_p8" target="_blank">vluti4q_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>                 | `vn -> Vn.16B`<br>`vm -> Vm`<br>`0 <= index <= 1`                                 | `LUTI4 Vd.16B, {Vn.16B}, Vm[index]`        | `Vd.16B -> result` | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_u16_x2" target="_blank">vluti4q_lane_u16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>          | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_u16_x2" target="_blank">vluti4q_laneq_u16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_s16_x2" target="_blank">vluti4q_lane_s16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>            | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_s16_x2" target="_blank">vluti4q_laneq_s16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>         | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_f16_x2" target="_blank">vluti4q_lane_f16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>        | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_f16_x2" target="_blank">vluti4q_laneq_f16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>     | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_bf16_x2" target="_blank">vluti4q_lane_bf16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>    | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_bf16_x2" target="_blank">vluti4q_laneq_bf16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code> | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_lane_p16_x2" target="_blank">vluti4q_lane_p16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>          | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 1` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vluti4q_laneq_p16_x2" target="_blank">vluti4q_laneq_p16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int index)</code>       | `vn.val[0] -> Vn1.8H`<br>`vn.val[1] -> Vn2.8H`<br>`vm -> Vm`<br>`0 <= index <= 3` | `LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]` | `Vd.8H -> result`  | `A64`                     |
+
 ## Crypto
 
 ### Cryptography
diff --git a/neon_intrinsics/advsimd.template.md b/neon_intrinsics/advsimd.template.md
index d61c4f4e..c8eb2968 100644
--- a/neon_intrinsics/advsimd.template.md
+++ b/neon_intrinsics/advsimd.template.md
@@ -12,7 +12,7 @@ toc: true
 ---
 
 <!--
-SPDX-FileCopyrightText: Copyright 2014-2023 Arm Limited and/or its affiliates <open-source-office@arm.com>
+SPDX-FileCopyrightText: Copyright 2014-2024 Arm Limited and/or its affiliates <open-source-office@arm.com>
 SPDX-FileCopyrightText: Copyright 2021 Matt P. Dziubinski <matdzb@gmail.com>
 CC-BY-SA-4.0 AND Apache-Patent-License
 See LICENSE.md file for details
@@ -107,7 +107,7 @@ for more information about Arm’s trademarks.
 
 ## Copyright
 
-* Copyright 2014-2023 Arm Limited and/or its affiliates <open-source-office@arm.com>
+* Copyright 2014-2024 Arm Limited and/or its affiliates <open-source-office@arm.com>
 * Copyright 2021 Matt P. Dziubinski <matdzb@gmail.com>
 
 ## Document history
diff --git a/tools/intrinsic_db/advsimd.csv b/tools/intrinsic_db/advsimd.csv
index e507dc1f..a9ab4c1e 100644
--- a/tools/intrinsic_db/advsimd.csv
+++ b/tools/intrinsic_db/advsimd.csv
@@ -1,4 +1,4 @@
-<COMMENT>	SPDX-FileCopyrightText: Copyright 2014-2023 Arm Limited <open-source-office@arm.com>
+<COMMENT>	SPDX-FileCopyrightText: Copyright 2014-2024 Arm Limited <open-source-office@arm.com>
 <COMMENT>	SPDX-FileCopyrightText: Copyright 2021 Matt P. Dziubinski <matdzb@gmail.com>
 <COMMENT>	SPDX-License-Identifier: Apache-2.0
 <COMMENT>	
@@ -3730,6 +3730,83 @@ float64x2_t vreinterpretq_f64_p128(poly128_t a)	a -> Vd.1Q	NOP	Vd.2D -> result	A
 float16x8_t vreinterpretq_f16_p128(poly128_t a)	a -> Vd.1Q	NOP	Vd.8H -> result	A32/A64
 poly128_t vldrq_p128(poly128_t const *ptr)	ptr -> Xn	LDR Qd,[Xn]	Qd -> result	A32/A64
 void vstrq_p128(poly128_t *ptr, poly128_t val)	val -> Qt;ptr -> Xn	STR Qt,[Xn]		A32/A64
+
+uint8x16_t vluti2_lane_u8(uint8x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+uint8x16_t vluti2_laneq_u8(uint8x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+uint8x16_t vluti2q_lane_u8(uint8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+uint8x16_t vluti2q_laneq_u8(uint8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+
+int8x16_t vluti2_lane_s8(int8x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+int8x16_t vluti2_laneq_s8(int8x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+int8x16_t vluti2q_lane_s8(int8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+int8x16_t vluti2q_laneq_s8(int8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+
+poly8x16_t vluti2_lane_p8(poly8x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+poly8x16_t vluti2_laneq_p8(poly8x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+poly8x16_t vluti2q_lane_p8(poly8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+poly8x16_t vluti2q_laneq_p8(poly8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 3	LUTI2 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+
+uint16x8_t vluti2_lane_u16(uint16x4_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+uint16x8_t vluti2_laneq_u16(uint16x4_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+uint16x8_t vluti2q_lane_u16(uint16x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+uint16x8_t vluti2q_laneq_u16(uint16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+
+int16x8_t vluti2_lane_s16(int16x4_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+int16x8_t vluti2_laneq_s16(int16x4_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+int16x8_t vluti2q_lane_s16(int16x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+int16x8_t vluti2q_laneq_s16(int16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+
+float16x8_t vluti2_lane_f16(float16x4_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+float16x8_t vluti2_laneq_f16(float16x4_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+float16x8_t vluti2q_lane_f16(float16x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+float16x8_t vluti2q_laneq_f16(float16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+
+bfloat16x8_t vluti2_lane_bf16(bfloat16x4_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+bfloat16x8_t vluti2_laneq_bf16(bfloat16x4_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+bfloat16x8_t vluti2q_lane_bf16(bfloat16x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+bfloat16x8_t vluti2q_laneq_bf16(bfloat16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+
+poly16x8_t vluti2_lane_p16(poly16x4_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+poly16x8_t vluti2_laneq_p16(poly16x4_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+poly16x8_t vluti2q_lane_p16(poly16x8_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 3	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+poly16x8_t vluti2q_laneq_p16(poly16x8_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.8H;vm -> Vm;0 <= index <= 7	LUTI2 Vd.8H, {Vn.8H}, Vm[index]	Vd.8H -> result	A64
+
+uint8x16_t vluti4q_lane_u8(uint8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 0	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+uint8x16_t vluti4q_laneq_u8(uint8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+
+int8x16_t vluti4q_lane_s8(int8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 0	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+int8x16_t vluti4q_laneq_s8(int8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+
+poly8x16_t vluti4q_lane_p8(poly8x16_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 0	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+poly8x16_t vluti4q_laneq_p8(poly8x16_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn -> Vn.16B;vm -> Vm;0 <= index <= 1	LUTI4 Vd.16B, {Vn.16B}, Vm[index]	Vd.16B -> result	A64
+
+uint16x8_t vluti4q_lane_u16_x2(uint16x8x2_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 1	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+uint16x8_t vluti4q_laneq_u16_x2(uint16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+
+int16x8_t vluti4q_lane_s16_x2(int16x8x2_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 1	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+int16x8_t vluti4q_laneq_s16_x2(int16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+
+float16x8_t vluti4q_lane_f16_x2(float16x8x2_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 1	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+float16x8_t vluti4q_laneq_f16_x2(float16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+
+bfloat16x8_t vluti4q_lane_bf16_x2(bfloat16x8x2_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 1	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+bfloat16x8_t vluti4q_laneq_bf16_x2(bfloat16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+
+poly16x8_t vluti4q_lane_p16_x2(poly16x8x2_t vn, uint8x8_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 1	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+poly16x8_t vluti4q_laneq_p16_x2(poly16x8x2_t vn, uint8x16_t vm, __builtin_constant_p(index))	vn.val[0] -> Vn1.8H;vn.val[1] -> Vn2.8H;vm -> Vm;0 <= index <= 3	LUTI4 Vd.8H, {Vn1.8H, Vn2.8H}, Vm[index]	Vd.8H -> result	A64
+
+float16x4_t vamax_f16(float16x4_t vn, float16x4_t vm)	vn -> Vn.4H;vm -> Vm.4H	FAMAX Vd.4H, Vn.4H, Vm.4H	Vd.4H -> result	A64
+float16x8_t vamaxq_f16(float16x8_t vn, float16x8_t vm)	vn -> Vn.8H;vm -> Vm.8H	FAMAX Vd.8H, Vn.8H, Vm.8H	Vd.8H -> result	A64
+float32x2_t vamax_f32(float32x2_t vn, float32x2_t vm)	vn -> Vn.2S;vm -> Vm.2S	FAMAX Vd.2S, Vn.2S, Vm.2S	Vd.2S -> result	A64
+float32x4_t vamaxq_f32(float32x4_t vn, float32x4_t vm)	vn -> Vn.4S;vm -> Vm.4S	FAMAX Vd.4S, Vn.4S, Vm.4S	Vd.4S -> result	A64
+float64x2_t vamaxq_f64(float64x2_t vn, float64x2_t vm)	vn -> Vn.2D;vm -> Vm.2D	FAMAX Vd.2D, Vn.2D, Vm.2D	Vd.2D -> result	A64
+
+float16x4_t vamin_f16(float16x4_t vn, float16x4_t vm)	vn -> Vn.4H;vm -> Vm.4H	FAMIN Vd.4H, Vn.4H, Vm.4H	Vd.4H -> result	A64
+float16x8_t vaminq_f16(float16x8_t vn, float16x8_t vm)	vn -> Vn.8H;vm -> Vm.8H	FAMIN Vd.8H, Vn.8H, Vm.8H	Vd.8H -> result	A64
+float32x2_t vamin_f32(float32x2_t vn, float32x2_t vm)	vn -> Vn.2S;vm -> Vm.2S	FAMIN Vd.2S, Vn.2S, Vm.2S	Vd.2S -> result	A64
+float32x4_t vaminq_f32(float32x4_t vn, float32x4_t vm)	vn -> Vn.4S;vm -> Vm.4S	FAMIN Vd.4S, Vn.4S, Vm.4S	Vd.4S -> result	A64
+float64x2_t vaminq_f64(float64x2_t vn, float64x2_t vm)	vn -> Vn.2D;vm -> Vm.2D	FAMIN Vd.2D, Vn.2D, Vm.2D	Vd.2D -> result	A64
+
 <SECTION>	Crypto
 uint8x16_t vaeseq_u8(uint8x16_t data, uint8x16_t key)	data -> Vd.16B;key -> Vn.16B	AESE Vd.16B,Vn.16B	Vd.16B -> result	A32/A64
 uint8x16_t vaesdq_u8(uint8x16_t data, uint8x16_t key)	data -> Vd.16B;key -> Vn.16B	AESD Vd.16B,Vn.16B	Vd.16B -> result	A32/A64
@@ -4470,4 +4547,4 @@ float32x4_t vbfmlaltq_f32(float32x4_t r, bfloat16x8_t a, bfloat16x8_t b)	r -> Vd
 float32x4_t vbfmlalbq_lane_f32(float32x4_t r, bfloat16x8_t a, bfloat16x4_t b, __builtin_constant_p(lane))	r -> Vd.4S;a -> Vn.8H;b -> Vm.4H;0 <= lane <= 3	BFMLALB Vd.4S,Vn.8H,Vm.H[lane]	Vd.4S -> result	A32/A64
 float32x4_t vbfmlalbq_laneq_f32(float32x4_t r, bfloat16x8_t a, bfloat16x8_t b, __builtin_constant_p(lane))	r -> Vd.4S;a -> Vn.8H;b -> Vm.8H;0 <= lane <= 7	BFMLALB Vd.4S,Vn.8H,Vm.H[lane]	Vd.4S -> result	A32/A64
 float32x4_t vbfmlaltq_lane_f32(float32x4_t r, bfloat16x8_t a, bfloat16x4_t b, __builtin_constant_p(lane))	r -> Vd.4S;a -> Vn.8H;b -> Vm.4H;0 <= lane <= 3	BFMLALT Vd.4S,Vn.8H,Vm.H[lane]	Vd.4S -> result	A32/A64
-float32x4_t vbfmlaltq_laneq_f32(float32x4_t r, bfloat16x8_t a, bfloat16x8_t b, __builtin_constant_p(lane))	r -> Vd.4S;a -> Vn.8H;b -> Vm.8H;0 <= lane <= 7	BFMLALT Vd.4S,Vn.8H,Vm.H[lane]	Vd.4S -> result	A32/A64
+float32x4_t vbfmlaltq_laneq_f32(float32x4_t r, bfloat16x8_t a, bfloat16x8_t b, __builtin_constant_p(lane))	r -> Vd.4S;a -> Vn.8H;b -> Vm.8H;0 <= lane <= 7	BFMLALT Vd.4S,Vn.8H,Vm.H[lane]	Vd.4S -> result	A32/A64
\ No newline at end of file
diff --git a/tools/intrinsic_db/advsimd_classification.csv b/tools/intrinsic_db/advsimd_classification.csv
index 92480262..5a22e518 100644
--- a/tools/intrinsic_db/advsimd_classification.csv
+++ b/tools/intrinsic_db/advsimd_classification.csv
@@ -1,4 +1,4 @@
-<COMMENT>	SPDX-FileCopyrightText: Copyright 2021 Arm Limited <open-source-office@arm.com>
+<COMMENT>	SPDX-FileCopyrightText: Copyright 2021, 2024 Arm Limited <open-source-office@arm.com>
 <COMMENT>	SPDX-License-Identifier: Apache-2.0
 <COMMENT>	
 <COMMENT>	Licensed under the Apache License, Version 2.0 (the "License");
@@ -4389,4 +4389,62 @@ vbfmlaltq_f32	Vector arithmetic|Multiply|Multiply-accumulate
 vbfmlalbq_lane_f32	Scalar arithmetic|Vector multiply-accumulate by scalar
 vbfmlalbq_laneq_f32	Scalar arithmetic|Vector multiply-accumulate by scalar
 vbfmlaltq_lane_f32	Scalar arithmetic|Vector multiply-accumulate by scalar
-vbfmlaltq_laneq_f32	Scalar arithmetic|Vector multiply-accumulate by scalar
\ No newline at end of file
+vbfmlaltq_laneq_f32	Scalar arithmetic|Vector multiply-accumulate by scalar
+vamax_f16	Vector arithmetic|Absolute|Absolute minimum and maximum
+vamaxq_f16	Vector arithmetic|Absolute|Absolute minimum and maximum
+vamax_f32	Vector arithmetic|Absolute|Absolute minimum and maximum
+vamaxq_f32	Vector arithmetic|Absolute|Absolute minimum and maximum
+vamaxq_f64	Vector arithmetic|Absolute|Absolute minimum and maximum
+vamin_f16	Vector arithmetic|Absolute|Absolute minimum and maximum
+vaminq_f16	Vector arithmetic|Absolute|Absolute minimum and maximum
+vamin_f32	Vector arithmetic|Absolute|Absolute minimum and maximum
+vaminq_f32	Vector arithmetic|Absolute|Absolute minimum and maximum
+vaminq_f64	Vector arithmetic|Absolute|Absolute minimum and maximum
+vluti2_lane_u8	Table lookup|Lookup table read with 2-bit indices
+vluti2_laneq_u8	Table lookup|Lookup table read with 2-bit indices
+vluti2q_lane_u8	Table lookup|Lookup table read with 2-bit indices
+vluti2q_laneq_u8	Table lookup|Lookup table read with 2-bit indices
+vluti2_lane_s8	Table lookup|Lookup table read with 2-bit indices
+vluti2_laneq_s8	Table lookup|Lookup table read with 2-bit indices
+vluti2q_lane_s8	Table lookup|Lookup table read with 2-bit indices
+vluti2q_laneq_s8	Table lookup|Lookup table read with 2-bit indices
+vluti2_lane_p8	Table lookup|Lookup table read with 2-bit indices
+vluti2_laneq_p8	Table lookup|Lookup table read with 2-bit indices
+vluti2q_lane_p8	Table lookup|Lookup table read with 2-bit indices
+vluti2q_laneq_p8	Table lookup|Lookup table read with 2-bit indices
+vluti2_lane_u16	Table lookup|Lookup table read with 2-bit indices
+vluti2_laneq_u16	Table lookup|Lookup table read with 2-bit indices
+vluti2q_lane_u16	Table lookup|Lookup table read with 2-bit indices
+vluti2q_laneq_u16	Table lookup|Lookup table read with 2-bit indices
+vluti2_lane_s16	Table lookup|Lookup table read with 2-bit indices
+vluti2_laneq_s16	Table lookup|Lookup table read with 2-bit indices
+vluti2q_lane_s16	Table lookup|Lookup table read with 2-bit indices
+vluti2q_laneq_s16	Table lookup|Lookup table read with 2-bit indices
+vluti2_lane_f16	Table lookup|Lookup table read with 2-bit indices
+vluti2_laneq_f16	Table lookup|Lookup table read with 2-bit indices
+vluti2q_lane_f16	Table lookup|Lookup table read with 2-bit indices
+vluti2q_laneq_f16	Table lookup|Lookup table read with 2-bit indices
+vluti2_lane_bf16	Table lookup|Lookup table read with 2-bit indices
+vluti2_laneq_bf16	Table lookup|Lookup table read with 2-bit indices
+vluti2q_lane_bf16	Table lookup|Lookup table read with 2-bit indices
+vluti2q_laneq_bf16	Table lookup|Lookup table read with 2-bit indices
+vluti2_lane_p16	Table lookup|Lookup table read with 2-bit indices
+vluti2_laneq_p16	Table lookup|Lookup table read with 2-bit indices
+vluti2q_lane_p16	Table lookup|Lookup table read with 2-bit indices
+vluti2q_laneq_p16	Table lookup|Lookup table read with 2-bit indices
+vluti4q_laneq_u8	Table lookup|Lookup table read with 4-bit indices
+vluti4q_laneq_s8	Table lookup|Lookup table read with 4-bit indices
+vluti4q_laneq_p8	Table lookup|Lookup table read with 4-bit indices
+vluti4q_laneq_u16_x2	Table lookup|Lookup table read with 4-bit indices
+vluti4q_laneq_s16_x2	Table lookup|Lookup table read with 4-bit indices
+vluti4q_laneq_f16_x2	Table lookup|Lookup table read with 4-bit indices
+vluti4q_laneq_bf16_x2	Table lookup|Lookup table read with 4-bit indices
+vluti4q_laneq_p16_x2	Table lookup|Lookup table read with 4-bit indices
+vluti4q_lane_u16_x2	Table lookup|Lookup table read with 4-bit indices
+vluti4q_lane_s16_x2	Table lookup|Lookup table read with 4-bit indices
+vluti4q_lane_f16_x2	Table lookup|Lookup table read with 4-bit indices
+vluti4q_lane_bf16_x2	Table lookup|Lookup table read with 4-bit indices
+vluti4q_lane_p16_x2	Table lookup|Lookup table read with 4-bit indices
+vluti4q_lane_u8	Table lookup|Lookup table read with 4-bit indices
+vluti4q_lane_s8	Table lookup|Lookup table read with 4-bit indices
+vluti4q_lane_p8	Table lookup|Lookup table read with 4-bit indices
\ No newline at end of file

From 484a81a6a728a9096537b55d5c62c0a4ba930995 Mon Sep 17 00:00:00 2001
From: CarolineConcatto <caroline.concatto@arm.com>
Date: Wed, 4 Sep 2024 09:32:01 +0100
Subject: [PATCH 08/36] Fix nit left undone in PR321 (#344)

* Fix nit left undone in PR321

Bug report: https://github.com/ARM-software/acle/issues/340
---
 main/acle.md | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/main/acle.md b/main/acle.md
index 692baa3d..17a30075 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -404,6 +404,7 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
   level of the [Function Multi Versioning](#function-multi-versioning).
 * Added [**Alpha**](#current-status-and-anticipated-changes)
   support for SME2.1 (FEAT_SME2p1).
+* Removed requirement to add preprocessor guards for header files.
 
 * Added specifications for floating-point absolute minimum
   and maximum intrinsics (FEAT_FAMINMAX).
@@ -1028,7 +1029,7 @@ Including `<arm_sve.h>` also includes the following header files:
 
 `<arm_neon_sve_bridge.h>` defines intrinsics for moving data between
 Neon and SVE vector types; see [NEON-SVE Bridge](#neon-sve-bridge)
-for details. The `__ARM_NEON_SVE_BRIDGE` macro should be tested
+for details.  The `__ARM_NEON_SVE_BRIDGE` macro should be tested
 before including the header:
 
 ``` c

From 1293077eeddb08b9ea64f77ef65613c09b6ee690 Mon Sep 17 00:00:00 2001
From: "allcontributors[bot]"
 <46447321+allcontributors[bot]@users.noreply.github.com>
Date: Wed, 4 Sep 2024 09:36:14 +0100
Subject: [PATCH 09/36] docs: add Lukacma as a contributor for doc (#345)

* docs: update README.md [skip ci]

* docs: update .all-contributorsrc [skip ci]

---------

Co-authored-by: allcontributors[bot] <46447321+allcontributors[bot]@users.noreply.github.com>
---
 .all-contributorsrc | 9 +++++++++
 README.md           | 3 ++-
 2 files changed, 11 insertions(+), 1 deletion(-)

diff --git a/.all-contributorsrc b/.all-contributorsrc
index 75a3b85c..9cc1f69f 100644
--- a/.all-contributorsrc
+++ b/.all-contributorsrc
@@ -324,6 +324,15 @@
       "contributions": [
         "code"
       ]
+    },
+    {
+      "login": "Lukacma",
+      "name": "Lukacma",
+      "avatar_url": "https://avatars.githubusercontent.com/u/46606997?v=4",
+      "profile": "https://github.com/Lukacma",
+      "contributions": [
+        "doc"
+      ]
     }
   ],
   "contributorsPerLine": 7,
diff --git a/README.md b/README.md
index 648d9772..a2bb90bb 100644
--- a/README.md
+++ b/README.md
@@ -6,7 +6,7 @@
 </div>
 
 <!-- ALL-CONTRIBUTORS-BADGE:START - Do not remove or modify this section -->
-[![All Contributors](https://img.shields.io/badge/all_contributors-34-orange.svg?style=flat-square)](#contributors-)
+[![All Contributors](https://img.shields.io/badge/all_contributors-35-orange.svg?style=flat-square)](#contributors-)
 <!-- ALL-CONTRIBUTORS-BADGE:END -->
 ![Continuous Integration](https://github.com/ARM-software/acle/actions/workflows/ci.yml/badge.svg)
 
@@ -130,6 +130,7 @@ Thanks goes to these wonderful people ([emoji key](https://allcontributors.org/d
       <td align="center" valign="top" width="14.28%"><a href="https://github.com/pratlucas"><img src="https://avatars.githubusercontent.com/u/7014318?v=4?s=100" width="100px;" alt="Lucas Duarte Prates"/><br /><sub><b>Lucas Duarte Prates</b></sub></a><br /><a href="https://github.com/ARM-software/acle/commits?author=pratlucas" title="Code">💻</a></td>
       <td align="center" valign="top" width="14.28%"><a href="https://github.com/andrewcarlotti"><img src="https://avatars.githubusercontent.com/u/11681428?v=4?s=100" width="100px;" alt="Andrew Carlotti"/><br /><sub><b>Andrew Carlotti</b></sub></a><br /><a href="https://github.com/ARM-software/acle/pulls?q=is%3Apr+reviewed-by%3Aandrewcarlotti" title="Reviewed Pull Requests">👀</a></td>
       <td align="center" valign="top" width="14.28%"><a href="https://github.com/labrinea"><img src="https://avatars.githubusercontent.com/u/9527365?v=4?s=100" width="100px;" alt="Alexandros Lamprineas"/><br /><sub><b>Alexandros Lamprineas</b></sub></a><br /><a href="https://github.com/ARM-software/acle/commits?author=labrinea" title="Code">💻</a></td>
+      <td align="center" valign="top" width="14.28%"><a href="https://github.com/Lukacma"><img src="https://avatars.githubusercontent.com/u/46606997?v=4?s=100" width="100px;" alt="Lukacma"/><br /><sub><b>Lukacma</b></sub></a><br /><a href="https://github.com/ARM-software/acle/commits?author=Lukacma" title="Documentation">📖</a></td>
     </tr>
   </tbody>
 </table>

From 487cdbc05ce66d49418d32c1d0d77350d16f19da Mon Sep 17 00:00:00 2001
From: Alexandros Lamprineas <alexandros.lamprineas@arm.com>
Date: Thu, 12 Sep 2024 09:09:28 +0100
Subject: [PATCH 10/36] [FMV] Unify sha1, sha2. (#347)

According to ArmARM:

SHA2, bits [15:12]
0b0000 No SHA2 instructions implemented.
FEAT_SHA256 implements the functionality identified by the value 0b0001.
If the value of ID_AA64ISAR0_EL1.SHA1 is 0b0000, this field must have the value 0b0000.

SHA1, bits [11:8]
0b0000 No SHA1 instructions implemented.
FEAT_SHA1 implements the functionality identified by the value 0b0001.
If the value of ID_AA64ISAR0_EL1.SHA2 is 0b0000, this field must have the value 0b0000.

To my understanding this means you can't have one without the other.
---
 main/acle.md | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index 17a30075..653a315f 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -402,6 +402,7 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
   a misplaced anchor.
 * Added `__FUNCTION_MULTI_VERSIONING_SUPPORT_LEVEL` to indicate the support
   level of the [Function Multi Versioning](#function-multi-versioning).
+* Unified Function Multi Versioning features sha1, sha2.
 * Added [**Alpha**](#current-status-and-anticipated-changes)
   support for SME2.1 (FEAT_SME2p1).
 * Removed requirement to add preprocessor guards for header files.
@@ -2714,8 +2715,7 @@ The following table lists the architectures feature mapping for AArch64
    | 106           | `FEAT_SM3`, `FEAT_SM4`   | sm4           | ```ID_AA64ISAR0_EL1.SM4 >= 0b0001```      |
    | 108           | `FEAT_RDM`               | rdm, rdma     | ```ID_AA64ISAR0_EL1.RDM >= 0b0001```      |
    | 110           | `FEAT_CRC32`             | crc           | ```ID_AA64ISAR0_EL1.CRC32 >= 0b0001```    |
-   | 120           | `FEAT_SHA1`              | sha1          | ```ID_AA64ISAR0_EL1.SHA1 >= 0b0001```     |
-   | 130           | `FEAT_SHA256`            | sha2          | ```ID_AA64ISAR0_EL1.SHA2 >= 0b0001```     |
+   | 130           | `FEAT_SHA1`,`FEAT_SHA256`| sha2          | ```ID_AA64ISAR0_EL1.SHA2 >= 0b0001```     |
    | 140           | `FEAT_SHA512`,`FEAT_SHA3`| sha3          | ```ID_AA64ISAR0_EL1.SHA3 >= 0b0001```     |
    | 150           | `FEAT_AES`               | aes           | ```ID_AA64ISAR0_EL1.AES >= 0b0001```      |
    | 160           | `FEAT_PMULL`             | pmull         | ```ID_AA64ISAR0_EL1.AES >= 0b0010```      |

From 72e3673017f275572c3b2cb12e31c0e7602906cf Mon Sep 17 00:00:00 2001
From: Victor Campos <victor.campos@arm.com>
Date: Thu, 12 Sep 2024 09:56:06 +0100
Subject: [PATCH 11/36] Update GitHub Action versions (#348)

Action 'upload-artifact' version 2 has been deprecated, hence the need
to update its version.

To piggyback on this work, this patch updates all GitHub Action versions
to their latest release.
---
 .github/workflows/ci.yml | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/.github/workflows/ci.yml b/.github/workflows/ci.yml
index d955239b..ca97c667 100644
--- a/.github/workflows/ci.yml
+++ b/.github/workflows/ci.yml
@@ -10,10 +10,10 @@ jobs:
     runs-on: ubuntu-latest
 
     steps:
-    - uses: actions/checkout@v2
+    - uses: actions/checkout@v4.1.7
     - name: check the correctness of the sources and generate the PDFs
       run: ./build_with_docker.sh
-    - uses: actions/upload-artifact@v2
+    - uses: actions/upload-artifact@v4.4.0
       with:
         name: pdfs
         path: pdfs
@@ -21,14 +21,14 @@ jobs:
   build-github-pages:
     runs-on: ubuntu-latest
     steps:
-    - uses: actions/checkout@v3
+    - uses: actions/checkout@v4.1.7
     - name: generate the GitHub Pages locally in order to check for errors
       run: ./tools/build-github-pages.sh build
 
   markdown-link-check:
     runs-on: ubuntu-latest
     steps:
-    - uses: actions/checkout@master
+    - uses: actions/checkout@4.1.7
     - uses: gaurav-nelson/github-action-markdown-link-check@v1
       with:
           config-file: '.github/workflows/markdown-link-check.json'
@@ -37,7 +37,7 @@ jobs:
     runs-on: ubuntu-latest
     if: github.base_ref == 'main' || github.ref == 'refs/heads/main'
     steps:
-    - uses: actions/checkout@v4
+    - uses: actions/checkout@v4.1.7
       with:
         fetch-depth: 0
     - name: Check correctness of draftversion fields

From fb3e19d2025ddf94d9c5160a0dae70ba9c7bc183 Mon Sep 17 00:00:00 2001
From: Victor Campos <victor.campos@arm.com>
Date: Thu, 12 Sep 2024 09:58:01 +0100
Subject: [PATCH 12/36] Fix typo in ci.yml workflow

---
 .github/workflows/ci.yml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.github/workflows/ci.yml b/.github/workflows/ci.yml
index ca97c667..a784ef39 100644
--- a/.github/workflows/ci.yml
+++ b/.github/workflows/ci.yml
@@ -28,7 +28,7 @@ jobs:
   markdown-link-check:
     runs-on: ubuntu-latest
     steps:
-    - uses: actions/checkout@4.1.7
+    - uses: actions/checkout@v4.1.7
     - uses: gaurav-nelson/github-action-markdown-link-check@v1
       with:
           config-file: '.github/workflows/markdown-link-check.json'

From 264f4cd1538eb863bdec9cf51eb62c8a33d0cce5 Mon Sep 17 00:00:00 2001
From: SpencerAbson <Spencer.Abson@arm.com>
Date: Thu, 12 Sep 2024 10:06:21 +0100
Subject: [PATCH 13/36] Fix range of immediate argument in vst2q_lane_f64
 (#343)

* Rectify range of immediate argument in vst2q_lane_f64

The range of 'lane' vstq_lane_f64 is documented as 0 <= lane <= 2. However, the
64-bit variant of ST2 specifies that this immediate has a range of 0 <= lane <= 1.

- ST2: https://developer.arm.com/documentation/dui0801/l/A64-SIMD-Vector-Instructions/ST2--vector--single-structure---A64-
---
 neon_intrinsics/advsimd.md          | 3 ++-
 neon_intrinsics/advsimd.template.md | 1 +
 tools/intrinsic_db/advsimd.csv      | 2 +-
 3 files changed, 4 insertions(+), 2 deletions(-)

diff --git a/neon_intrinsics/advsimd.md b/neon_intrinsics/advsimd.md
index ee89c92b..c8056afa 100644
--- a/neon_intrinsics/advsimd.md
+++ b/neon_intrinsics/advsimd.md
@@ -149,6 +149,7 @@ for more information about Arm’s trademarks.
 ### Changes for next release
 
 * Textual improvements (non-functional changes).
+* Fixed the range of the ``lane`` immediate argument for ``vst2q_lane_f64``.
 
 <!---
 **** Do not remove! ****
@@ -4279,7 +4280,7 @@ The intrinsics in this section are guarded by the macro ``__ARM_NEON``.
 | <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_p64" target="_blank">vst2_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                          | `ST2 {Vt.d - Vt2.d}[lane],[Xn]` |          | `A64`                     |
 | <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_p64" target="_blank">vst2q_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                          | `ST2 {Vt.d - Vt2.d}[lane],[Xn]` |          | `A64`                     |
 | <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_f64" target="_blank">vst2_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                          | `ST2 {Vt.d - Vt2.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_f64" target="_blank">vst2q_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 2`                                                          | `ST2 {Vt.d - Vt2.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_f64" target="_blank">vst2q_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                          | `ST2 {Vt.d - Vt2.d}[lane],[Xn]` |          | `A64`                     |
 | <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_s16" target="_blank">vst3_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                | `ST3 {Vt.h - Vt3.h}[lane],[Xn]` |          | `v7/A32/A64`              |
 | <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_s16" target="_blank">vst3q_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                | `ST3 {Vt.h - Vt3.h}[lane],[Xn]` |          | `v7/A32/A64`              |
 | <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_s32" target="_blank">vst3_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                | `ST3 {Vt.s - Vt3.s}[lane],[Xn]` |          | `v7/A32/A64`              |
diff --git a/neon_intrinsics/advsimd.template.md b/neon_intrinsics/advsimd.template.md
index c8eb2968..d1a4ef71 100644
--- a/neon_intrinsics/advsimd.template.md
+++ b/neon_intrinsics/advsimd.template.md
@@ -149,6 +149,7 @@ for more information about Arm’s trademarks.
 ### Changes for next release
 
 * Textual improvements (non-functional changes).
+* Fixed the range of the ``lane`` immediate argument for ``vst2q_lane_f64``.
 
 <!---
 **** Do not remove! ****
diff --git a/tools/intrinsic_db/advsimd.csv b/tools/intrinsic_db/advsimd.csv
index a9ab4c1e..56e04f85 100644
--- a/tools/intrinsic_db/advsimd.csv
+++ b/tools/intrinsic_db/advsimd.csv
@@ -2583,7 +2583,7 @@ void vst2q_lane_u64(uint64_t *ptr, uint64x2x2_t val, __builtin_constant_p(lane))
 void vst2_lane_p64(poly64_t *ptr, poly64x1x2_t val, __builtin_constant_p(lane))	val.val[1] -> Vt2.1D;val.val[0] -> Vt.1D;ptr -> Xn;0 <= lane <= 0	ST2 {Vt.d - Vt2.d}[lane],[Xn]		A64
 void vst2q_lane_p64(poly64_t *ptr, poly64x2x2_t val, __builtin_constant_p(lane))	val.val[1] -> Vt2.2D;val.val[0] -> Vt.2D;ptr -> Xn;0 <= lane <= 1	ST2 {Vt.d - Vt2.d}[lane],[Xn]		A64
 void vst2_lane_f64(float64_t *ptr, float64x1x2_t val, __builtin_constant_p(lane))	val.val[1] -> Vt2.1D;val.val[0] -> Vt.1D;ptr -> Xn;0 <= lane <= 0	ST2 {Vt.d - Vt2.d}[lane],[Xn]		A64
-void vst2q_lane_f64(float64_t *ptr, float64x2x2_t val, __builtin_constant_p(lane))	val.val[1] -> Vt2.2D;val.val[0] -> Vt.2D;ptr -> Xn;0 <= lane <= 2	ST2 {Vt.d - Vt2.d}[lane],[Xn]		A64
+void vst2q_lane_f64(float64_t *ptr, float64x2x2_t val, __builtin_constant_p(lane))	val.val[1] -> Vt2.2D;val.val[0] -> Vt.2D;ptr -> Xn;0 <= lane <= 1	ST2 {Vt.d - Vt2.d}[lane],[Xn]		A64
 void vst3_lane_s16(int16_t *ptr, int16x4x3_t val, __builtin_constant_p(lane))	val.val[2] -> Vt3.4H;val.val[1] -> Vt2.4H;val.val[0] -> Vt.4H;ptr -> Xn;0 <= lane <= 3	ST3 {Vt.h - Vt3.h}[lane],[Xn]		v7/A32/A64
 void vst3q_lane_s16(int16_t *ptr, int16x8x3_t val, __builtin_constant_p(lane))	val.val[2] -> Vt3.8H;val.val[1] -> Vt2.8H;val.val[0] -> Vt.8H;ptr -> Xn;0 <= lane <= 7	ST3 {Vt.h - Vt3.h}[lane],[Xn]		v7/A32/A64
 void vst3_lane_s32(int32_t *ptr, int32x2x3_t val, __builtin_constant_p(lane))	val.val[2] -> Vt3.2S;val.val[1] -> Vt2.2S;val.val[0] -> Vt.2S;ptr -> Xn;0 <= lane <= 1	ST3 {Vt.s - Vt3.s}[lane],[Xn]		v7/A32/A64

From 9517c92e3ca343bae32840a9c0d2aa22e8fafb17 Mon Sep 17 00:00:00 2001
From: Victor Campos <victor.campos@arm.com>
Date: Thu, 12 Sep 2024 10:40:06 +0100
Subject: [PATCH 14/36] Move Custom Datapath Extension to Release support level
 (#330)

---
 main/acle.md | 6 +-----
 1 file changed, 1 insertion(+), 5 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index 653a315f..8b6c7d3b 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -406,11 +406,10 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
 * Added [**Alpha**](#current-status-and-anticipated-changes)
   support for SME2.1 (FEAT_SME2p1).
 * Removed requirement to add preprocessor guards for header files.
-
 * Added specifications for floating-point absolute minimum
   and maximum intrinsics (FEAT_FAMINMAX).
-
 * Added specifications for table lookup intrinsics (FEAT_LUT, FEAT_SME_LUTv2).
+* Release support level of the [Custom Datapath Extension](#custom-datapath-extension).
 
 ### References
 
@@ -4520,9 +4519,6 @@ The returned value is the same as for `__arm_st64bv`.
 
 # Custom Datapath Extension
 
-The specification for CDE is in `BETA` state and may change or be extended
-in the future.
-
 The intrinsics in this section provide access to instructions in the
 Custom Datapath Extension.
 

From 3e1bfa83de080e9f09b1ac1e1799d5c6697e1af9 Mon Sep 17 00:00:00 2001
From: Alexandros Lamprineas <alexandros.lamprineas@arm.com>
Date: Thu, 12 Sep 2024 11:39:55 +0100
Subject: [PATCH 15/36] [FMV] Unify ls64, ls64_v and ls64_accdata. (#346)

As originally discussed in #315 and then in #329 we want to unify
features that the toolchains cannot support independently. In the
case of ls64 I have attempted to split the lumped feature in the
compiler (see https://github.com/llvm/llvm-project/pull/101712),
but unfortunately this would break backwards compatibility:

Mapping 'ls64' to FeatureLS64_ACCDATA would enable all three of
{FeatureLS64, FeatureLS64_V, FeatureLS64_ACCDATA} but then using
'nols64' either on the command line or the assembler directive
would only disable FeatureLS64_ACCDATA without disabling the
other two. For that we would have to map 'ls64' to FeatureLS64,
but then it would not enable the other two.

As far as I am aware there are no hardware implementations out
there which implement ls64 without ls64_v or ls64_accdata, so
unifying these features in the specification should not be a
regression for feature detection. If any of this changes in
the feature we can revisit the specification.
---
 main/acle.md | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index 8b6c7d3b..209d5bb0 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -403,6 +403,7 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
 * Added `__FUNCTION_MULTI_VERSIONING_SUPPORT_LEVEL` to indicate the support
   level of the [Function Multi Versioning](#function-multi-versioning).
 * Unified Function Multi Versioning features sha1, sha2.
+* Unified Function Multi Versioning features ls64, ls64_v, ls64_accdata.
 * Added [**Alpha**](#current-status-and-anticipated-changes)
   support for SME2.1 (FEAT_SME2p1).
 * Removed requirement to add preprocessor guards for header files.
@@ -2755,9 +2756,7 @@ The following table lists the architectures feature mapping for AArch64
    | 490           | `FEAT_SSBS`              | ssbs          | ```ID_AA64PFR1_EL1.SSBS >= 0b0001```      |
    | 500           | `FEAT_SSBS2`             | ssbs2         | ```ID_AA64PFR1_EL1.SSBS >= 0b0010```      |
    | 510           | `FEAT_BTI`               | bti           | ```ID_AA64PFR1_EL1.BT >= 0b0001```        |
-   | 520           | `FEAT_LS64`              | ls64          | ```ID_AA64ISAR1_EL1.LS64 >= 0b0001```     |
-   | 530           | `FEAT_LS64_V`            | ls64_v        | ```ID_AA64ISAR1_EL1.LS64 >= 0b0010```     |
-   | 540           | `FEAT_LS64_ACCDATA`      | ls64_accdata  | ```ID_AA64ISAR1_EL1.LS64 >= 0b0011```     |
+   | 520           | `FEAT_LS64`, `FEAT_LS64_V`, <br> `FEAT_LS64_ACCDATA` | ls64 | ```ID_AA64ISAR1_EL1.LS64 >= 0b0011``` |
    | 550           | `FEAT_WFxT`              | wfxt          | ```ID_AA64ISAR2_EL1.WFxT >= 0b0010```     |
    | 560           | `FEAT_SME_F64F64`        | sme-f64f64    | ```ID_AA64SMFR0_EL1.F64F64 == 0b1```      |
    | 570           | `FEAT_SME_I16I64`        | sme-i16i64    | ```ID_AA64SMFR0_EL1.I16I64 == 0b1111```   |

From 20acf0599a7762660b01daf8496e1e30933b58d2 Mon Sep 17 00:00:00 2001
From: Alexandros Lamprineas <alexandros.lamprineas@arm.com>
Date: Thu, 12 Sep 2024 16:19:19 +0100
Subject: [PATCH 16/36] [FMV][AArch64] Add missing whitespace between comma
 separated features. (#349)

Minor change in the FMV table to improve readability.
---
 main/acle.md | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index 209d5bb0..2ab32fe9 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -2715,8 +2715,8 @@ The following table lists the architectures feature mapping for AArch64
    | 106           | `FEAT_SM3`, `FEAT_SM4`   | sm4           | ```ID_AA64ISAR0_EL1.SM4 >= 0b0001```      |
    | 108           | `FEAT_RDM`               | rdm, rdma     | ```ID_AA64ISAR0_EL1.RDM >= 0b0001```      |
    | 110           | `FEAT_CRC32`             | crc           | ```ID_AA64ISAR0_EL1.CRC32 >= 0b0001```    |
-   | 130           | `FEAT_SHA1`,`FEAT_SHA256`| sha2          | ```ID_AA64ISAR0_EL1.SHA2 >= 0b0001```     |
-   | 140           | `FEAT_SHA512`,`FEAT_SHA3`| sha3          | ```ID_AA64ISAR0_EL1.SHA3 >= 0b0001```     |
+   | 130           | `FEAT_SHA1`, `FEAT_SHA256` | sha2        | ```ID_AA64ISAR0_EL1.SHA2 >= 0b0001```     |
+   | 140           | `FEAT_SHA512`, `FEAT_SHA3` | sha3        | ```ID_AA64ISAR0_EL1.SHA3 >= 0b0001```     |
    | 150           | `FEAT_AES`               | aes           | ```ID_AA64ISAR0_EL1.AES >= 0b0001```      |
    | 160           | `FEAT_PMULL`             | pmull         | ```ID_AA64ISAR0_EL1.AES >= 0b0010```      |
    | 170           | `FEAT_FP16`              | fp16          | ```ID_AA64PFR0_EL1.FP == 0b0001```        |
@@ -2746,7 +2746,7 @@ The following table lists the architectures feature mapping for AArch64
    | 390           | `FEAT_SVE_PMULL128`      | sve2-pmull128 | ```ID_AA64ZFR0_EL1.AES >= 0b0010```       |
    | 400           | `FEAT_SVE_BitPerm`       | sve2-bitperm  | ```ID_AA64ZFR0_EL1.BitPerm >= 0b0001```   |
    | 410           | `FEAT_SVE_SHA3`          | sve2-sha3     | ```ID_AA64ZFR0_EL1.SHA3 >= 0b0001```      |
-   | 420           | `FEAT_SM3`,`FEAT_SVE_SM4`| sve2-sm4      | ```ID_AA64ZFR0_EL1.SM4 >= 0b0001```       |
+   | 420           | `FEAT_SM3`, `FEAT_SVE_SM4` | sve2-sm4    | ```ID_AA64ZFR0_EL1.SM4 >= 0b0001```       |
    | 430           | `FEAT_SME`               | sme           | ```ID_AA64PFR1_EL1.SME >= 0b0001```       |
    | 440           | `FEAT_MTE`               | memtag        | ```ID_AA64PFR1_EL1.MTE >= 0b0001```       |
    | 450           | `FEAT_MTE2`              | memtag2       | ```ID_AA64PFR1_EL1.MTE >= 0b0010```       |

From 5525258dbb3c8ade1b1807ae04fad5ef5d274a47 Mon Sep 17 00:00:00 2001
From: Momchil Velikov <momchil.velikov@arm.com>
Date: Mon, 23 Sep 2024 10:09:46 +0100
Subject: [PATCH 17/36] FP8 ACLE specification (#323)

---
 main/acle.md                                  |  729 ++-
 neon_intrinsics/advsimd.md                    | 3896 +++++++++--------
 tools/intrinsic_db/advsimd.csv                |  252 +-
 tools/intrinsic_db/advsimd_classification.csv |  243 +-
 4 files changed, 3228 insertions(+), 1892 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index 2ab32fe9..5f23e1b6 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -411,6 +411,8 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
   and maximum intrinsics (FEAT_FAMINMAX).
 * Added specifications for table lookup intrinsics (FEAT_LUT, FEAT_SME_LUTv2).
 * Release support level of the [Custom Datapath Extension](#custom-datapath-extension).
+* Added [**Alpha**](#current-status-and-anticipated-changes)
+  support for modal 8-bit floating point intrinsics.
 
 ### References
 
@@ -751,6 +753,9 @@ The predefined types are:
 * The `__bf16` type for 16-bit brain floating-point values (see 
  [Half-precision brain floating-point](#half-precision-brain-floating-point)).
 
+* The `__mfp8` type for the modal 8-bit floating-point values (see
+[Modal 8-bit floating point types](#modal-8-bit-floating-point)).
+
 ### Implementation-defined type properties
 
 ACLE and the Arm ABI allow implementations some freedom in order to
@@ -1280,6 +1285,12 @@ sequence of instructions to achieve the conversion.
 Providing emulation libraries for half-precision floating point
 conversions when not implemented in hardware is implementation-defined.
 
+### Modal 8-bit floating-point
+
+ACLE defines the `__mfp8` type, which can be used for the E5M2 and E4M3
+8-bit floating-point formats ("FP8"). It is a storage and interchange
+only type with no arithmetic operations other than intrinsic calls.
+
 # Architecture and CPU names
 
 ## Introduction
@@ -2147,6 +2158,48 @@ and if the associated ACLE intrinsics are available.
 lookup table instructions with 4-bit indices and 8-bit elements (FEAT_SME_LUTv2)
 and if the associated ACLE intrinsics are available.
 
+### Modal 8-bit floating point extensions
+
+`__ARM_FEATURE_FP8` is defined to 1 if there is hardware support for FP8 conversion
+instructions (FEAT_FP8) and if the associated ACLE intrinsics are available.
+
+`__ARM_FEATURE_FP8FMA` is defined to 1 if there is hardware support for
+FP8 multiply-accumulate to half-precision and single-precision instructions
+(FEAT_FP8FMA) and if the associated ACLE intrinsics are available.
+
+`__ARM_FEATURE_FP8DOT2` is defined to 1 if there is hardware support for
+FP8 2-way dot product to half-precision instructions (FEAT_FP8DOT2)
+and if the associated ACLE intrinsics are available.
+
+`__ARM_FEATURE_FP8DOT4` is defined to 1 if there is hardware support for
+FP8 4-way dot product to single-precision instructions (FEAT_FP8DOT4)
+and if the associated ACLE intrinsics are available.
+
+`__ARM_FEATURE_SSVE_FP8DOT4` is defined to 1 if there is hardware support for
+SVE2 FP8 4-way dot product to single-precision instructions
+in Streaming SVE mode (FEAT_SSVE_FP8DOT4) and if the associated ACLE
+intrinsics are available.
+
+`__ARM_FEATURE_SSVE_FP8DOT2` is defined to 1 if there is hardware support for
+SVE2 FP8 2-way dot product to half-precision instructions
+in Streaming SVE mode (FEAT_SSVE_FP8DOT2) and if the associated ACLE intrinsics
+are available.
+
+`__ARM_FEATURE_SSVE_FP8FMA` is defined to 1 if there is hardware support for
+SVE2 FP8 multiply-accumulate to half-precision and single-precision
+instructions in Streaming SVE mode (FEAT_SSVE_FP8FMA) and if the associated
+ACLE intrinsics are available.
+
+`__ARM_FEATURE_SME_F8F32` is defined to 1 if there is hardware support for SME2
+FP8 dot product, multiply-accumulate, and outer product to single-precision
+instructions (FEAT_SME_F8F32) and if the associated ACLE intrinsics are
+available.
+
+`__ARM_FEATURE_SME_F8F16` is defined to 1 if there is hardware support for SME2
+FP8 dot product, multiply-accumulate, and outer product to half-precision
+instructions (FEAT_SME_F8F16) and if the associated ACLE intrinsics are
+available.
+
 ### Other floating-point and vector extensions
 
 #### Fused multiply-accumulate (FMA)
@@ -2437,6 +2490,10 @@ be found in [[BA]](#BA).
 | [`__ARM_FEATURE_FAMINMAX`](#floating-point-absolute-minimum-and-maximum-extension)                                                                      | Floating-point absolute minimum and maximum extension                                              | 1           |
 | [`__ARM_FEATURE_FMA`](#fused-multiply-accumulate-fma)                                                                                                   | Floating-point fused multiply-accumulate                                                           | 1           |
 | [`__ARM_FEATURE_FP16_FML`](#fp16-fml-extension)                                                                                                         | FP16 FML extension (Arm v8.4-A, optional Armv8.2-A, Armv8.3-A)                                     | 1           |
+| [`__ARM_FEATURE_FP8`](#modal-8-bit-floating-point-extensions)                                                                                           | Modal 8-bit floating-point extensions                                                              | 1           |
+| [`__ARM_FEATURE_FP8DOT2`](#modal-8-bit-floating-point-extensions)                                                                                       | Modal 8-bit floating-point extensions                                                              | 1           |
+| [`__ARM_FEATURE_FP8DOT4`](#modal-8-bit-floating-point-extensions)                                                                                       | Modal 8-bit floating-point extensions                                                              | 1           |
+| [`__ARM_FEATURE_FP8FMA`](#modal-8-bit-floating-point-extensions)                                                                                        | Modal 8-bit floating-point extensions                                                              | 1           |
 | [`__ARM_FEATURE_FRINT`](#availability-of-armv8.5-a-floating-point-rounding-intrinsics)                                                                  | Floating-point rounding extension (Arm v8.5-A)                                                     | 1           |
 | [`__ARM_FEATURE_IDIV`](#hardware-integer-divide)                                                                                                        | Hardware Integer Divide                                                                            | 1           |
 | [`__ARM_FEATURE_JCVT`](#javascript-floating-point-conversion)                                                                                           | Javascript conversion (ARMv8.3-A)                                                                  | 1           |
@@ -2466,9 +2523,14 @@ be found in [[BA]](#BA).
 | [`__ARM_FEATURE_SME_B16B16`](#non-widening-brain-16-bit-floating-point-support)                                                                         | Non-widening brain 16-bit floating-point SME intrinsics (FEAT_SME_B16B16)                          | 1           |
 | [`__ARM_FEATURE_SME_F16F16`](#half-precision-floating-point-sme-intrinsics)                                                                             | Half-precision floating-point SME intrinsics (FEAT_SME_F16F16)                                     | 1           |
 | [`__ARM_FEATURE_SME_F64F64`](#double-precision-floating-point-outer-product-intrinsics)                                                                 | Double precision floating-point outer product intrinsics (FEAT_SME_F64F64)                         | 1           |
+| [`__ARM_FEATURE_SME_F8F16`](#modal-8-bit-floating-point-extensions)                                                                                     | Modal 8-bit floating-point extensions                                                              | 1           |
+| [`__ARM_FEATURE_SME_F8F32`](#modal-8-bit-floating-point-extensions)                                                                                     | Modal 8-bit floating-point extensions                                                              | 1           |
 | [`__ARM_FEATURE_SME_I16I64`](#16-bit-to-64-bit-integer-widening-outer-product-intrinsics)                                                               | 16-bit to 64-bit integer widening outer product intrinsics (FEAT_SME_I16I64)                       | 1           |
 | [`__ARM_FEATURE_SME_LOCALLY_STREAMING`](#scalable-matrix-extension-sme)                                                                                 | Support for the `arm_locally_streaming` attribute                                                  | 1           |
 | [`__ARM_FEATURE_SME_LUTv2`](#lookup-table-extensions)                                                                                                   | Lookup table extensions (FEAT_SME_LUTv2)                                                           | 1           |
+| [`__ARM_FEATURE_SSVE_FP8DOT2`](#modal-8-bit-floating-point-extensions)                                                                                  | Modal 8-bit floating-point extensions                                                              | 1           |
+| [`__ARM_FEATURE_SSVE_FP8DOT4`](#modal-8-bit-floating-point-extensions)                                                                                  | Modal 8-bit floating-point extensions                                                              | 1           |
+| [`__ARM_FEATURE_SSVE_FP8FMA`](#modal-8-bit-floating-point-extensions)                                                                                   | Modal 8-bit floating-point extensions                                                              | 1           |
 | [`__ARM_FEATURE_SVE`](#scalable-vector-extension-sve)                                                                                                   | Scalable Vector Extension (FEAT_SVE)                                                               | 1           |
 | [`__ARM_FEATURE_SVE_B16B16`](#non-widening-brain-16-bit-floating-point-support)                                                                         | Non-widening brain 16-bit floating-point intrinsics (FEAT_SVE_B16B16)                              | 1           |
 | [`__ARM_FEATURE_SVE_BF16`](#brain-16-bit-floating-point-support)                                                                                        | SVE support for the 16-bit brain floating-point extension (FEAT_BF16)                              | 1           |
@@ -5619,6 +5681,137 @@ each architecture includes its predecessor instruction set.
 | WFI             |           | 8,6K, 6-M     | `__wfi`                                               |
 | YIELD           |           | 8,6K, 6-M     | `__yield`                                             |
 
+# About FP8 intrinsics
+
+The specification for FP8 intrinsics is in
+[**Alpha** state](#current-status-and-anticipated-changes).
+
+Each 8-bit floating point intrinsic call has a parameter to define the format
+and scale of the operands, and the overflow behavior, as applicable to each
+operation. This parameter is typically declared as `fpm_t fpm`.
+
+```c
+  typedef uint64_t fpm_t;
+```
+
+The bits of an argument to an `fpm` parameter are interpreted as follows:
+
+| **Bit range** | **Name**       | **Meaning**                                                        |
+| ------------- | -------------- | ------------------------------------------------------------------ |
+| 0-2           | `src1_format`  | first source operand format:  0 - FP8 E5M2, 1 - FP8 E4M3           |
+| 3-5           | `src2_format`  | second source operand format: 0 - FP8 E5M2, 1 - FP8 E4M3           |
+| 6-8           | `dst_format`   | destination format: 0  - FP8 E5M2, 1 - FP8 E4M3                    |
+| 9-13          |                | must be zero                                                       |
+| 14            | `overflow_mul` | overflow behavior for multiplication instructions:                 |
+|               |                |   0 - generate infinity, 1 - generate maximum normal number        |
+| 15            | `overflow_cvt` | overflow behavior for conversion instructions:                     |
+|               |                |   0 - generate infinity or NaN, 1 - generate maximum normal number |
+| 16-22         | `lscale`       | downscaling value                                                  |
+| 23            |                | must be zero                                                       |
+| 24-31         | `nscale`       | scaling value for conversions                                      |
+| 32-37         | `lscale2`      | downscaling value for conversions of the second input stream       |
+| 38-63         |                | must be zero                                                       |
+
+Bit patterns other than as described above are invalid. Passing an invalid value as an argument
+to an FP8 intrinsic results in undefined behavior.
+
+The ACLE declares several helper types and intrinsics to
+facilitate construction of `fpm` arguments. The helper intrinsics do not have
+side effects and their return values depend only on their parameters.
+
+Passing an out of range argument to a helper intrinsic results in the intrinsic
+returning an indeterminate value. Passing such an indeterminate value as
+an argument to an FP8 intrinsic results in undefined behavior.
+
+The helper types and intrinsics are available after including any of
+[`<arm_neon.h>`](#arm_neon.h), [`<arm_sve.h>`](#arm_sve.h), or
+[`<arm_sme.h>`](#arm_sme.h).
+
+Note: where a helper intrinsic description refers to "updating the FP8 mode" it
+means the intrinsic only modifies the bits of the input `fpm_t` parameter that
+correspond to the new mode and returns the resulting value. No side effects
+(such as changing processor state) occur.
+
+Individual FP8 intrinsics are described in their respective
+Advanced SIMD (NEON), SVE, and SME sections.
+
+## Support enumerations
+
+```c
+enum __ARM_FPM_FORMAT {
+  __ARM_FPM_E5M2,
+  __ARM_FPM_E4M3,
+};
+
+enum __ARM_FPM_OVERFLOW {
+  __ARM_FPM_INFNAN,
+  __ARM_FPM_SATURATE,
+};
+```
+
+## Helper intrinsics
+
+```c
+  fpm_t __arm_fpm_init();
+```
+Initializes a value, suitable for use as an `fpm` argument ("FP8 mode").
+The value corresponds to a mode of operation where:
+  * The source and destination operands are interpreted as E5M2.
+  * Overflow behavior is to yield infinity or NaN (depending on operation).
+  * No scaling occurs.
+
+```c
+  fpm_t __arm_set_fpm_src1_format(fpm_t fpm, enum __ARM_FPM_FORMAT format);
+  fpm_t __arm_set_fpm_src2_format(fpm_t fpm, enum __ARM_FPM_FORMAT format);
+```
+Updates the FP8 mode to set the first or the second source operand format,
+respectively.
+
+```c
+  fpm_t __arm_set_fpm_dst_format(fpm_t fpm,  enum __ARM_FPM_FORMAT format);
+```
+Updates the FP8 mode to set the destination format.
+
+```c
+  fpm_t __arm_set_fpm_overflow_cvt(fpm_t fpm, enum __ARM_FPM_OVERFLOW behavior);
+```
+Updates the FP8 mode to set the overflow behavior for conversion operations.
+
+``` c
+  fpm_t __arm_set_fpm_overflow_mul(fpm_t fpm, enum __ARM_FPM_OVERFLOW behavior);
+```
+Updates the FP8 mode to set the overflow behavior for multiplicative
+operations.
+
+``` c
+  fpm_t __arm_set_fpm_lscale(fpm_t fpm, uint64_t scale);
+```
+Updates the FP8 mode to set the downscaling value subtracted from:
+* The product or the sum-of-products exponent, for multiplication instructions
+  with FP8 operands.
+* The result exponent, for instructions converting the first FP8
+  input data stream to other floating-point formats.
+
+The valid range for the `scale` parameter is [0, 127], inclusive.
+
+``` c
+  fpm_t __arm_set_fpm_lscale2(fpm_t fpm, uint64_t scale);
+```
+Updates the FP8 mode to set the downscaling value subtracted from the
+result exponent for instructions converting the second FP8 input data
+stream to other floating-point formats.
+
+The valid range for the `scale` parameter is [0, 63], inclusive.
+
+``` c
+  fpm_t __arm_set_fpm_nscale(fpm_t fpm,  int64_t scale);
+```
+Updates the FP8 mode to set the scaling value added to the operand's
+exponent for instructions converting other floating-point formats to an
+FP8 format.
+
+The valid range for the `scale` parameter is [-128, 127], inclusive.
+
 # Advanced SIMD (Neon) intrinsics
 
 ## Introduction
@@ -5682,14 +5875,14 @@ a `uint16_t` result containing the sum.
 
 ### Vector data types
 
-Vector data types are named as a lane type and a multiple. Lane type names are
-based on the types defined in `<stdint.h>`. For example,.  `int16x4_t` is a
-vector of four `int16_t` values. The base types are `int8_t`, `uint8_t`,
-`int16_t`, `uint16_t`, `int32_t`, `uint32_t`, `int64_t`,
-`uint64_t`, `float16_t`, `float32_t`, `poly8_t`, `poly16_t`,
-`poly64_t`, `poly128_t`  and `bfloat16_t`. The multiples are such that
-the resulting vector types are 64-bit and 128-bit. In AArch64, `float64_t` is
-also a base type.
+Vector data types are named as a lane type and a multiple. Lane type
+names are based on the types defined in `<stdint.h>`. For example,
+`int16x4_t` is a vector of four `int16_t` values. The base types are
+`int8_t`, `uint8_t`, `int16_t`, `uint16_t`, `int32_t`, `uint32_t`,
+`int64_t`, `uint64_t`, `float16_t`, `float32_t`, `poly8_t`, `poly16_t`,
+`poly64_t`, `poly128_t`, and `bfloat16_t`. The multiples are such that the
+resulting vector types are 64-bit and 128-bit. In AArch64, `float64_t`
+and `mfloat8_t` are also base types.
 
 Not all types can be used in all operations. Generally, the operations
 available on a type correspond to the operations available on the
@@ -5707,6 +5900,9 @@ bfloat types are only available when the `__bf16` type is defined, that is,
 when supported by the hardware. The bfloat types are all opaque types.  That is
 to say they can only be used by intrinsics.
 
+The FP8 types are all opaque types. That is to say they can only be used
+by intrinsics.
+
 ### Advanced SIMD Scalar data types
 
 AArch64 supports Advanced SIMD scalar operations that work on standard
@@ -5745,6 +5941,8 @@ it.
 
 If the `__bf16` type is defined, `bfloat16_t` is defined as an alias for it.
 
+If the `__mfp8` type is defined, `mfloat8_t` is defined as an alias for it.
+
 `poly8_t`, `poly16_t`, `poly64_t` and `poly128_t` are defined as
 unsigned integer types. It is unspecified whether these are the same type as
 `uint8_t`, `uint16_t`, `uint64_t` and `uint128_t` for overloading and
@@ -6500,6 +6698,7 @@ In addition, the header file defines the following scalar data types:
 | `float16_t`     | equivalent to `__fp16` |
 | `float32_t`     | equivalent to `float`  |
 | `float64_t`     | equivalent to `double` |
+| `mfloat8_t`     | equivalent to `__mfp8` |
 
 If the feature macro `__ARM_FEATURE_BF16_SCALAR_ARITHMETIC` is
 defined, [`<arm_sve.h>`](#arm_sve.h) also includes
@@ -6514,7 +6713,7 @@ single vectors:
 
 | **Signed integer**   | **Unsigned integer** | **Floating-point**   |                      |
 | -------------------- | -------------------- | -------------------- | -------------------- |
-| `svint8_t`           | `svuint8_t`          |                      |                      |
+| `svint8_t`           | `svuint8_t`          |                      | `svmfloat8_t         |
 | `svint16_t`          | `svuint16_t`         | `svfloat16_t`        | `svbfloat16_t`       |
 | `svint32_t`          | `svuint32_t`         | `svfloat32_t`        |                      |
 | `svint64_t`          | `svuint64_t`         | `svfloat64_t`        |                      |
@@ -6534,17 +6733,17 @@ vectors, as follows:
 
 | **Signed integer**   | **Unsigned integer** | **Floating-point**    |                      |
 | -------------------- | -------------------- | --------------------- | -------------------- |
-| `svint8x2_t`         | `svuint8x2_t`        |                       |                      |
+| `svint8x2_t`         | `svuint8x2_t`        |                       | `svmfloat8x2_t`      |
 | `svint16x2_t`        | `svuint16x2_t`       | `svfloat16x2_t`       | `svbfloat16x2_t`     |
 | `svint32x2_t`        | `svuint32x2_t`       | `svfloat32x2_t`       |                      |
 | `svint64x2_t`        | `svuint64x2_t`       | `svfloat64x2_t`       |                      |
 |                      |                      |                       |                      |
-| `svint8x3_t`         | `svuint8x3_t`        |                       |                      |
+| `svint8x3_t`         | `svuint8x3_t`        |                       | `svmfloat8x3_t`      |
 | `svint16x3_t`        | `svuint16x3_t`       | `svfloat16x3_t`       | `svbfloat16x3_t`     |
 | `svint32x3_t`        | `svuint32x3_t`       | `svfloat32x3_t`       |                      |
 | `svint64x3_t`        | `svuint64x3_t`       | `svfloat64x3_t`       |                      |
 |                      |                      |                       |                      |
-| `svint8x4_t`         | `svuint8x4_t`        |                       |                      |
+| `svint8x4_t`         | `svuint8x4_t`        |                       | `svmfloat8x4_t`      |
 | `svint16x4_t`        | `svuint16x4_t`       | `svfloat16x4_t`       | `svbfloat16x4_t`     |
 | `svint32x4_t`        | `svuint32x4_t`       | `svfloat32x4_t`       |                      |
 | `svint64x4_t`        | `svuint64x4_t`       | `svfloat64x4_t`       |                      |
@@ -8938,7 +9137,7 @@ Broadcast indexed element within each quadword vector segment.
 ``` c
    // Variants are also available for:
    // _s8, _u16, _s16, _u32, _s32, _u64, _s64
-   // _bf16, _f16, _f32, _f64
+   // _mf8, _bf16, _f16, _f32, _f64
    svuint8_t svdup_laneq[_u8](svuint8_t zn, uint64_t imm_idx);
    ```
 
@@ -8949,7 +9148,7 @@ Extract vector segment from each pair of quadword segments.
 ``` c
    // Variants are also available for:
    // _s8, _s16, _u16, _s32, _u32, _s64, _u64
-   // _bf16, _f16, _f32, _f64
+   // _mf8, _bf16, _f16, _f32, _f64
    svuint8_t svextq[_u8](svuint8_t zdn, svuint8_t zm, uint64_t imm);
    ```
 #### LD1D, LD1W
@@ -8976,18 +9175,17 @@ Gather Load Quadword.
 ``` c
    // Variants are also available for:
    // _u8, _u16, _s16, _u32, _s32, _u64, _s64
-   // _bf16, _f16, _f32, _f64
+   // _mf8, _bf16, _f16, _f32, _f64
    svint8_t svld1q_gather[_u64base]_s8(svbool_t pg, svuint64_t zn);
    svint8_t svld1q_gather[_u64base]_offset_s8(svbool_t pg, svuint64_t zn, int64_t offset);
    svint8_t svld1q_gather_[u64]offset[_s8](svbool_t pg, const int8_t *base, svuint64_t offset);
 
-
    // Variants are also available for:
    // _u16, _u32, _s32, _u64, _s64
    // _bf16, _f16, _f32, _f64
    svint16_t svld1q_gather_[u64]index[_s16](svbool_t pg, const int16_t *base, svuint64_t index);
    svint8_t svld1q_gather[_u64base]_index_s8(svbool_t pg, svuint64_t zn, int64_t index);
-   ```
+```
 
 #### LD2Q, LD3Q, LD4Q
 
@@ -8996,7 +9194,7 @@ Contiguous load two, three, or four quadword structures.
 ``` c
    // Variants are also available for:
    // _u8, _u16, _s16, _u32, _s32, _u64, _s64
-   // _bf16, _f16, _f32, _f64
+   // _mf8, _bf16, _f16, _f32, _f64
    svint8x2_t svld2q[_s8](svbool_t pg, const int8_t *rn);
    svint8x2_t svld2q_vnum[_s8](svbool_t pg, const int8_t *rn, uint64_t vnum);
    svint8x3_t svld3q[_s8](svbool_t pg, const int8_t *rn);
@@ -9071,7 +9269,7 @@ Scatter store quadwords.
 ``` c
    // Variants are also available for:
    // _u8, _u16, _s16, _u32, _s32, _u64, _s64
-   // _bf16, _f16, _f32, _f64
+   // _mf8, _bf16, _f16, _f32, _f64
    void svst1q_scatter[_u64base][_s8](svbool_t pg, svuint64_t zn, svint8_t data);
    void svst1q_scatter[_u64base]_offset[_s8](svbool_t pg, svuint64_t zn, int64_t offset, svint8_t data);
    void svst1q_scatter_[u64]offset[_s8](svbool_t pg, const uint8_t *base, svuint64_t offset, svint8_t data);
@@ -9081,7 +9279,7 @@ Scatter store quadwords.
    // _bf16, _f16, _f32, _f64
    void svst1q_scatter[_u64base]_index[_s8](svbool_t pg, svuint64_t zn, int64_t index, svint8_t data);
    void svst1q_scatter_[u64]index_[s16](svbool_t pg, const int16_t *base, svuint64_t index, svint16_t data);
-   ```
+```
 
 #### ST2Q, ST3Q, ST4Q
 
@@ -9090,7 +9288,7 @@ Contiguous store.
 ``` c
    // Variants are also available for:
    // _s8 _u16, _s16, _u32, _s32, _u64, _s64
-   // _bf16, _f16, _f32, _f64
+   // _mf8, _bf16, _f16, _f32, _f64
    void svst2q[_u8](svbool_t pg, uint8_t *rn, svuint8x2_t zt);
    void svst2q_vnum[_u8](svbool_t pg, uint8_t *rn, int64_t vnum, svuint8x2_t zt);
    void svst3q[_u8](svbool_t pg, uint8_t *rn, svuint8x3_t zt);
@@ -9106,7 +9304,7 @@ Programmable table lookup within each quadword vector segment (zeroing).
 ``` c
    // Variants are also available for:
    // _u8, _u16, _s16, _u32, _s32, _u64, _s64
-   // _bf16, _f16, _f32, _f64
+   // _mf8, _bf16, _f16, _f32, _f64
    svint8_t svtblq[_s8](svint8_t zn, svuint8_t zm);
    ```
 
@@ -9117,7 +9315,7 @@ Programmable table lookup within each quadword vector segment (merging).
 ``` c
    // Variants are also available for:
    // _u8, _u16, _s16, _u32, _s32, _u64, _s64
-   // _bf16, _f16, _f32, _f64
+   // _mf8, _bf16, _f16, _f32, _f64
    svint8_t svtbxq[_s8](svint8_t fallback, svint8_t zn, svuint8_t zm);
    ```
 
@@ -9128,7 +9326,7 @@ Concatenate elements within each pair of quadword vector segments.
 ``` c
    // Variants are also available for:
    // _s8, _u16, _s16, _u32, _s32, _u64, _s64
-   // _bf16, _f16, _f32, _f64
+   // _mf8, _bf16, _f16, _f32, _f64
    svuint8_t svuzpq1[_u8](svuint8_t zn, svuint8_t zm);
    svuint8_t svuzpq2[_u8](svuint8_t zn, svuint8_t zm);
    ```
@@ -9140,7 +9338,7 @@ Interleave elements from halves of each pair of quadword vector segments.
 ``` c
    // Variants are also available for:
    // _s8, _u16, _s16, _u32, _s32, _u64, _s64
-   // _bf16, _f16, _f32, _f64
+   // _mf8, _bf16, _f16, _f32, _f64
    svuint8_t svzipq1[_u8](svuint8_t zn, svuint8_t zm);
    svuint8_t svzipq2[_u8](svuint8_t zn, svuint8_t zm);
    ```
@@ -10204,7 +10402,7 @@ For example, in the `_u8` intrinsic, the return value and the `zd`
 parameter both have type `svuint8_t`.
 
 ``` c
-  // And similarly for u8.
+  // And similarly for u8, mf8
   svint8_t svread_hor_za8[_s8]_m(svint8_t zd, svbool_t pg,
                                  uint64_t tile, uint32_t slice)
     __arm_streaming __arm_in("za");
@@ -10224,7 +10422,7 @@ parameter both have type `svuint8_t`.
                                     uint64_t tile, uint32_t slice)
     __arm_streaming __arm_in("za");
 
-  // And similarly for s16, s32, s64, u8, u16, u32, u64, bf16, f16, f32, f64
+  // And similarly for s16, s32, s64, u8, u16, u32, u64, mf8, bf16, f16, f32, f64
   svint8_t svread_hor_za128[_s8]_m(svint8_t zd, svbool_t pg,
                                    uint64_t tile, uint32_t slice)
     __arm_streaming __arm_in("za");
@@ -10237,7 +10435,7 @@ the type of the `zn` parameter varies with the type suffix. For example,
 the `zn` parameter to the `_u8` intrinsic has type `svuint8_t`.
 
 ``` c
-  // And similarly for u8.
+  // And similarly for u8, mf8.
   void svwrite_hor_za8[_s8]_m(uint64_t tile, uint32_t slice, svbool_t pg,
                               svint8_t zn)
     __arm_streaming __arm_inout("za");
@@ -10257,7 +10455,7 @@ the `zn` parameter to the `_u8` intrinsic has type `svuint8_t`.
                                 svint64_t zn)
     __arm_streaming __arm_inout("za");
 
-  // And similarly for s16, s32, s64, u8, u16, u32, u64, bf16, f16, f32, f64
+  // And similarly for s16, s32, s64, u8, u16, u32, u64, mf8, bf16, f16, f32, f64
   void svwrite_hor_za128[_s8]_m(uint64_t tile, uint32_t slice, svbool_t pg,
                                 svint8_t zn)
     __arm_streaming __arm_inout("za");
@@ -11735,33 +11933,33 @@ Zero ZT0
 Lookup table read with 2-bit and 4-bit indexes
 
 ``` c
-  // Variants are also available for _zt_u8, _zt_s16, _zt_u16, _zt_f16,
+  // Variants are also available for _zt_u8, _zt_mf8, _zt_s16, _zt_u16, _zt_f16,
   // _zt_bf16, _zt_s32, _zt_u32 and _zt_f32
   svint8_t svluti2_lane_zt_s8(uint64_t zt, svuint8_t zn, uint64_t imm_idx)
     __arm_streaming __arm_in("zt0");
 
 
-  // Variants are also available for _zt_u8, _zt_s16, _zt_u16, _zt_f16,
+  // Variants are also available for _zt_u8, _zt_mf8, _zt_s16, _zt_u16, _zt_f16,
   // _zt_bf16, _zt_s32, _zt_u32 and _zt_f32
   svint8x2_t svluti2_lane_zt_s8_x2(uint64_t zt, svuint8_t zn,
                                    uint64_t imm_idx)
     __arm_streaming __arm_in("zt0");
 
 
-  // Variants are also available for _zt_u8, _zt_s16, _zt_u16, _zt_f16,
+  // Variants are also available for _zt_u8, _zt_mf8, _zt_s16, _zt_u16, _zt_f16,
   // _zt_bf16, _zt_s32, _zt_u32 and _zt_f32
   svint8x4_t svluti2_lane_zt_s8_x4(uint64_t zt, svuint8_t zn,
                                    uint64_t imm_idx)
     __arm_streaming __arm_in("zt0");
 
 
-  // Variants are also available for _zt_u8, _zt_s16, _zt_u16, _zt_f16,
+  // Variants are also available for _zt_u8, _zt_mf8, _zt_s16, _zt_u16, _zt_f16,
   // _zt_bf16, _zt_s32, _zt_u32 and _zt_f32
   svint8_t svluti4_lane_zt_s8(uint64_t zt, svuint8_t zn, uint64_t imm_idx)
     __arm_streaming __arm_in("zt0");
 
 
-  // Variants are also available for _zt_u8, _zt_s16, _zt_u16, _zt_f16,
+  // Variants are also available for _zt_u8, _zt_mf8, _zt_s16, _zt_u16, _zt_f16,
   // _zt_bf16, _zt_s32, _zt_u32 and _zt_f32
   svint8x2_t svluti4_lane_zt_s8_x2(uint64_t zt, svuint8_t zn,
                                    uint64_t imm_idx)
@@ -11780,84 +11978,84 @@ Lookup table read with 2-bit and 4-bit indexes
 Move multi-vectors to/from ZA
 
 ``` c
-  // Variants are also available for _za8_u8, _za16_s16, _za16_u16,
+  // Variants are also available for _za8_u8, _za8_mf8, _za16_s16, _za16_u16,
   // _za16_f16, _za16_bf16, _za32_s32, _za32_u32, _za32_f32,
   // _za64_s64, _za64_u64 and _za64_f64
   svint8x2_t svread_hor_za8_s8_vg2(uint64_t tile, uint32_t slice)
     __arm_streaming __arm_in("za");
 
 
-  // Variants are also available for _za8_u8, _za16_s16, _za16_u16,
+  // Variants are also available for _za8_u8, _za8_mf8, _za16_s16, _za16_u16,
   // _za16_f16, _za16_bf16, _za32_s32, _za32_u32, _za32_f32,
   // _za64_s64, _za64_u64 and _za64_f64
   svint8x4_t svread_hor_za8_s8_vg4(uint64_t tile, uint32_t slice)
     __arm_streaming __arm_in("za");
 
 
-  // Variants are also available for _za8_u8, _za16_s16, _za16_u16,
+  // Variants are also available for _za8_u8, _za8_mf8, _za16_s16, _za16_u16,
   // _za16_f16, _za16_bf16, _za32_s32, _za32_u32, _za32_f32,
   // _za64_s64, _za64_u64 and _za64_f64
   svint8x2_t svread_ver_za8_s8_vg2(uint64_t tile, uint32_t slice)
     __arm_streaming __arm_in("za");
 
 
-  // Variants are also available for _za8_u8, _za16_s16, _za16_u16,
+  // Variants are also available for _za8_u8, _za8_mf8, _za16_s16, _za16_u16,
   // _za16_f16, _za16_bf16, _za32_s32, _za32_u32, _za32_f32,
   // _za64_s64, _za64_u64 and _za64_f64
   svint8x4_t svread_ver_za8_s8_vg4(uint64_t tile, uint32_t slice)
     __arm_streaming __arm_in("za");
 
 
-  // Variants are also available for _za8_u8, _za16_s16, _za16_u16,
+  // Variants are also available for _za8_u8, _za8_mf8, _za16_s16, _za16_u16,
   // _za16_f16, _za16_bf16, _za32_s32, _za32_u32, _za32_f32,
   // _za64_s64, _za64_u64 and _za64_f64
   svint8x2_t svread_za8_s8_vg1x2(uint32_t slice)
     __arm_streaming __arm_in("za");
 
 
-  // Variants are also available for _za8_u8, _za16_s16, _za16_u16,
+  // Variants are also available for _za8_u8, _za8_mf8, _za16_s16, _za16_u16,
   // _za16_f16, _za16_bf16, _za32_s32, _za32_u32, _za32_f32,
   // _za64_s64, _za64_u64 and _za64_f64
   svint8x4_t svread_za8_s8_vg1x4(uint32_t slice)
     __arm_streaming __arm_in("za");
 
 
-  // Variants are also available for _za8[_u8], _za16[_s16], _za16[_u16],
+  // Variants are also available for _za8[_u8], _za8[_mf8], _za16[_s16], _za16[_u16],
   // _za16[_f16], _za16[_bf16], _za32[_s32], _za32[_u32], _za32[_f32],
   // _za64[_s64], _za64[_u64] and _za64[_f64]
   void svwrite_hor_za8[_s8]_vg2(uint64_t tile, uint32_t slice, svint8x2_t zn)
     __arm_streaming __arm_inout("za");
 
 
-  // Variants are also available for _za8[_u8], _za16[_s16], _za16[_u16],
+  // Variants are also available for _za8[_u8], _za8[_mf8], _za16[_s16], _za16[_u16],
   // _za16[_f16], _za16[_bf16], _za32[_s32], _za32[_u32], _za32[_f32],
   // _za64[_s64], _za64[_u64] and _za64[_f64]
   void svwrite_hor_za8[_s8]_vg4(uint64_t tile, uint32_t slice, svint8x4_t zn)
     __arm_streaming __arm_inout("za");
 
 
-  // Variants are also available for _za8[_u8], _za16[_s16], _za16[_u16],
+  // Variants are also available for _za8[_u8], _za8[_mf8], _za16[_s16], _za16[_u16],
   // _za16[_f16], _za16[_bf16], _za32[_s32], _za32[_u32], _za32[_f32],
   // _za64[_s64], _za64[_u64] and _za64[_f64]
   void svwrite_ver_za8[_s8]_vg2(uint64_t tile, uint32_t slice, svint8x2_t zn)
     __arm_streaming __arm_inout("za");
 
 
-  // Variants are also available for _za8[_u8], _za16[_s16], _za16[_u16],
+  // Variants are also available for _za8[_u8], _za8[_mf8], _za16[_s16], _za16[_u16],
   // _za16[_f16], _za16[_bf16], _za32[_s32], _za32[_u32], _za32[_f32],
   // _za64[_s64], _za64[_u64] and _za64[_f64]
   void svwrite_ver_za8[_s8]_vg4(uint64_t tile, uint32_t slice, svint8x4_t zn)
     __arm_streaming __arm_inout("za");
 
 
-  // Variants are also available for _za8[_u8], _za16[_s16], _za16[_u16],
+  // Variants are also available for _za8[_u8], _za8[_mf8], _za16[_s16], _za16[_u16],
   // _za16[_f16], _za16[_bf16], _za32[_s32], _za32[_u32], _za32[_f32],
   // _za64[_s64], _za64[_u64] and _za64[_f64]
   void svwrite_za8[_s8]_vg1x2(uint32_t slice, svint8x2_t zn)
     __arm_streaming __arm_inout("za");
 
 
-  // Variants are also available for _za8[_u8], _za16[_s16], _za16[_u16],
+  // Variants are also available for _za8[_u8], za8[_mf8], _za16[_s16], _za16[_u16],
   // _za16[_f16], _za16[_bf16], _za32[_s32], _za32[_u32], _za32[_f32],
   // _za64[_s64], _za64[_u64] and _za64[_f64]
   void svwrite_za8[_s8]_vg1x4(uint32_t slice, svint8x4_t zn)
@@ -11909,13 +12107,13 @@ Multi-vector clamp to minimum/maximum vector
 Multi-vector conditionally select elements from two vectors
 
 ``` c
-  // Variants are also available for _s8_x2, _u16_x2, _s16_x2, _f16_x2,
+  // Variants are also available for _s8_x2, _mf8_x2, _u16_x2, _s16_x2, _f16_x2,
   // _bf16_x2, _u32_x2, _s32_x2, _f32_x2, _u64_x2, _s64_x2 and _f64_x2
   svuint8x2_t svsel[_u8_x2](svcount_t png, svuint8x2_t zn, svuint8x2_t zm)
     __arm_streaming;
 
 
-  // Variants are also available for _s8_x4, _u16_x4, _s16_x4, _f16_x4,
+  // Variants are also available for _s8_x4, _mf8_x4, _u16_x4, _s16_x4, _f16_x4,
   // _bf16_x4, _u32_x4, _s32_x4, _f32_x4, _u64_x4, _s64_x4 and _f64_x4
   svuint8x4_t svsel[_u8_x4](svcount_t png, svuint8x4_t zn, svuint8x4_t zm)
     __arm_streaming;
@@ -12065,12 +12263,12 @@ Multi-vector pack/unpack
 Multi-vector zip.
 
 ``` c
-  // Variants are also available for _u8_x2, _u16_x2, _s16_x2, _f16_x2,
+  // Variants are also available for _u8_x2, _mf8_x2, _u16_x2, _s16_x2, _f16_x2,
   // _bf16_x2, _u32_x2, _s32_x2, _f32_x2, _u64_x2, _s64_x2 and _f64_x2
   svint8x2_t svzip[_s8_x2](svint8x2_t zn) __arm_streaming;
 
 
-  // Variants are also available for _u8_x4, _u16_x4, _s16_x4, _f16_x4,
+  // Variants are also available for _u8_x4, _mf8_x4, _u16_x4, _s16_x4, _f16_x4,
   // _bf16_x4, _u32_x4, _s32_x4, _f32_x4, _u64_x4, _s64_x4 and _f64_x4
   svint8x4_t svzip[_s8_x4](svint8x4_t zn) __arm_streaming;
   ```
@@ -12080,12 +12278,12 @@ element types.
 
 
 ``` c
-  // Variants are also available for _u8_x2, _u16_x2, _s16_x2, _f16_x2,
+  // Variants are also available for _u8_x2, _mf8_x2, _u16_x2, _s16_x2, _f16_x2,
   // _bf16_x2, _u32_x2, _s32_x2, _f32_x2, _u64_x2, _s64_x2 and _f64_x2
   svint8x2_t svzipq[_s8_x2](svint8x2_t zn) __arm_streaming;
 
 
-  // Variants are also available for _u8_x4, _u16_x4, _s16_x4, _f16_x4,
+  // Variants are also available for _u8_x4, _mf8_x4, _u16_x4, _s16_x4, _f16_x4,
   // _bf16_x4, _u32_x4, _s32_x4, _f32_x4, _u64_x4, _s64_x4 and _f64_x4
   svint8x4_t svzipq[_s8_x4](svint8x4_t zn) __arm_streaming;
   ```
@@ -12095,12 +12293,12 @@ element types.
 Multi-vector unzip.
 
 ``` c
-  // Variants are also available for _u8_x2, _u16_x2, _s16_x2, _f16_x2,
+  // Variants are also available for _u8_x2, _mf8_x2, _u16_x2, _s16_x2, _f16_x2,
   // _bf16_x2, _u32_x2, _s32_x2, _f32_x2, _u64_x2, _s64_x2 and _f64_x2
   svint8x2_t svuzp[_s8_x2](svint8x2_t zn) __arm_streaming;
 
 
-  // Variants are also available for _u8_x4, _u16_x4, _s16_x4, _f16_x4,
+  // Variants are also available for _u8_x4, _mf8_x4, _u16_x4, _s16_x4, _f16_x4,
   // _bf16_x4, _u32_x4, _s32_x4, _f32_x4, _u64_x4, _s64_x4 and _f64_x4
   svint8x4_t svuzp[_s8_x4](svint8x4_t zn) __arm_streaming;
   ```
@@ -12109,12 +12307,12 @@ The `svuzpq` intrinsics operate on quad-words, but for convenience accept all
 element types.
 
 ``` c
-  // Variants are also available for _u8_x2, _u16_x2, _s16_x2, _f16_x2,
+  // Variants are also available for _u8_x2, _mf8_x2, _u16_x2, _s16_x2, _f16_x2,
   // _bf16_x2, _u32_x2, _s32_x2, _f32_x2, _u64_x2, _s64_x2 and _f64_x2
   svint8x2_t svuzpq[_s8_x2](svint8x2_t zn) __arm_streaming;
 
 
-  // Variants are also available for _u8_x4, _u16_x4, _s16_x4, _f16_x4,
+  // Variants are also available for _u8_x4, _mf8_x4, _u16_x4, _s16_x4, _f16_x4,
   // _bf16_x4, _u32_x4, _s32_x4, _f32_x4, _u64_x4, _s64_x4 and _f64_x4
   svint8x4_t svuzpq[_s8_x4](svint8x4_t zn) __arm_streaming;
   ```
@@ -12341,20 +12539,20 @@ Multi-vector dot-product (2-way)
 Contiguous load to multi-vector
 
 ``` c
-  // Variants are also available for _s8
+  // Variants are also available for _s8, _mf8
   svuint8x2_t svld1[_u8]_x2(svcount_t png, const uint8_t *rn);
 
 
-  // Variants are also available for _s8
+  // Variants are also available for _s8, _mf8
   svuint8x4_t svld1[_u8]_x4(svcount_t png, const uint8_t *rn);
 
 
-  // Variants are also available for _s8
+  // Variants are also available for _s8, _mf8
   svuint8x2_t svld1_vnum[_u8]_x2(svcount_t png, const uint8_t *rn,
                                  int64_t vnum);
 
 
-  // Variants are also available for _s8
+  // Variants are also available for _s8, _mf8
   svuint8x4_t svld1_vnum[_u8]_x4(svcount_t png, const uint8_t *rn,
                                  int64_t vnum);
 
@@ -12418,20 +12616,20 @@ Contiguous load to multi-vector
 Contiguous non-temporal load to multi-vector
 
 ``` c
-  // Variants are also available for _s8
+  // Variants are also available for _s8, _mf8
   svuint8x2_t svldnt1[_u8]_x2(svcount_t png, const uint8_t *rn);
 
 
-  // Variants are also available for _s8
+  // Variants are also available for _s8, _mf8
   svuint8x4_t svldnt1[_u8]_x4(svcount_t png, const uint8_t *rn);
 
 
-  // Variants are also available for _s8
+  // Variants are also available for _s8, _mf8
   svuint8x2_t svldnt1_vnum[_u8]_x2(svcount_t png, const uint8_t *rn,
                                    int64_t vnum);
 
 
-  // Variants are also available for _s8
+  // Variants are also available for _s8, _mf8
   svuint8x4_t svldnt1_vnum[_u8]_x4(svcount_t png, const uint8_t *rn,
                                    int64_t vnum);
 
@@ -12555,19 +12753,19 @@ Reverse doublewords in elements.
   // All the intrinsics below are [SME]
   // Variants are available for:
   // _s8, _s16, _u16, _s32, _u32, _s64, _u64
-  // _bf16, _f16, _f32, _f64
+  // _mf8, _bf16, _f16, _f32, _f64
   svuint8_t svrevd[_u8]_m(svuint8_t zd, svbool_t pg, svuint8_t zn);
 
 
   // Variants are available for:
   // _s8, _s16, _u16, _s32, _u32, _s64, _u64
-  // _bf16, _f16, _f32, _f64
+  // _mf8, _bf16, _f16, _f32, _f64
   svuint8_t svrevd[_u8]_z(svbool_t pg, svuint8_t zn);
 
 
   // Variants are available for:
   // _s8, _s16, _u16, _s32, _u32, _s64, _u64
-  // _bf16, _f16, _f32, _f64
+  // _mf8, _bf16, _f16, _f32, _f64
   svuint8_t svrevd[_u8]_x(svbool_t pg, svuint8_t zn);
   ```
 
@@ -12602,20 +12800,20 @@ Multi-vector saturating rounding shift right unsigned narrow and interleave
 Contiguous store of multi-vector operand
 
 ``` c
-  // Variants are also available for _s8_x2
+  // Variants are also available for _s8_x2, _mf8_x2
   void svst1[_u8_x2](svcount_t png, uint8_t *rn, svuint8x2_t zt);
 
 
-  // Variants are also available for _s8_x4
+  // Variants are also available for _s8_x4, _mf8_x4
   void svst1[_u8_x4](svcount_t png, uint8_t *rn, svuint8x4_t zt);
 
 
-  // Variants are also available for _s8_x2
+  // Variants are also available for _s8_x2, _mf8_x2
   void svst1_vnum[_u8_x2](svcount_t png, uint8_t *rn, int64_t vnum,
                           svuint8x2_t zt);
 
 
-  // Variants are also available for _s8_x4
+  // Variants are also available for _s8_x4, _mf8_x4
   void svst1_vnum[_u8_x4](svcount_t png, uint8_t *rn, int64_t vnum,
                           svuint8x4_t zt);
 
@@ -12679,20 +12877,20 @@ Contiguous store of multi-vector operand
 Contiguous non-temporal store of multi-vector operand
 
 ``` c
-  // Variants are also available for _s8_x2
+  // Variants are also available for _s8_x2, _mf8_x2
   void svstnt1[_u8_x2](svcount_t png, uint8_t *rn, svuint8x2_t zt);
 
 
-  // Variants are also available for _s8_x4
+  // Variants are also available for _s8_x4, _mf8_x4
   void svstnt1[_u8_x4](svcount_t png, uint8_t *rn, svuint8x4_t zt);
 
 
-  // Variants are also available for _s8_x2
+  // Variants are also available for _s8_x2, _mf8_x2
   void svstnt1_vnum[_u8_x2](svcount_t png, uint8_t *rn, int64_t vnum,
                             svuint8x2_t zt);
 
 
-  // Variants are also available for _s8_x4
+  // Variants are also available for _s8_x4, _mf8_x4
   void svstnt1_vnum[_u8_x4](svcount_t png, uint8_t *rn, int64_t vnum,
                             svuint8x4_t zt);
 
@@ -12858,6 +13056,384 @@ Lookup table read with 4-bit indexes and 8-bit elements.
   svint8x4_t svluti4_zt_s8_x4(uint64_t zt0, svuint8x2_t zn) __arm_streaming __arm_in("zt0");
 ```
 
+### SVE2 and SME2 modal 8-bit floating-point intrinsics
+
+The intrinsics in this section are defined by the header file
+[`<arm_sve.h>`](#arm_sve.h) when `__ARM_FEATURE_FP8` is defined,
+and `__ARM_FEATURE_SVE2` or `__ARM_FEATURE_SME2` is defined. Individual
+intrinsics may have additional target feature requirements.
+
+#### BF1CVT, BF2CVT, F1CVT, F2CVT
+
+8-bit floating-point convert to half-precision and BFloat16.
+``` c
+  // Variants are also available for: _bf16
+  svfloat16_t svcvt1_f16[_mf8]_fpm(svmfloat8_t zn, fpm_t fpm);
+  svfloat16_t svcvt2_f16[_mf8]_fpm(svmfloat8_t zn, fpm_t fpm);
+```
+
+#### BF1CVTLT, BF2CVTLT, F1CVTLT, F2CVTLT
+
+8-bit floating-point convert to half-precision and BFloat16 (top).
+``` c
+  // Variants are also available for: _bf16
+  svfloat16_t svcvtlt1_f16[_mf8]_fpm(svmfloat8_t zn, fpm_t fpm);
+  svfloat16_t svcvtlt2_f16[_mf8]_fpm(svmfloat8_t zn, fpm_t fpm);
+```
+
+#### BFCVTN, FCVTN
+
+Half-precision and BFloat16 convert, narrow and interleave to 8-bit
+floating-point.
+``` c
+  // Variant is also available for: _bf16_x2
+  svmfloat8_t svcvtn_mf8[_f16_x2]_fpm(svfloat16x2_t zn, fpm_t fpm);
+```
+
+#### FCVTNT, FCVTNB
+
+Single-precision convert, narrow and interleave to 8-bit floating-point (top and bottom).
+``` c
+  svmfloat8_t svcvtnt_mf8[_f32_x2]_fpm(svmfloat8_t zd, svfloat32x2_t zn, fpm_t fpm);
+  svmfloat8_t svcvtnb_mf8[_f32_x2]_fpm(svmfloat8_t zd, svfloat32x2_t zn, fpm_t fpm);
+```
+
+#### FDOT (4-way, vectors)
+
+8-bit floating-point dot product to single-precision.
+``` c
+  // Only if (__ARM_FEATURE_SVE2  && __ARM_FEATURE_FP8DOT4) || __ARM_FEATURE_SSVE_FP8DOT4
+  svfloat32_t svdot[_f32_mf8]_fpm(svfloat32_t zda, svmfloat8_t zn, svmfloat8_t zm, fpm_t fpm);
+```
+
+#### FDOT (4-way, indexed)
+
+8-bit floating-point indexed dot product to single-precision.
+``` c
+  // Only if (__ARM_FEATURE_SVE2  && __ARM_FEATURE_FP8DOT4) || __ARM_FEATURE_SSVE_FP8DOT4
+  svfloat32_t svdot_lane[_f32_mf8]_fpm(svfloat32_t zda, svmfloat8_t zn, svmfloat8_t zm,
+                                       uint64_t imm0_3, fpm_t fpm);
+```
+
+#### FDOT (2-way, vectors, FP8 to FP16)
+
+8-bit floating-point dot product to half-precision.
+``` c
+  // Only if (__ARM_FEATURE_SVE2  && __ARM_FEATURE_FP8DOT2) || __ARM_FEATURE_SSVE_FP8DOT2
+  svfloat16_t svdot[_f16_mf8]_fpm(svfloat16_t zda, svmfloat8_t zn, svmfloat8_t zm, fpm_t fpm);
+```
+
+#### FDOT (2-way, indexed, FP8 to FP16)
+
+8-bit floating-point dot product to half-precision.
+``` c
+  // Only if (__ARM_FEATURE_SVE2  && __ARM_FEATURE_FP8DOT2) || __ARM_FEATURE_SSVE_FP8DOT2
+  svfloat16_t svdot_lane[_f16_mf8]_fpm(svfloat16_t zda, svmfloat8_t zn, svmfloat8_t zm,
+                                       uint64_t imm0_7, fpm_t fpm);
+```
+
+#### FMLALB (vectors, FP8 to FP16)
+
+8-bit floating-point multiply-add long to half-precision (bottom).
+``` c
+  // Only if (__ARM_FEATURE_SVE2  && __ARM_FEATURE_FP8FMA) || __ARM_FEATURE_SSVE_FP8FMA
+  svfloat16_t svmlalb[_f16_mf8]_fpm(svfloat16_t zda, svmfloat8_t zn, svmfloat8_t zm, fpm_t fpm);
+  svfloat16_t svmlalb[_n_f16_mf8]_fpm(svfloat16_t zda, svmfloat8_t zn, mfloat8_t zm, fpm_t fpm);
+```
+
+#### FMLALB (indexed, FP8 to FP16)
+
+8-bit floating-point multiply-add long to half-precision (bottom, indexed).
+``` c
+  // Only if (__ARM_FEATURE_SVE2  && __ARM_FEATURE_FP8FMA) || __ARM_FEATURE_SSVE_FP8FMA
+  svfloat16_t svmlalb_lane[_f16_mf8]_fpm(svfloat16_t zda, svmfloat8_t zn, svmfloat8_t zm,
+                                         uint64_t imm0_15, fpm_t fpm);
+```
+
+#### FMLALLBB (vectors)
+
+8-bit floating-point multiply-add long long to single-precision (bottom bottom).
+``` c
+  // Only if (__ARM_FEATURE_SVE2  && __ARM_FEATURE_FP8FMA) || __ARM_FEATURE_SSVE_FP8FMA
+  svfloat32_t svmlallbb[_f32_mf8]_fpm(svfloat32_t zda, svmfloat8_t zn, svmfloat8_t zm, fpm_t fpm);
+  svfloat32_t svmlallbb[_n_f32_mf8]_fpm(svfloat32_t zda, svmfloat8_t zn, mfloat8_t zm, fpm_t fpm);
+```
+
+#### FMLALLBB (indexed)
+
+8-bit floating-point multiply-add long long to single-precision (bottom bottom, indexed).
+``` c
+  // Only if (__ARM_FEATURE_SVE2  && __ARM_FEATURE_FP8FMA) || __ARM_FEATURE_SSVE_FP8FMA
+  svfloat32_t svmlallbb_lane[_f32_mf8]_fpm(svfloat32_t zda, svmfloat8_t zn, svmfloat8_t zm,
+                                           uint64_t imm0_15, fpm_t fpm);
+```
+
+#### FMLALLBT (vectors)
+
+8-bit floating-point multiply-add long long to single-precision (bottom top).
+``` c
+  // Only if (__ARM_FEATURE_SVE2  && __ARM_FEATURE_FP8FMA) || __ARM_FEATURE_SSVE_FP8FMA
+  svfloat32_t svmlallbt[_f32_mf8]_fpm(svfloat32_t zda, svmfloat8_t zn, svmfloat8_t zm, fpm_t fpm);
+  svfloat32_t svmlallbt[_n_f32_mf8]_fpm(svfloat32_t zda, svmfloat8_t zn, mfloat8_t zm, fpm_t fpm);
+```
+
+#### FMLALLBT (indexed)
+
+8-bit floating-point multiply-add long long to single-precision (bottom top, indexed).
+``` c
+  // Only if (__ARM_FEATURE_SVE2  && __ARM_FEATURE_FP8FMA) || __ARM_FEATURE_SSVE_FP8FMA
+  svfloat32_t svmlallbt_lane[_f32_mf8]_fpm(svfloat32_t zda, svmfloat8_t zn, svmfloat8_t zm,
+                                           uint64_t imm0_15, fpm_t fpm);
+```
+
+#### FMLALLTB (vectors)
+
+8-bit floating-point multiply-add long long to single-precision (top bottom).
+``` c
+  // Only if (__ARM_FEATURE_SVE2  && __ARM_FEATURE_FP8FMA) || __ARM_FEATURE_SSVE_FP8FMA
+  svfloat32_t svmlalltb[_f32_mf8]_fpm(svfloat32_t zda, svmfloat8_t zn, svmfloat8_t zm, fpm_t fpm);
+  svfloat32_t svmlalltb[_n_f32_mf8]_fpm(svfloat32_t zda, svmfloat8_t zn, mfloat8_t zm, fpm_t fpm);
+```
+
+#### FMLALLTB (indexed)
+
+8-bit floating-point multiply-add long long to single-precision (top bottom, indexed).
+``` c
+  // Only if (__ARM_FEATURE_SVE2  && __ARM_FEATURE_FP8FMA) || __ARM_FEATURE_SSVE_FP8FMA
+  svfloat32_t svmlalltb_lane[_f32_mf8]_fpm(svfloat32_t zda, svmfloat8_t zn, svmfloat8_t zm,
+                                           uint64_t imm0_15, fpm_t fpm);
+```
+
+#### FMLALLTT (vectors)
+
+8-bit floating-point multiply-add long long to single-precision (top top).
+``` c
+  // Only if (__ARM_FEATURE_SVE2  && __ARM_FEATURE_FP8FMA) || __ARM_FEATURE_SSVE_FP8FMA
+  svfloat32_t svmlalltt[_f32_mf8]_fpm(svfloat32_t zda, svmfloat8_t zn, svmfloat8_t zm, fpm_t fpm);
+  svfloat32_t svmlalltt[_n_f32_mf8]_fpm(svfloat32_t zda, svmfloat8_t zn, mfloat8_t zm, fpm_t fpm);
+```
+
+#### FMLALLTT (indexed)
+
+8-bit floating-point multiply-add long long to single-precision (top top, indexed).
+``` c
+  // Only if (__ARM_FEATURE_SVE2  && __ARM_FEATURE_FP8FMA) || __ARM_FEATURE_SSVE_FP8FMA
+  svfloat32_t svmlalltt_lane[_f32_mf8]_fpm(svfloat32_t zda, svmfloat8_t zn, svmfloat8_t zm,
+                                           uint64_t imm0_15, fpm_t fpm);
+```
+
+#### FMLALT (vectors, FP8 to FP16)
+
+8-bit floating-point multiply-add long to half-precision (top).
+```c
+  // Only if (__ARM_FEATURE_SVE2  && __ARM_FEATURE_FP8FMA) || __ARM_FEATURE_SSVE_FP8FMA
+  svfloat16_t svmlalt[_f16_mf8]_fpm(svfloat16_t zda, svmfloat8_t zn, svmfloat8_t zm, fpm_t fpm);
+  svfloat16_t svmlalt[_n_f16_mf8]_fpm(svfloat16_t zda, svmfloat8_t zn, mfloat8_t zm, fpm_t fpm);
+```
+
+#### FMLALT (indexed, FP8 to FP16)
+
+8-bit floating-point multiply-add long to half-precision (top, indexed).
+```c
+  // Only if (__ARM_FEATURE_SVE2  && __ARM_FEATURE_FP8FMA) || __ARM_FEATURE_SSVE_FP8FMA
+  svfloat16_t svmlalt_lane[_f16_mf8]_fpm(svfloat16_t zda, svmfloat8_t zn, svmfloat8_t zm,
+                                         uint64_t imm0_15, fpm_t fpm);
+```
+
+### SME2 modal 8-bit floating-point intrinsics
+
+The intrinsics in this section are defined by the header file
+[`<arm_sme.h>`](#arm_sme.h) when `__ARM_FEATURE_SME2` and
+`__ARM_FEATURE_FP8` are defined. Individual intrinsics may have
+additional target feature requirements.
+
+#### BF1CVT, BF2CVT, F1CVT, F2CVT
+
+8-bit floating-point convert to half-precision or BFloat16.
+``` c
+  // Variant is also available for: _bf16[_mf8]_x2
+  svfloat16x2_t svcvt1_f16[_mf8]_x2_fpm(svmfloat8_t zn, fpm_t fpm) __arm_streaming;
+  svfloat16x2_t svcvt2_f16[_mf8]_x2_fpm(svmfloat8_t zn, fpm_t fpm) __arm_streaming;
+```
+
+#### BF1CVTL, BF2CVTL, F1CVTL, F2CVTL
+
+8-bit floating-point convert to deinterleaved half-precision or BFloat16.
+``` c
+  // Variant is also available for: _bf16[_mf8]_x2
+  svfloat16x2_t svcvtl1_f16[_mf8]_x2_fpm(svmfloat8_t zn, fpm_t fpm) __arm_streaming;
+  svfloat16x2_t svcvtl2_f16[_mf8]_x2_fpm(svmfloat8_t zn, fpm_t fpm) __arm_streaming;
+```
+
+#### BFCVT, FCVT
+
+Convert to packed 8-bit floating-point format.
+``` c
+  // Variants are also available for: _mf8[_bf16_x2] and _mf8[_f32_x4]
+  svmfloat8_t svcvt_mf8[_f16_x2]_fpm(svfloat16x2_t zn, fpm_t fpm) __arm_streaming;
+```
+
+#### FCVTN
+
+Convert to interleaved 8-bit floating-point format.
+``` c
+  svmfloat8_t svcvtn_mf8[_f32_x4]_fpm(svfloat32x4_t zn, fpm_t fpm) __arm_streaming;
+```
+
+#### FSCALE
+``` c
+  // Variants are also available for:
+  // [_single_f32_x2], [_single_f64_x2],
+  // [_single_f16_x4], [_single_f32_x4] and [_single_f64_x4]
+  svfloat16x2_t svscale[_single_f16_x2](svfloat16x2_t zd, svint16_t zm) __arm_streaming;
+
+  // Variants are also available for:
+  //  [_f32_x2], [_f64_x2],
+  //  [_f16_x4], [_f32_x4] and [_f64_x4]
+  svfloat16x2_t svscale[_f16_x2](svfloat16x2_t zd, svint16x2_t zm) __arm_streaming;
+```
+
+#### FDOT
+
+Multi-vector 8-bit floating-point dot-product.
+``` c
+  // Available variants are: _za16 if __ARM_FEATURE_SME_F8F16 != 0
+  //                         _za32 if __ARM_FEATURE_SME_F8F32 != 0
+  void svdot_lane_za16[_mf8]_vg1x2_fpm(uint32_t slice, svmfloat8x2_t zn,
+                                       svmfloat8_t zm, uint64_t imm_idx,
+                                       fpm_t fpm) __arm_streaming __arm_inout("za");
+
+  void svdot_lane_za16[_mf8]_vg1x4_fpm(uint32_t slice, svmfloat8x4_t zn,
+                                      svmfloat8_t zm, uint64_t imm_idx,
+                                      fpm_t fpm) __arm_streaming __arm_inout("za");
+
+  void svdot[_single]_za16[_mf8]_vg1x2_fpm(uint32_t slice, svmfloat8x2_t zn,
+                                           svmfloat8_t zm, fpm_t fpm)
+                                           __arm_streaming __arm_inout("za");
+
+  void svdot[_single]_za16[_mf8]_vg1x4_fpm(uint32_t slice, svmfloat8x4_t zn,
+                                           svmfloat8_t zm, fpm_t fpm)
+                                           __arm_streaming __arm_inout("za");
+
+  void svdot_za16[_mf8]_vg1x2_fpm(uint32_t slice, svmfloat8x2_t zn, svmfloat8x2_t zm,
+                                  fpm_t fpm) __arm_streaming __arm_inout("za");
+
+  void svdot_za16[_mf8]_vg1x4_fpm(uint32_t slice, svmfloat8x4_t zn, svmfloat8x4_t zm,
+                                  fpm_t fpm)  __arm_streaming __arm_inout("za");
+```
+
+#### FVDOT
+
+Multi-vector 8-bit floating-point vertical dot-product by indexed element to
+half-precision.
+``` c
+  // Only if __ARM_FEATURE_SME_F8F16 != 0
+  void svvdot_lane_za16[_mf8]_vg1x2_fpm(uint32_t slice, svmfloat8x2_t zn,
+                                        svmfloat8_t zm, uint64_t imm_idx,
+                                        fpm_t fpm)  __arm_streaming __arm_inout("za");
+```
+
+#### FVDOTB, FVDOTT
+
+Multi-vector 8-bit floating-point vertical dot-product.
+``` c
+  // Only if __ARM_FEATURE_SME_F8F32 != 0
+  void svvdott_lane_za32[_mf8]_vg1x4_fpm(uint32_t slice, svmfloat8x2_t zn,
+                                         svmfloat8_t zm, uint64_t imm_idx,
+                                         fpm_t fpm) __arm_streaming __arm_inout("za");
+
+  void svvdotb_lane_za32[_mf8]_vg1x4_fpm(uint32_t slice, svmfloat8x2_t zn,
+                                         svmfloat8_t zm, uint64_t imm_idx,
+                                         fpm_t fpm) __arm_streaming __arm_inout("za");
+```
+
+#### FMLAL
+
+Multi-vector 8-bit floating-point multiply-add long.
+``` c
+  // Only if __ARM_FEATURE_SME_F8F16 != 0
+  void svmla_lane_za16[_mf8]_vg2x1_fpm(uint32_t slice, svmfloat8_t zn,
+                                       svmfloat8_t zm, uint64_t imm_idx,
+                                       fpm_t fpm)  __arm_streaming __arm_inout("za");
+
+  void svmla_lane_za16[_mf8]_vg2x2_fpm(uint32_t slice, svmfloat8x2_t zn,
+                                       svmfloat8_t zm, uint64_t imm_idx,
+                                       fpm_t fpm)  __arm_streaming __arm_inout("za");
+
+  void svmla_lane_za16[_mf8]_vg2x4_fpm(uint32_t slice, svmfloat8x4_t zn,
+                                       svmfloat8_t zm, uint64_t imm_idx
+                                       fpm_t fpm) __arm_streaming __arm_inout("za");
+
+  void svmla[_single]_za16[_mf8]_vg2x1_fpm(uint32_t slice, svmfloat8_t zn,
+                                           svmfloat8_t zm, fpm_t fpm)
+                                           __arm_streaming __arm_inout("za");
+
+  void svmla[_single]_za16[_mf8]_vg2x2_fpm(uint32_t slice, svmfloat8x2_t zn,
+                                           svmfloat8_t zm, fpm_t fpm)
+                                           __arm_streaming __arm_inout("za");
+
+  void svmla[_single]_za16[_mf8]_vg2x4_fpm(uint32_t slice, svmfloat8x4_t zn,
+                                           svmfloat8_t zm, fpm_t fpm)
+                                           __arm_streaming __arm_inout("za");
+
+  void svmla_za16[_mf8]_vg2x2_fpm(uint32_t slice, svmfloat8x2_t zn, svmfloat8x2_t zm,
+                                  fpm_t fpm) __arm_streaming __arm_inout("za");
+
+  void svmla_za16[_mf8]_vg2x4_fpm(uint32_t slice, svmfloat8x4_t zn, svmfloat8x4_t zm,
+                                  fpm_t fpm) __arm_streaming __arm_inout("za");
+```
+
+#### FMLALL
+
+Multi-vector 8-bit floating-point multiply-add long.
+``` c
+// Only if __ARM_FEATURE_SME_F8F32 != 0
+  void svmla_lane_za32[_mf8]_vg4x1_fpm(uint32_t slice, svmfloat8_t zn,
+                                       svmfloat8_t zm, uint64_t imm_idx,
+                                       fpm_t fpm)__arm_streaming __arm_inout("za");
+
+  void svmla_lane_za32[_mf8]_vg4x2_fpm(uint32_t slice, svmfloat8x2_t zn,
+                                       svmfloat8_t zm, uint64_t imm_idx,
+                                       fpm_t fpm)__arm_streaming __arm_inout("za");
+
+  void svmla_lane_za32[_mf8]_vg4x4_fpm(uint32_t slice, svmfloat8x4_t zn,
+                                       svmfloat8_t zm, uint64_t imm_idx,
+                                       fpm_t fpm)__arm_streaming __arm_inout("za");
+
+  void svmla[_single]_za32[_mf8]_vg4x1_fpm(uint32_t slice, svmfloat8_t zn,
+                                           svmfloat8_t zm, fpm_t fpm)
+                                           __arm_streaming __arm_inout("za");
+
+  void svmla[_single]_za32[_mf8]_vg4x2_fpm(uint32_t slice, svmfloat8x2_t zn,
+                                           svmfloat8_t zm, fpm_t fpm)
+                                           __arm_streaming __arm_inout("za");
+
+  void svmla[_single]_za32[_mf8]_vg4x4_fpm(uint32_t slice, svmfloat8x4_t zn,
+                                           svmfloat8_t zm, fpm_t fpm)
+                                           __arm_streaming __arm_inout("za");
+
+  void svmla_za32[_mf8]_vg4x2_fpm(uint32_t slice, svmfloat8x2_t zn, svmfloat8x2_t zm,
+                                  fpm_t fpm) __arm_streaming __arm_inout("za");
+
+  void svmla_za32[_mf8]_vg4x4_fpm(uint32_t slice, svmfloat8x4_t zn, svmfloat8x4_t zm,
+                                  fpm_t fpm) __arm_streaming __arm_inout("za");
+```
+
+#### FMOPA
+
+8-bit floating-point sum of outer products and accumulate.
+``` c
+  // Only if __ARM_FEATURE_SME_F8F16 != 0
+    void svmopa_za16[_mf8]_m_fpm(uint64_t tile, svbool_t pn, svbool_t pm,
+                                 svmfloat8_t zn, svmfloat8_t zm, fpm_t fpm)
+                                 __arm_streaming __arm_inout("za");
+
+  // Only if __ARM_FEATURE_SME_F8F32 != 0
+    void svmopa_za32[_mf8]_m_fpm(uint64_t tile, svbool_t pn, svbool_t pm,
+                                 svmfloat8_t zn, svmfloat8_t zm, fpm_t fpm)
+                                 __arm_streaming __arm_inout("za");
+```
+
 # M-profile Vector Extension (MVE) intrinsics
 
 The M-profile Vector Extension (MVE) [[MVE-spec]](#MVE-spec) instructions provide packed Single
@@ -13340,6 +13916,7 @@ additional instructions.
 | `svfloat32_t svset_neonq[_f32](svfloat32_t vec, float32x4_t subvec)`     |
 | `svfloat64_t svset_neonq[_f64](svfloat64_t vec, float64x2_t subvec)`     |
 | `svbfloat16_t svset_neonq[_bf16](svbfloat16_t vec, bfloat16x8_t subvec)` |
+| `svmfloat8_t svset_neonq[_mf8](svmfloat8_t vec, mfloat8x16_t subvec)`    |
 
 ### `svget_neonq`
 
@@ -13360,6 +13937,7 @@ NEON vector.
 | `float32x4_t svget_neonq[_f32](svfloat32_t vec)`    |
 | `float64x2_t svget_neonq[_f64](svfloat64_t vec)`    |
 | `bfloat16x8_t svget_neonq[_bf16](svbfloat16_t vec)` |
+| `mfloat8x16_t svget_neonq[_mf8](svmfloat8_t vec)`   |
 
 ### `svdup_neonq`
 
@@ -13380,6 +13958,7 @@ duplicated NEON vector `vec`.
 | `svfloat32_t svdup_neonq[_f32](float32x4_t vec)`    |
 | `svfloat64_t svdup_neonq[_f64](float64x2_t vec)`    |
 | `svbfloat16_t svdup_neonq[_bf16](bfloat16x8_t vec)` |
+| `svmfloat8_t svdup_neonq[_mf8](mfloat8x16_t vec)`   |
 
 # Future directions
 
diff --git a/neon_intrinsics/advsimd.md b/neon_intrinsics/advsimd.md
index c8056afa..392df44d 100644
--- a/neon_intrinsics/advsimd.md
+++ b/neon_intrinsics/advsimd.md
@@ -2133,394 +2133,452 @@ The intrinsics in this section are guarded by the macro ``__ARM_NEON``.
 
 #### Reinterpret casts
 
-| Intrinsic                                                                                                                                                                             | Argument preparation   | AArch64 Instruction   | Result             | Supported architectures   |
-|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------|-----------------------|--------------------|---------------------------|
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_s8" target="_blank">vreinterpret_s16_s8</a>(int8x8_t a)</code>          | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_s8" target="_blank">vreinterpret_s32_s8</a>(int8x8_t a)</code>          | `a -> Vd.8B`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_s8" target="_blank">vreinterpret_f32_s8</a>(int8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_s8" target="_blank">vreinterpret_u8_s8</a>(int8x8_t a)</code>            | `a -> Vd.8B`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_s8" target="_blank">vreinterpret_u16_s8</a>(int8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_s8" target="_blank">vreinterpret_u32_s8</a>(int8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_s8" target="_blank">vreinterpret_p8_s8</a>(int8x8_t a)</code>            | `a -> Vd.8B`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_s8" target="_blank">vreinterpret_p16_s8</a>(int8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_s8" target="_blank">vreinterpret_u64_s8</a>(int8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_s8" target="_blank">vreinterpret_s64_s8</a>(int8x8_t a)</code>          | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_s8" target="_blank">vreinterpret_f64_s8</a>(int8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_s8" target="_blank">vreinterpret_p64_s8</a>(int8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
-| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_s8" target="_blank">vreinterpret_f16_s8</a>(int8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_s16" target="_blank">vreinterpret_s8_s16</a>(int16x4_t a)</code>          | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_s16" target="_blank">vreinterpret_s32_s16</a>(int16x4_t a)</code>       | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_s16" target="_blank">vreinterpret_f32_s16</a>(int16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_s16" target="_blank">vreinterpret_u8_s16</a>(int16x4_t a)</code>         | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_s16" target="_blank">vreinterpret_u16_s16</a>(int16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_s16" target="_blank">vreinterpret_u32_s16</a>(int16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_s16" target="_blank">vreinterpret_p8_s16</a>(int16x4_t a)</code>         | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_s16" target="_blank">vreinterpret_p16_s16</a>(int16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_s16" target="_blank">vreinterpret_u64_s16</a>(int16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_s16" target="_blank">vreinterpret_s64_s16</a>(int16x4_t a)</code>       | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_s16" target="_blank">vreinterpret_f64_s16</a>(int16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_s16" target="_blank">vreinterpret_p64_s16</a>(int16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
-| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_s16" target="_blank">vreinterpret_f16_s16</a>(int16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_s32" target="_blank">vreinterpret_s8_s32</a>(int32x2_t a)</code>          | `a -> Vd.2S`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_s32" target="_blank">vreinterpret_s16_s32</a>(int32x2_t a)</code>       | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_s32" target="_blank">vreinterpret_f32_s32</a>(int32x2_t a)</code>     | `a -> Vd.2S`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_s32" target="_blank">vreinterpret_u8_s32</a>(int32x2_t a)</code>         | `a -> Vd.2S`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_s32" target="_blank">vreinterpret_u16_s32</a>(int32x2_t a)</code>      | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_s32" target="_blank">vreinterpret_u32_s32</a>(int32x2_t a)</code>      | `a -> Vd.2S`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_s32" target="_blank">vreinterpret_p8_s32</a>(int32x2_t a)</code>         | `a -> Vd.2S`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_s32" target="_blank">vreinterpret_p16_s32</a>(int32x2_t a)</code>      | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_s32" target="_blank">vreinterpret_u64_s32</a>(int32x2_t a)</code>      | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_s32" target="_blank">vreinterpret_s64_s32</a>(int32x2_t a)</code>       | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_s32" target="_blank">vreinterpret_f64_s32</a>(int32x2_t a)</code>     | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_s32" target="_blank">vreinterpret_p64_s32</a>(int32x2_t a)</code>      | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
-| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_s32" target="_blank">vreinterpret_f16_s32</a>(int32x2_t a)</code>     | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_f32" target="_blank">vreinterpret_s8_f32</a>(float32x2_t a)</code>        | `a -> Vd.2S`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_f32" target="_blank">vreinterpret_s16_f32</a>(float32x2_t a)</code>     | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_f32" target="_blank">vreinterpret_s32_f32</a>(float32x2_t a)</code>     | `a -> Vd.2S`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_f32" target="_blank">vreinterpret_u8_f32</a>(float32x2_t a)</code>       | `a -> Vd.2S`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_f32" target="_blank">vreinterpret_u16_f32</a>(float32x2_t a)</code>    | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_f32" target="_blank">vreinterpret_u32_f32</a>(float32x2_t a)</code>    | `a -> Vd.2S`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_f32" target="_blank">vreinterpret_p8_f32</a>(float32x2_t a)</code>       | `a -> Vd.2S`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_f32" target="_blank">vreinterpret_p16_f32</a>(float32x2_t a)</code>    | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_f32" target="_blank">vreinterpret_u64_f32</a>(float32x2_t a)</code>    | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_f32" target="_blank">vreinterpret_s64_f32</a>(float32x2_t a)</code>     | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_f32" target="_blank">vreinterpret_f64_f32</a>(float32x2_t a)</code>   | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_f32" target="_blank">vreinterpret_p64_f32</a>(float32x2_t a)</code>    | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_f64" target="_blank">vreinterpret_p64_f64</a>(float64x1_t a)</code>    | `a -> Vd.1D`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
-| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_f32" target="_blank">vreinterpret_f16_f32</a>(float32x2_t a)</code>   | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_u8" target="_blank">vreinterpret_s8_u8</a>(uint8x8_t a)</code>            | `a -> Vd.8B`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_u8" target="_blank">vreinterpret_s16_u8</a>(uint8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_u8" target="_blank">vreinterpret_s32_u8</a>(uint8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_u8" target="_blank">vreinterpret_f32_u8</a>(uint8x8_t a)</code>       | `a -> Vd.8B`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_u8" target="_blank">vreinterpret_u16_u8</a>(uint8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_u8" target="_blank">vreinterpret_u32_u8</a>(uint8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_u8" target="_blank">vreinterpret_p8_u8</a>(uint8x8_t a)</code>           | `a -> Vd.8B`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_u8" target="_blank">vreinterpret_p16_u8</a>(uint8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_u8" target="_blank">vreinterpret_u64_u8</a>(uint8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_u8" target="_blank">vreinterpret_s64_u8</a>(uint8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_u8" target="_blank">vreinterpret_f64_u8</a>(uint8x8_t a)</code>       | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_u8" target="_blank">vreinterpret_p64_u8</a>(uint8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
-| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_u8" target="_blank">vreinterpret_f16_u8</a>(uint8x8_t a)</code>       | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_u16" target="_blank">vreinterpret_s8_u16</a>(uint16x4_t a)</code>         | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_u16" target="_blank">vreinterpret_s16_u16</a>(uint16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_u16" target="_blank">vreinterpret_s32_u16</a>(uint16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_u16" target="_blank">vreinterpret_f32_u16</a>(uint16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_u16" target="_blank">vreinterpret_u8_u16</a>(uint16x4_t a)</code>        | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_u16" target="_blank">vreinterpret_u32_u16</a>(uint16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_u16" target="_blank">vreinterpret_p8_u16</a>(uint16x4_t a)</code>        | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_u16" target="_blank">vreinterpret_p16_u16</a>(uint16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_u16" target="_blank">vreinterpret_u64_u16</a>(uint16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_u16" target="_blank">vreinterpret_s64_u16</a>(uint16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_u16" target="_blank">vreinterpret_f64_u16</a>(uint16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_u16" target="_blank">vreinterpret_p64_u16</a>(uint16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
-| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_u16" target="_blank">vreinterpret_f16_u16</a>(uint16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_u32" target="_blank">vreinterpret_s8_u32</a>(uint32x2_t a)</code>         | `a -> Vd.2S`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_u32" target="_blank">vreinterpret_s16_u32</a>(uint32x2_t a)</code>      | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_u32" target="_blank">vreinterpret_s32_u32</a>(uint32x2_t a)</code>      | `a -> Vd.2S`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_u32" target="_blank">vreinterpret_f32_u32</a>(uint32x2_t a)</code>    | `a -> Vd.2S`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_u32" target="_blank">vreinterpret_u8_u32</a>(uint32x2_t a)</code>        | `a -> Vd.2S`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_u32" target="_blank">vreinterpret_u16_u32</a>(uint32x2_t a)</code>     | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_u32" target="_blank">vreinterpret_p8_u32</a>(uint32x2_t a)</code>        | `a -> Vd.2S`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_u32" target="_blank">vreinterpret_p16_u32</a>(uint32x2_t a)</code>     | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_u32" target="_blank">vreinterpret_u64_u32</a>(uint32x2_t a)</code>     | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_u32" target="_blank">vreinterpret_s64_u32</a>(uint32x2_t a)</code>      | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_u32" target="_blank">vreinterpret_f64_u32</a>(uint32x2_t a)</code>    | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_u32" target="_blank">vreinterpret_p64_u32</a>(uint32x2_t a)</code>     | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
-| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_u32" target="_blank">vreinterpret_f16_u32</a>(uint32x2_t a)</code>    | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_p8" target="_blank">vreinterpret_s8_p8</a>(poly8x8_t a)</code>            | `a -> Vd.8B`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_p8" target="_blank">vreinterpret_s16_p8</a>(poly8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_p8" target="_blank">vreinterpret_s32_p8</a>(poly8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_p8" target="_blank">vreinterpret_f32_p8</a>(poly8x8_t a)</code>       | `a -> Vd.8B`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_p8" target="_blank">vreinterpret_u8_p8</a>(poly8x8_t a)</code>           | `a -> Vd.8B`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_p8" target="_blank">vreinterpret_u16_p8</a>(poly8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_p8" target="_blank">vreinterpret_u32_p8</a>(poly8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_p8" target="_blank">vreinterpret_p16_p8</a>(poly8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_p8" target="_blank">vreinterpret_u64_p8</a>(poly8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_p8" target="_blank">vreinterpret_s64_p8</a>(poly8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_p8" target="_blank">vreinterpret_f64_p8</a>(poly8x8_t a)</code>       | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_p8" target="_blank">vreinterpret_p64_p8</a>(poly8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
-| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_p8" target="_blank">vreinterpret_f16_p8</a>(poly8x8_t a)</code>       | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_p16" target="_blank">vreinterpret_s8_p16</a>(poly16x4_t a)</code>         | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_p16" target="_blank">vreinterpret_s16_p16</a>(poly16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_p16" target="_blank">vreinterpret_s32_p16</a>(poly16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_p16" target="_blank">vreinterpret_f32_p16</a>(poly16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_p16" target="_blank">vreinterpret_u8_p16</a>(poly16x4_t a)</code>        | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_p16" target="_blank">vreinterpret_u16_p16</a>(poly16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_p16" target="_blank">vreinterpret_u32_p16</a>(poly16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_p16" target="_blank">vreinterpret_p8_p16</a>(poly16x4_t a)</code>        | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_p16" target="_blank">vreinterpret_u64_p16</a>(poly16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_p16" target="_blank">vreinterpret_s64_p16</a>(poly16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_p16" target="_blank">vreinterpret_f64_p16</a>(poly16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_p16" target="_blank">vreinterpret_p64_p16</a>(poly16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
-| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_p16" target="_blank">vreinterpret_f16_p16</a>(poly16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_u64" target="_blank">vreinterpret_s8_u64</a>(uint64x1_t a)</code>         | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_u64" target="_blank">vreinterpret_s16_u64</a>(uint64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_u64" target="_blank">vreinterpret_s32_u64</a>(uint64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_u64" target="_blank">vreinterpret_f32_u64</a>(uint64x1_t a)</code>    | `a -> Vd.1D`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_u64" target="_blank">vreinterpret_u8_u64</a>(uint64x1_t a)</code>        | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_u64" target="_blank">vreinterpret_u16_u64</a>(uint64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_u64" target="_blank">vreinterpret_u32_u64</a>(uint64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_u64" target="_blank">vreinterpret_p8_u64</a>(uint64x1_t a)</code>        | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_u64" target="_blank">vreinterpret_p16_u64</a>(uint64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_u64" target="_blank">vreinterpret_s64_u64</a>(uint64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_u64" target="_blank">vreinterpret_f64_u64</a>(uint64x1_t a)</code>    | `a -> Vd.1D`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_u64" target="_blank">vreinterpret_p64_u64</a>(uint64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
-| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_u64" target="_blank">vreinterpret_f16_u64</a>(uint64x1_t a)</code>    | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_s64" target="_blank">vreinterpret_s8_s64</a>(int64x1_t a)</code>          | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_s64" target="_blank">vreinterpret_s16_s64</a>(int64x1_t a)</code>       | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_s64" target="_blank">vreinterpret_s32_s64</a>(int64x1_t a)</code>       | `a -> Vd.1D`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_s64" target="_blank">vreinterpret_f32_s64</a>(int64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_s64" target="_blank">vreinterpret_u8_s64</a>(int64x1_t a)</code>         | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_s64" target="_blank">vreinterpret_u16_s64</a>(int64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_s64" target="_blank">vreinterpret_u32_s64</a>(int64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_s64" target="_blank">vreinterpret_p8_s64</a>(int64x1_t a)</code>         | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_s64" target="_blank">vreinterpret_p16_s64</a>(int64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_s64" target="_blank">vreinterpret_u64_s64</a>(int64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_s64" target="_blank">vreinterpret_f64_s64</a>(int64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_p64" target="_blank">vreinterpret_u64_p64</a>(poly64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
-| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_s64" target="_blank">vreinterpret_f16_s64</a>(int64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_f16" target="_blank">vreinterpret_s8_f16</a>(float16x4_t a)</code>        | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_f16" target="_blank">vreinterpret_s16_f16</a>(float16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_f16" target="_blank">vreinterpret_s32_f16</a>(float16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_f16" target="_blank">vreinterpret_f32_f16</a>(float16x4_t a)</code>   | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_f16" target="_blank">vreinterpret_u8_f16</a>(float16x4_t a)</code>       | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_f16" target="_blank">vreinterpret_u16_f16</a>(float16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_f16" target="_blank">vreinterpret_u32_f16</a>(float16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_f16" target="_blank">vreinterpret_p8_f16</a>(float16x4_t a)</code>       | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_f16" target="_blank">vreinterpret_p16_f16</a>(float16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_f16" target="_blank">vreinterpret_u64_f16</a>(float16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_f16" target="_blank">vreinterpret_s64_f16</a>(float16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_f16" target="_blank">vreinterpret_f64_f16</a>(float16x4_t a)</code>   | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_f16" target="_blank">vreinterpret_p64_f16</a>(float16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_s8" target="_blank">vreinterpretq_s16_s8</a>(int8x16_t a)</code>       | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_s8" target="_blank">vreinterpretq_s32_s8</a>(int8x16_t a)</code>       | `a -> Vd.16B`          | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_s8" target="_blank">vreinterpretq_f32_s8</a>(int8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_s8" target="_blank">vreinterpretq_u8_s8</a>(int8x16_t a)</code>        | `a -> Vd.16B`          | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_s8" target="_blank">vreinterpretq_u16_s8</a>(int8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_s8" target="_blank">vreinterpretq_u32_s8</a>(int8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_s8" target="_blank">vreinterpretq_p8_s8</a>(int8x16_t a)</code>        | `a -> Vd.16B`          | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_s8" target="_blank">vreinterpretq_p16_s8</a>(int8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_s8" target="_blank">vreinterpretq_u64_s8</a>(int8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_s8" target="_blank">vreinterpretq_s64_s8</a>(int8x16_t a)</code>       | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_s8" target="_blank">vreinterpretq_f64_s8</a>(int8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_s8" target="_blank">vreinterpretq_p64_s8</a>(int8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_s8" target="_blank">vreinterpretq_p128_s8</a>(int8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.1Q -> result`  | `A32/A64`                 |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_s8" target="_blank">vreinterpretq_f16_s8</a>(int8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_s16" target="_blank">vreinterpretq_s8_s16</a>(int16x8_t a)</code>       | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_s16" target="_blank">vreinterpretq_s32_s16</a>(int16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_s16" target="_blank">vreinterpretq_f32_s16</a>(int16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_s16" target="_blank">vreinterpretq_u8_s16</a>(int16x8_t a)</code>      | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_s16" target="_blank">vreinterpretq_u16_s16</a>(int16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_s16" target="_blank">vreinterpretq_u32_s16</a>(int16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_s16" target="_blank">vreinterpretq_p8_s16</a>(int16x8_t a)</code>      | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_s16" target="_blank">vreinterpretq_p16_s16</a>(int16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_s16" target="_blank">vreinterpretq_u64_s16</a>(int16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_s16" target="_blank">vreinterpretq_s64_s16</a>(int16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_s16" target="_blank">vreinterpretq_f64_s16</a>(int16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_s16" target="_blank">vreinterpretq_p64_s16</a>(int16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_s16" target="_blank">vreinterpretq_p128_s16</a>(int16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.1Q -> result`  | `A32/A64`                 |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_s16" target="_blank">vreinterpretq_f16_s16</a>(int16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_s32" target="_blank">vreinterpretq_s8_s32</a>(int32x4_t a)</code>       | `a -> Vd.4S`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_s32" target="_blank">vreinterpretq_s16_s32</a>(int32x4_t a)</code>     | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_s32" target="_blank">vreinterpretq_f32_s32</a>(int32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_s32" target="_blank">vreinterpretq_u8_s32</a>(int32x4_t a)</code>      | `a -> Vd.4S`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_s32" target="_blank">vreinterpretq_u16_s32</a>(int32x4_t a)</code>    | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_s32" target="_blank">vreinterpretq_u32_s32</a>(int32x4_t a)</code>    | `a -> Vd.4S`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_s32" target="_blank">vreinterpretq_p8_s32</a>(int32x4_t a)</code>      | `a -> Vd.4S`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_s32" target="_blank">vreinterpretq_p16_s32</a>(int32x4_t a)</code>    | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_s32" target="_blank">vreinterpretq_u64_s32</a>(int32x4_t a)</code>    | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_s32" target="_blank">vreinterpretq_s64_s32</a>(int32x4_t a)</code>     | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_s32" target="_blank">vreinterpretq_f64_s32</a>(int32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_s32" target="_blank">vreinterpretq_p64_s32</a>(int32x4_t a)</code>    | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_s32" target="_blank">vreinterpretq_p128_s32</a>(int32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.1Q -> result`  | `A32/A64`                 |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_s32" target="_blank">vreinterpretq_f16_s32</a>(int32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_f32" target="_blank">vreinterpretq_s8_f32</a>(float32x4_t a)</code>     | `a -> Vd.4S`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_f32" target="_blank">vreinterpretq_s16_f32</a>(float32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_f32" target="_blank">vreinterpretq_s32_f32</a>(float32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_f32" target="_blank">vreinterpretq_u8_f32</a>(float32x4_t a)</code>    | `a -> Vd.4S`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_f32" target="_blank">vreinterpretq_u16_f32</a>(float32x4_t a)</code>  | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_f32" target="_blank">vreinterpretq_u32_f32</a>(float32x4_t a)</code>  | `a -> Vd.4S`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_f32" target="_blank">vreinterpretq_p8_f32</a>(float32x4_t a)</code>    | `a -> Vd.4S`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_f32" target="_blank">vreinterpretq_p16_f32</a>(float32x4_t a)</code>  | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_f32" target="_blank">vreinterpretq_u64_f32</a>(float32x4_t a)</code>  | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_f32" target="_blank">vreinterpretq_s64_f32</a>(float32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_f32" target="_blank">vreinterpretq_f64_f32</a>(float32x4_t a)</code> | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_f32" target="_blank">vreinterpretq_p64_f32</a>(float32x4_t a)</code>  | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_f32" target="_blank">vreinterpretq_p128_f32</a>(float32x4_t a)</code> | `a -> Vd.4S`           | `NOP`                 | `Vd.1Q -> result`  | `A32/A64`                 |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_f64" target="_blank">vreinterpretq_p64_f64</a>(float64x2_t a)</code>  | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
-| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_f64" target="_blank">vreinterpretq_p128_f64</a>(float64x2_t a)</code> | `a -> Vd.1Q`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_f32" target="_blank">vreinterpretq_f16_f32</a>(float32x4_t a)</code> | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_u8" target="_blank">vreinterpretq_s8_u8</a>(uint8x16_t a)</code>        | `a -> Vd.16B`          | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_u8" target="_blank">vreinterpretq_s16_u8</a>(uint8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_u8" target="_blank">vreinterpretq_s32_u8</a>(uint8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_u8" target="_blank">vreinterpretq_f32_u8</a>(uint8x16_t a)</code>    | `a -> Vd.16B`          | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_u8" target="_blank">vreinterpretq_u16_u8</a>(uint8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_u8" target="_blank">vreinterpretq_u32_u8</a>(uint8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_u8" target="_blank">vreinterpretq_p8_u8</a>(uint8x16_t a)</code>       | `a -> Vd.16B`          | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_u8" target="_blank">vreinterpretq_p16_u8</a>(uint8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_u8" target="_blank">vreinterpretq_u64_u8</a>(uint8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_u8" target="_blank">vreinterpretq_s64_u8</a>(uint8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_u8" target="_blank">vreinterpretq_f64_u8</a>(uint8x16_t a)</code>    | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_u8" target="_blank">vreinterpretq_p64_u8</a>(uint8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_u8" target="_blank">vreinterpretq_p128_u8</a>(uint8x16_t a)</code>    | `a -> Vd.16B`          | `NOP`                 | `Vd.1Q -> result`  | `A32/A64`                 |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_u8" target="_blank">vreinterpretq_f16_u8</a>(uint8x16_t a)</code>    | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_u16" target="_blank">vreinterpretq_s8_u16</a>(uint16x8_t a)</code>      | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_u16" target="_blank">vreinterpretq_s16_u16</a>(uint16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_u16" target="_blank">vreinterpretq_s32_u16</a>(uint16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_u16" target="_blank">vreinterpretq_f32_u16</a>(uint16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_u16" target="_blank">vreinterpretq_u8_u16</a>(uint16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_u16" target="_blank">vreinterpretq_u32_u16</a>(uint16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_u16" target="_blank">vreinterpretq_p8_u16</a>(uint16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_u16" target="_blank">vreinterpretq_p16_u16</a>(uint16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_u16" target="_blank">vreinterpretq_u64_u16</a>(uint16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_u16" target="_blank">vreinterpretq_s64_u16</a>(uint16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_u16" target="_blank">vreinterpretq_f64_u16</a>(uint16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_u16" target="_blank">vreinterpretq_p64_u16</a>(uint16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_u16" target="_blank">vreinterpretq_p128_u16</a>(uint16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.1Q -> result`  | `A32/A64`                 |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_u16" target="_blank">vreinterpretq_f16_u16</a>(uint16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_u32" target="_blank">vreinterpretq_s8_u32</a>(uint32x4_t a)</code>      | `a -> Vd.4S`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_u32" target="_blank">vreinterpretq_s16_u32</a>(uint32x4_t a)</code>    | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_u32" target="_blank">vreinterpretq_s32_u32</a>(uint32x4_t a)</code>    | `a -> Vd.4S`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_u32" target="_blank">vreinterpretq_f32_u32</a>(uint32x4_t a)</code>  | `a -> Vd.4S`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_u32" target="_blank">vreinterpretq_u8_u32</a>(uint32x4_t a)</code>     | `a -> Vd.4S`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_u32" target="_blank">vreinterpretq_u16_u32</a>(uint32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_u32" target="_blank">vreinterpretq_p8_u32</a>(uint32x4_t a)</code>     | `a -> Vd.4S`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_u32" target="_blank">vreinterpretq_p16_u32</a>(uint32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_u32" target="_blank">vreinterpretq_u64_u32</a>(uint32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_u32" target="_blank">vreinterpretq_s64_u32</a>(uint32x4_t a)</code>    | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_u32" target="_blank">vreinterpretq_f64_u32</a>(uint32x4_t a)</code>  | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_u32" target="_blank">vreinterpretq_p64_u32</a>(uint32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_u32" target="_blank">vreinterpretq_p128_u32</a>(uint32x4_t a)</code>  | `a -> Vd.4S`           | `NOP`                 | `Vd.1Q -> result`  | `A32/A64`                 |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_u32" target="_blank">vreinterpretq_f16_u32</a>(uint32x4_t a)</code>  | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_p8" target="_blank">vreinterpretq_s8_p8</a>(poly8x16_t a)</code>        | `a -> Vd.16B`          | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_p8" target="_blank">vreinterpretq_s16_p8</a>(poly8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_p8" target="_blank">vreinterpretq_s32_p8</a>(poly8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_p8" target="_blank">vreinterpretq_f32_p8</a>(poly8x16_t a)</code>    | `a -> Vd.16B`          | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_p8" target="_blank">vreinterpretq_u8_p8</a>(poly8x16_t a)</code>       | `a -> Vd.16B`          | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_p8" target="_blank">vreinterpretq_u16_p8</a>(poly8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_p8" target="_blank">vreinterpretq_u32_p8</a>(poly8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_p8" target="_blank">vreinterpretq_p16_p8</a>(poly8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_p8" target="_blank">vreinterpretq_u64_p8</a>(poly8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_p8" target="_blank">vreinterpretq_s64_p8</a>(poly8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_p8" target="_blank">vreinterpretq_f64_p8</a>(poly8x16_t a)</code>    | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_p8" target="_blank">vreinterpretq_p64_p8</a>(poly8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_p8" target="_blank">vreinterpretq_p128_p8</a>(poly8x16_t a)</code>    | `a -> Vd.16B`          | `NOP`                 | `Vd.1Q -> result`  | `A32/A64`                 |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_p8" target="_blank">vreinterpretq_f16_p8</a>(poly8x16_t a)</code>    | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_p16" target="_blank">vreinterpretq_s8_p16</a>(poly16x8_t a)</code>      | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_p16" target="_blank">vreinterpretq_s16_p16</a>(poly16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_p16" target="_blank">vreinterpretq_s32_p16</a>(poly16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_p16" target="_blank">vreinterpretq_f32_p16</a>(poly16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_p16" target="_blank">vreinterpretq_u8_p16</a>(poly16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_p16" target="_blank">vreinterpretq_u16_p16</a>(poly16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_p16" target="_blank">vreinterpretq_u32_p16</a>(poly16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_p16" target="_blank">vreinterpretq_p8_p16</a>(poly16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_p16" target="_blank">vreinterpretq_u64_p16</a>(poly16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_p16" target="_blank">vreinterpretq_s64_p16</a>(poly16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_p16" target="_blank">vreinterpretq_f64_p16</a>(poly16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_p16" target="_blank">vreinterpretq_p64_p16</a>(poly16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_p16" target="_blank">vreinterpretq_p128_p16</a>(poly16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.1Q -> result`  | `A32/A64`                 |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_p16" target="_blank">vreinterpretq_f16_p16</a>(poly16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_u64" target="_blank">vreinterpretq_s8_u64</a>(uint64x2_t a)</code>      | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_u64" target="_blank">vreinterpretq_s16_u64</a>(uint64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_u64" target="_blank">vreinterpretq_s32_u64</a>(uint64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_u64" target="_blank">vreinterpretq_f32_u64</a>(uint64x2_t a)</code>  | `a -> Vd.2D`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_u64" target="_blank">vreinterpretq_u8_u64</a>(uint64x2_t a)</code>     | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_u64" target="_blank">vreinterpretq_u16_u64</a>(uint64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_u64" target="_blank">vreinterpretq_u32_u64</a>(uint64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_u64" target="_blank">vreinterpretq_p8_u64</a>(uint64x2_t a)</code>     | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_u64" target="_blank">vreinterpretq_p16_u64</a>(uint64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_u64" target="_blank">vreinterpretq_s64_u64</a>(uint64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_u64" target="_blank">vreinterpretq_f64_u64</a>(uint64x2_t a)</code>  | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_s64" target="_blank">vreinterpretq_f64_s64</a>(int64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_s64" target="_blank">vreinterpretq_p64_s64</a>(int64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_s64" target="_blank">vreinterpretq_p128_s64</a>(int64x2_t a)</code>   | `a -> Vd.1Q`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_u64" target="_blank">vreinterpretq_p64_u64</a>(uint64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_u64" target="_blank">vreinterpretq_p128_u64</a>(uint64x2_t a)</code>  | `a -> Vd.1Q`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_u64" target="_blank">vreinterpretq_f16_u64</a>(uint64x2_t a)</code>  | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_s64" target="_blank">vreinterpretq_s8_s64</a>(int64x2_t a)</code>       | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_s64" target="_blank">vreinterpretq_s16_s64</a>(int64x2_t a)</code>     | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_s64" target="_blank">vreinterpretq_s32_s64</a>(int64x2_t a)</code>     | `a -> Vd.2D`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_s64" target="_blank">vreinterpretq_f32_s64</a>(int64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_s64" target="_blank">vreinterpretq_u8_s64</a>(int64x2_t a)</code>      | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_s64" target="_blank">vreinterpretq_u16_s64</a>(int64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_s64" target="_blank">vreinterpretq_u32_s64</a>(int64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_s64" target="_blank">vreinterpretq_p8_s64</a>(int64x2_t a)</code>      | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_s64" target="_blank">vreinterpretq_p16_s64</a>(int64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_s64" target="_blank">vreinterpretq_u64_s64</a>(int64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_p64" target="_blank">vreinterpretq_u64_p64</a>(poly64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_s64" target="_blank">vreinterpretq_f16_s64</a>(int64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_f16" target="_blank">vreinterpretq_s8_f16</a>(float16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_f16" target="_blank">vreinterpretq_s16_f16</a>(float16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_f16" target="_blank">vreinterpretq_s32_f16</a>(float16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_f16" target="_blank">vreinterpretq_f32_f16</a>(float16x8_t a)</code> | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_f16" target="_blank">vreinterpretq_u8_f16</a>(float16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_f16" target="_blank">vreinterpretq_u16_f16</a>(float16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_f16" target="_blank">vreinterpretq_u32_f16</a>(float16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_f16" target="_blank">vreinterpretq_p8_f16</a>(float16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_f16" target="_blank">vreinterpretq_p16_f16</a>(float16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_f16" target="_blank">vreinterpretq_u64_f16</a>(float16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_f16" target="_blank">vreinterpretq_s64_f16</a>(float16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_f16" target="_blank">vreinterpretq_f64_f16</a>(float16x8_t a)</code> | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_f16" target="_blank">vreinterpretq_p64_f16</a>(float16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_f16" target="_blank">vreinterpretq_p128_f16</a>(float16x8_t a)</code> | `a -> Vd.8H`           | `NOP`                 | `Vd.1Q -> result`  | `A32/A64`                 |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_f64" target="_blank">vreinterpret_s8_f64</a>(float64x1_t a)</code>        | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_f64" target="_blank">vreinterpret_s16_f64</a>(float64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A64`                     |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_f64" target="_blank">vreinterpret_s32_f64</a>(float64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.2S -> result`  | `A64`                     |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_f64" target="_blank">vreinterpret_u8_f64</a>(float64x1_t a)</code>       | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_f64" target="_blank">vreinterpret_u16_f64</a>(float64x1_t a)</code>    | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A64`                     |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_f64" target="_blank">vreinterpret_u32_f64</a>(float64x1_t a)</code>    | `a -> Vd.1D`           | `NOP`                 | `Vd.2S -> result`  | `A64`                     |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_f64" target="_blank">vreinterpret_p8_f64</a>(float64x1_t a)</code>       | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_f64" target="_blank">vreinterpret_p16_f64</a>(float64x1_t a)</code>    | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A64`                     |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_f64" target="_blank">vreinterpret_u64_f64</a>(float64x1_t a)</code>    | `a -> Vd.1D`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_f64" target="_blank">vreinterpret_s64_f64</a>(float64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
-| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_f64" target="_blank">vreinterpret_f16_f64</a>(float64x1_t a)</code>   | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A64`                     |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_f64" target="_blank">vreinterpret_f32_f64</a>(float64x1_t a)</code>   | `a -> Vd.1D`           | `NOP`                 | `Vd.2S -> result`  | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_f64" target="_blank">vreinterpretq_s8_f64</a>(float64x2_t a)</code>     | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `A64`                     |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_f64" target="_blank">vreinterpretq_s16_f64</a>(float64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A64`                     |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_f64" target="_blank">vreinterpretq_s32_f64</a>(float64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.4S -> result`  | `A64`                     |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_f64" target="_blank">vreinterpretq_u8_f64</a>(float64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `A64`                     |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_f64" target="_blank">vreinterpretq_u16_f64</a>(float64x2_t a)</code>  | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A64`                     |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_f64" target="_blank">vreinterpretq_u32_f64</a>(float64x2_t a)</code>  | `a -> Vd.2D`           | `NOP`                 | `Vd.4S -> result`  | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_f64" target="_blank">vreinterpretq_p8_f64</a>(float64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `A64`                     |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_f64" target="_blank">vreinterpretq_p16_f64</a>(float64x2_t a)</code>  | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A64`                     |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_f64" target="_blank">vreinterpretq_u64_f64</a>(float64x2_t a)</code>  | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_f64" target="_blank">vreinterpretq_s64_f64</a>(float64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_f64" target="_blank">vreinterpretq_f16_f64</a>(float64x2_t a)</code> | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A64`                     |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_f64" target="_blank">vreinterpretq_f32_f64</a>(float64x2_t a)</code> | `a -> Vd.2D`           | `NOP`                 | `Vd.4S -> result`  | `A64`                     |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_p64" target="_blank">vreinterpret_s8_p64</a>(poly64x1_t a)</code>         | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `A32/A64`                 |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_p64" target="_blank">vreinterpret_s16_p64</a>(poly64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_p64" target="_blank">vreinterpret_s32_p64</a>(poly64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.2S -> result`  | `A32/A64`                 |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_p64" target="_blank">vreinterpret_u8_p64</a>(poly64x1_t a)</code>        | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `A32/A64`                 |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_p64" target="_blank">vreinterpret_u16_p64</a>(poly64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_p64" target="_blank">vreinterpret_u32_p64</a>(poly64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.2S -> result`  | `A32/A64`                 |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_p64" target="_blank">vreinterpret_p8_p64</a>(poly64x1_t a)</code>        | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `A32/A64`                 |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_p64" target="_blank">vreinterpret_p16_p64</a>(poly64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_p64" target="_blank">vreinterpret_s64_p64</a>(poly64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_p64" target="_blank">vreinterpret_f64_p64</a>(poly64x1_t a)</code>    | `a -> Vd.1D`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
-| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_p64" target="_blank">vreinterpret_f16_p64</a>(poly64x1_t a)</code>    | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_p64" target="_blank">vreinterpretq_s8_p64</a>(poly64x2_t a)</code>      | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `A32/A64`                 |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_p64" target="_blank">vreinterpretq_s16_p64</a>(poly64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_p64" target="_blank">vreinterpretq_s32_p64</a>(poly64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.4S -> result`  | `A32/A64`                 |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_p64" target="_blank">vreinterpretq_u8_p64</a>(poly64x2_t a)</code>     | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `A32/A64`                 |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_p64" target="_blank">vreinterpretq_u16_p64</a>(poly64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_p64" target="_blank">vreinterpretq_u32_p64</a>(poly64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.4S -> result`  | `A32/A64`                 |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_p64" target="_blank">vreinterpretq_p8_p64</a>(poly64x2_t a)</code>     | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `A32/A64`                 |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_p64" target="_blank">vreinterpretq_p16_p64</a>(poly64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_p64" target="_blank">vreinterpretq_s64_p64</a>(poly64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_p64" target="_blank">vreinterpretq_f64_p64</a>(poly64x2_t a)</code>  | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_p64" target="_blank">vreinterpretq_f16_p64</a>(poly64x2_t a)</code>  | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_p128" target="_blank">vreinterpretq_s8_p128</a>(poly128_t a)</code>     | `a -> Vd.1Q`           | `NOP`                 | `Vd.16B -> result` | `A32/A64`                 |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_p128" target="_blank">vreinterpretq_s16_p128</a>(poly128_t a)</code>   | `a -> Vd.1Q`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_p128" target="_blank">vreinterpretq_s32_p128</a>(poly128_t a)</code>   | `a -> Vd.1Q`           | `NOP`                 | `Vd.4S -> result`  | `A32/A64`                 |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_p128" target="_blank">vreinterpretq_u8_p128</a>(poly128_t a)</code>    | `a -> Vd.1Q`           | `NOP`                 | `Vd.16B -> result` | `A32/A64`                 |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_p128" target="_blank">vreinterpretq_u16_p128</a>(poly128_t a)</code>  | `a -> Vd.1Q`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_p128" target="_blank">vreinterpretq_u32_p128</a>(poly128_t a)</code>  | `a -> Vd.1Q`           | `NOP`                 | `Vd.4S -> result`  | `A32/A64`                 |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_p128" target="_blank">vreinterpretq_p8_p128</a>(poly128_t a)</code>    | `a -> Vd.1Q`           | `NOP`                 | `Vd.16B -> result` | `A32/A64`                 |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_p128" target="_blank">vreinterpretq_p16_p128</a>(poly128_t a)</code>  | `a -> Vd.1Q`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_p128" target="_blank">vreinterpretq_u64_p128</a>(poly128_t a)</code>  | `a -> Vd.1Q`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_p128" target="_blank">vreinterpretq_s64_p128</a>(poly128_t a)</code>   | `a -> Vd.1Q`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_p128" target="_blank">vreinterpretq_f64_p128</a>(poly128_t a)</code> | `a -> Vd.1Q`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_p128" target="_blank">vreinterpretq_f16_p128</a>(poly128_t a)</code> | `a -> Vd.1Q`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| Intrinsic                                                                                                                                                                              | Argument preparation   | AArch64 Instruction   | Result             | Supported architectures   |
+|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------|-----------------------|--------------------|---------------------------|
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_s8" target="_blank">vreinterpret_s16_s8</a>(int8x8_t a)</code>           | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_s8" target="_blank">vreinterpret_s32_s8</a>(int8x8_t a)</code>           | `a -> Vd.8B`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_s8" target="_blank">vreinterpret_f32_s8</a>(int8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_s8" target="_blank">vreinterpret_u8_s8</a>(int8x8_t a)</code>             | `a -> Vd.8B`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_s8" target="_blank">vreinterpret_u16_s8</a>(int8x8_t a)</code>          | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_s8" target="_blank">vreinterpret_u32_s8</a>(int8x8_t a)</code>          | `a -> Vd.8B`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_s8" target="_blank">vreinterpret_p8_s8</a>(int8x8_t a)</code>             | `a -> Vd.8B`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_s8" target="_blank">vreinterpret_p16_s8</a>(int8x8_t a)</code>          | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_mf8_s8" target="_blank">vreinterpret_mf8_s8</a>(int8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_s8" target="_blank">vreinterpret_u64_s8</a>(int8x8_t a)</code>          | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_s8" target="_blank">vreinterpret_s64_s8</a>(int8x8_t a)</code>           | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_s8" target="_blank">vreinterpret_f64_s8</a>(int8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_s8" target="_blank">vreinterpret_p64_s8</a>(int8x8_t a)</code>          | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_s8" target="_blank">vreinterpret_f16_s8</a>(int8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_s16" target="_blank">vreinterpret_s8_s16</a>(int16x4_t a)</code>           | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_s16" target="_blank">vreinterpret_s32_s16</a>(int16x4_t a)</code>        | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_s16" target="_blank">vreinterpret_f32_s16</a>(int16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_s16" target="_blank">vreinterpret_u8_s16</a>(int16x4_t a)</code>          | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_s16" target="_blank">vreinterpret_u16_s16</a>(int16x4_t a)</code>       | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_s16" target="_blank">vreinterpret_u32_s16</a>(int16x4_t a)</code>       | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_s16" target="_blank">vreinterpret_p8_s16</a>(int16x4_t a)</code>          | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_s16" target="_blank">vreinterpret_p16_s16</a>(int16x4_t a)</code>       | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_mf8_s16" target="_blank">vreinterpret_mf8_s16</a>(int16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_s16" target="_blank">vreinterpret_u64_s16</a>(int16x4_t a)</code>       | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_s16" target="_blank">vreinterpret_s64_s16</a>(int16x4_t a)</code>        | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_s16" target="_blank">vreinterpret_f64_s16</a>(int16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_s16" target="_blank">vreinterpret_p64_s16</a>(int16x4_t a)</code>       | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_s16" target="_blank">vreinterpret_f16_s16</a>(int16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_s32" target="_blank">vreinterpret_s8_s32</a>(int32x2_t a)</code>           | `a -> Vd.2S`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_s32" target="_blank">vreinterpret_s16_s32</a>(int32x2_t a)</code>        | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_s32" target="_blank">vreinterpret_f32_s32</a>(int32x2_t a)</code>      | `a -> Vd.2S`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_s32" target="_blank">vreinterpret_u8_s32</a>(int32x2_t a)</code>          | `a -> Vd.2S`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_s32" target="_blank">vreinterpret_u16_s32</a>(int32x2_t a)</code>       | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_s32" target="_blank">vreinterpret_u32_s32</a>(int32x2_t a)</code>       | `a -> Vd.2S`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_s32" target="_blank">vreinterpret_p8_s32</a>(int32x2_t a)</code>          | `a -> Vd.2S`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_s32" target="_blank">vreinterpret_p16_s32</a>(int32x2_t a)</code>       | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_mf8_s32" target="_blank">vreinterpret_mf8_s32</a>(int32x2_t a)</code>      | `a -> Vd.2S`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_s32" target="_blank">vreinterpret_u64_s32</a>(int32x2_t a)</code>       | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_s32" target="_blank">vreinterpret_s64_s32</a>(int32x2_t a)</code>        | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_s32" target="_blank">vreinterpret_f64_s32</a>(int32x2_t a)</code>      | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_s32" target="_blank">vreinterpret_p64_s32</a>(int32x2_t a)</code>       | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_s32" target="_blank">vreinterpret_f16_s32</a>(int32x2_t a)</code>      | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_f32" target="_blank">vreinterpret_s8_f32</a>(float32x2_t a)</code>         | `a -> Vd.2S`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_f32" target="_blank">vreinterpret_s16_f32</a>(float32x2_t a)</code>      | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_f32" target="_blank">vreinterpret_s32_f32</a>(float32x2_t a)</code>      | `a -> Vd.2S`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_f32" target="_blank">vreinterpret_u8_f32</a>(float32x2_t a)</code>        | `a -> Vd.2S`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_f32" target="_blank">vreinterpret_u16_f32</a>(float32x2_t a)</code>     | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_f32" target="_blank">vreinterpret_u32_f32</a>(float32x2_t a)</code>     | `a -> Vd.2S`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_f32" target="_blank">vreinterpret_p8_f32</a>(float32x2_t a)</code>        | `a -> Vd.2S`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_f32" target="_blank">vreinterpret_p16_f32</a>(float32x2_t a)</code>     | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_mf8_f32" target="_blank">vreinterpret_mf8_f32</a>(float32x2_t a)</code>    | `a -> Vd.2S`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_f32" target="_blank">vreinterpret_u64_f32</a>(float32x2_t a)</code>     | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_f32" target="_blank">vreinterpret_s64_f32</a>(float32x2_t a)</code>      | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_f32" target="_blank">vreinterpret_f64_f32</a>(float32x2_t a)</code>    | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_f32" target="_blank">vreinterpret_p64_f32</a>(float32x2_t a)</code>     | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_f64" target="_blank">vreinterpret_p64_f64</a>(float64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_f32" target="_blank">vreinterpret_f16_f32</a>(float32x2_t a)</code>    | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_u8" target="_blank">vreinterpret_s8_u8</a>(uint8x8_t a)</code>             | `a -> Vd.8B`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_u8" target="_blank">vreinterpret_s16_u8</a>(uint8x8_t a)</code>          | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_u8" target="_blank">vreinterpret_s32_u8</a>(uint8x8_t a)</code>          | `a -> Vd.8B`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_u8" target="_blank">vreinterpret_f32_u8</a>(uint8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_u8" target="_blank">vreinterpret_u16_u8</a>(uint8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_u8" target="_blank">vreinterpret_u32_u8</a>(uint8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_u8" target="_blank">vreinterpret_p8_u8</a>(uint8x8_t a)</code>            | `a -> Vd.8B`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_u8" target="_blank">vreinterpret_p16_u8</a>(uint8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_mf8_u8" target="_blank">vreinterpret_mf8_u8</a>(uint8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_u8" target="_blank">vreinterpret_u64_u8</a>(uint8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_u8" target="_blank">vreinterpret_s64_u8</a>(uint8x8_t a)</code>          | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_u8" target="_blank">vreinterpret_f64_u8</a>(uint8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_u8" target="_blank">vreinterpret_p64_u8</a>(uint8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_u8" target="_blank">vreinterpret_f16_u8</a>(uint8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_u16" target="_blank">vreinterpret_s8_u16</a>(uint16x4_t a)</code>          | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_u16" target="_blank">vreinterpret_s16_u16</a>(uint16x4_t a)</code>       | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_u16" target="_blank">vreinterpret_s32_u16</a>(uint16x4_t a)</code>       | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_u16" target="_blank">vreinterpret_f32_u16</a>(uint16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_u16" target="_blank">vreinterpret_u8_u16</a>(uint16x4_t a)</code>         | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_u16" target="_blank">vreinterpret_u32_u16</a>(uint16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_u16" target="_blank">vreinterpret_p8_u16</a>(uint16x4_t a)</code>         | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_u16" target="_blank">vreinterpret_p16_u16</a>(uint16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_mf8_u16" target="_blank">vreinterpret_mf8_u16</a>(uint16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_u16" target="_blank">vreinterpret_u64_u16</a>(uint16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_u16" target="_blank">vreinterpret_s64_u16</a>(uint16x4_t a)</code>       | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_u16" target="_blank">vreinterpret_f64_u16</a>(uint16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_u16" target="_blank">vreinterpret_p64_u16</a>(uint16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_u16" target="_blank">vreinterpret_f16_u16</a>(uint16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_u32" target="_blank">vreinterpret_s8_u32</a>(uint32x2_t a)</code>          | `a -> Vd.2S`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_u32" target="_blank">vreinterpret_s16_u32</a>(uint32x2_t a)</code>       | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_u32" target="_blank">vreinterpret_s32_u32</a>(uint32x2_t a)</code>       | `a -> Vd.2S`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_u32" target="_blank">vreinterpret_f32_u32</a>(uint32x2_t a)</code>     | `a -> Vd.2S`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_u32" target="_blank">vreinterpret_u8_u32</a>(uint32x2_t a)</code>         | `a -> Vd.2S`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_u32" target="_blank">vreinterpret_u16_u32</a>(uint32x2_t a)</code>      | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_u32" target="_blank">vreinterpret_p8_u32</a>(uint32x2_t a)</code>         | `a -> Vd.2S`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_u32" target="_blank">vreinterpret_p16_u32</a>(uint32x2_t a)</code>      | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_mf8_u32" target="_blank">vreinterpret_mf8_u32</a>(uint32x2_t a)</code>     | `a -> Vd.2S`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_u32" target="_blank">vreinterpret_u64_u32</a>(uint32x2_t a)</code>      | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_u32" target="_blank">vreinterpret_s64_u32</a>(uint32x2_t a)</code>       | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_u32" target="_blank">vreinterpret_f64_u32</a>(uint32x2_t a)</code>     | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_u32" target="_blank">vreinterpret_p64_u32</a>(uint32x2_t a)</code>      | `a -> Vd.2S`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_u32" target="_blank">vreinterpret_f16_u32</a>(uint32x2_t a)</code>     | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_p8" target="_blank">vreinterpret_s8_p8</a>(poly8x8_t a)</code>             | `a -> Vd.8B`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_p8" target="_blank">vreinterpret_s16_p8</a>(poly8x8_t a)</code>          | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_p8" target="_blank">vreinterpret_s32_p8</a>(poly8x8_t a)</code>          | `a -> Vd.8B`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_p8" target="_blank">vreinterpret_f32_p8</a>(poly8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_p8" target="_blank">vreinterpret_u8_p8</a>(poly8x8_t a)</code>            | `a -> Vd.8B`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_p8" target="_blank">vreinterpret_u16_p8</a>(poly8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_p8" target="_blank">vreinterpret_u32_p8</a>(poly8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_p8" target="_blank">vreinterpret_p16_p8</a>(poly8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_p8" target="_blank">vreinterpret_u64_p8</a>(poly8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_p8" target="_blank">vreinterpret_s64_p8</a>(poly8x8_t a)</code>          | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_p8" target="_blank">vreinterpret_f64_p8</a>(poly8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_p8" target="_blank">vreinterpret_p64_p8</a>(poly8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_p8" target="_blank">vreinterpret_f16_p8</a>(poly8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_mf8" target="_blank">vreinterpret_s8_mf8</a>(mfloat8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_mf8" target="_blank">vreinterpret_s16_mf8</a>(mfloat8x8_t a)</code>      | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `A64`                     |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_mf8" target="_blank">vreinterpret_s32_mf8</a>(mfloat8x8_t a)</code>      | `a -> Vd.8B`           | `NOP`                 | `Vd.2S -> result`  | `A64`                     |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_mf8" target="_blank">vreinterpret_f32_mf8</a>(mfloat8x8_t a)</code>    | `a -> Vd.8B`           | `NOP`                 | `Vd.2S -> result`  | `A64`                     |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_mf8" target="_blank">vreinterpret_u8_mf8</a>(mfloat8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_mf8" target="_blank">vreinterpret_u16_mf8</a>(mfloat8x8_t a)</code>     | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `A64`                     |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_mf8" target="_blank">vreinterpret_u32_mf8</a>(mfloat8x8_t a)</code>     | `a -> Vd.8B`           | `NOP`                 | `Vd.2S -> result`  | `A64`                     |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_mf8" target="_blank">vreinterpret_p16_mf8</a>(mfloat8x8_t a)</code>     | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `A64`                     |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_mf8" target="_blank">vreinterpret_u64_mf8</a>(mfloat8x8_t a)</code>     | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_mf8" target="_blank">vreinterpret_s64_mf8</a>(mfloat8x8_t a)</code>      | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_mf8" target="_blank">vreinterpret_f64_mf8</a>(mfloat8x8_t a)</code>    | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_mf8" target="_blank">vreinterpret_p64_mf8</a>(mfloat8x8_t a)</code>     | `a -> Vd.8B`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_mf8" target="_blank">vreinterpret_f16_mf8</a>(mfloat8x8_t a)</code>    | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_p16" target="_blank">vreinterpret_s8_p16</a>(poly16x4_t a)</code>          | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_p16" target="_blank">vreinterpret_s16_p16</a>(poly16x4_t a)</code>       | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_p16" target="_blank">vreinterpret_s32_p16</a>(poly16x4_t a)</code>       | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_p16" target="_blank">vreinterpret_f32_p16</a>(poly16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_p16" target="_blank">vreinterpret_u8_p16</a>(poly16x4_t a)</code>         | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_p16" target="_blank">vreinterpret_u16_p16</a>(poly16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_p16" target="_blank">vreinterpret_u32_p16</a>(poly16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_p16" target="_blank">vreinterpret_p8_p16</a>(poly16x4_t a)</code>         | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_mf8_p16" target="_blank">vreinterpret_mf8_p16</a>(poly16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_p16" target="_blank">vreinterpret_u64_p16</a>(poly16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_p16" target="_blank">vreinterpret_s64_p16</a>(poly16x4_t a)</code>       | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_p16" target="_blank">vreinterpret_f64_p16</a>(poly16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_p16" target="_blank">vreinterpret_p64_p16</a>(poly16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_p16" target="_blank">vreinterpret_f16_p16</a>(poly16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_u64" target="_blank">vreinterpret_s8_u64</a>(uint64x1_t a)</code>          | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_u64" target="_blank">vreinterpret_s16_u64</a>(uint64x1_t a)</code>       | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_u64" target="_blank">vreinterpret_s32_u64</a>(uint64x1_t a)</code>       | `a -> Vd.1D`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_u64" target="_blank">vreinterpret_f32_u64</a>(uint64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_u64" target="_blank">vreinterpret_u8_u64</a>(uint64x1_t a)</code>         | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_u64" target="_blank">vreinterpret_u16_u64</a>(uint64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_u64" target="_blank">vreinterpret_u32_u64</a>(uint64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_u64" target="_blank">vreinterpret_p8_u64</a>(uint64x1_t a)</code>         | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_u64" target="_blank">vreinterpret_p16_u64</a>(uint64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_mf8_u64" target="_blank">vreinterpret_mf8_u64</a>(uint64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_u64" target="_blank">vreinterpret_s64_u64</a>(uint64x1_t a)</code>       | `a -> Vd.1D`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_u64" target="_blank">vreinterpret_f64_u64</a>(uint64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_u64" target="_blank">vreinterpret_p64_u64</a>(uint64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_u64" target="_blank">vreinterpret_f16_u64</a>(uint64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_s64" target="_blank">vreinterpret_s8_s64</a>(int64x1_t a)</code>           | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_s64" target="_blank">vreinterpret_s16_s64</a>(int64x1_t a)</code>        | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_s64" target="_blank">vreinterpret_s32_s64</a>(int64x1_t a)</code>        | `a -> Vd.1D`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_s64" target="_blank">vreinterpret_f32_s64</a>(int64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_s64" target="_blank">vreinterpret_u8_s64</a>(int64x1_t a)</code>          | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_s64" target="_blank">vreinterpret_u16_s64</a>(int64x1_t a)</code>       | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_s64" target="_blank">vreinterpret_u32_s64</a>(int64x1_t a)</code>       | `a -> Vd.1D`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_s64" target="_blank">vreinterpret_p8_s64</a>(int64x1_t a)</code>          | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_s64" target="_blank">vreinterpret_p16_s64</a>(int64x1_t a)</code>       | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_mf8_s64" target="_blank">vreinterpret_mf8_s64</a>(int64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_s64" target="_blank">vreinterpret_u64_s64</a>(int64x1_t a)</code>       | `a -> Vd.1D`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_s64" target="_blank">vreinterpret_f64_s64</a>(int64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_p64" target="_blank">vreinterpret_u64_p64</a>(poly64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_s64" target="_blank">vreinterpret_f16_s64</a>(int64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_f16" target="_blank">vreinterpret_s8_f16</a>(float16x4_t a)</code>         | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_f16" target="_blank">vreinterpret_s16_f16</a>(float16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_f16" target="_blank">vreinterpret_s32_f16</a>(float16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_f16" target="_blank">vreinterpret_f32_f16</a>(float16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_f16" target="_blank">vreinterpret_u8_f16</a>(float16x4_t a)</code>        | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_f16" target="_blank">vreinterpret_u16_f16</a>(float16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_f16" target="_blank">vreinterpret_u32_f16</a>(float16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_f16" target="_blank">vreinterpret_p8_f16</a>(float16x4_t a)</code>        | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_f16" target="_blank">vreinterpret_p16_f16</a>(float16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_mf8_f16" target="_blank">vreinterpret_mf8_f16</a>(float16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_f16" target="_blank">vreinterpret_u64_f16</a>(float16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_f16" target="_blank">vreinterpret_s64_f16</a>(float16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_f16" target="_blank">vreinterpret_f64_f16</a>(float16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_f16" target="_blank">vreinterpret_p64_f16</a>(float16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_s8" target="_blank">vreinterpretq_s16_s8</a>(int8x16_t a)</code>        | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_s8" target="_blank">vreinterpretq_s32_s8</a>(int8x16_t a)</code>        | `a -> Vd.16B`          | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_s8" target="_blank">vreinterpretq_f32_s8</a>(int8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_s8" target="_blank">vreinterpretq_u8_s8</a>(int8x16_t a)</code>         | `a -> Vd.16B`          | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_s8" target="_blank">vreinterpretq_u16_s8</a>(int8x16_t a)</code>       | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_s8" target="_blank">vreinterpretq_u32_s8</a>(int8x16_t a)</code>       | `a -> Vd.16B`          | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_s8" target="_blank">vreinterpretq_p8_s8</a>(int8x16_t a)</code>         | `a -> Vd.16B`          | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_s8" target="_blank">vreinterpretq_p16_s8</a>(int8x16_t a)</code>       | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_mf8_s8" target="_blank">vreinterpretq_mf8_s8</a>(int8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.16B -> result` | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_s8" target="_blank">vreinterpretq_u64_s8</a>(int8x16_t a)</code>       | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_s8" target="_blank">vreinterpretq_s64_s8</a>(int8x16_t a)</code>        | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_s8" target="_blank">vreinterpretq_f64_s8</a>(int8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_s8" target="_blank">vreinterpretq_p64_s8</a>(int8x16_t a)</code>       | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_s8" target="_blank">vreinterpretq_p128_s8</a>(int8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.1Q -> result`  | `A32/A64`                 |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_s8" target="_blank">vreinterpretq_f16_s8</a>(int8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_s16" target="_blank">vreinterpretq_s8_s16</a>(int16x8_t a)</code>        | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_s16" target="_blank">vreinterpretq_s32_s16</a>(int16x8_t a)</code>      | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_s16" target="_blank">vreinterpretq_f32_s16</a>(int16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_s16" target="_blank">vreinterpretq_u8_s16</a>(int16x8_t a)</code>       | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_s16" target="_blank">vreinterpretq_u16_s16</a>(int16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_s16" target="_blank">vreinterpretq_u32_s16</a>(int16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_s16" target="_blank">vreinterpretq_p8_s16</a>(int16x8_t a)</code>       | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_s16" target="_blank">vreinterpretq_p16_s16</a>(int16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_mf8_s16" target="_blank">vreinterpretq_mf8_s16</a>(int16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_s16" target="_blank">vreinterpretq_u64_s16</a>(int16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_s16" target="_blank">vreinterpretq_s64_s16</a>(int16x8_t a)</code>      | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_s16" target="_blank">vreinterpretq_f64_s16</a>(int16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_s16" target="_blank">vreinterpretq_p64_s16</a>(int16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_s16" target="_blank">vreinterpretq_p128_s16</a>(int16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.1Q -> result`  | `A32/A64`                 |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_s16" target="_blank">vreinterpretq_f16_s16</a>(int16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_s32" target="_blank">vreinterpretq_s8_s32</a>(int32x4_t a)</code>        | `a -> Vd.4S`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_s32" target="_blank">vreinterpretq_s16_s32</a>(int32x4_t a)</code>      | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_s32" target="_blank">vreinterpretq_f32_s32</a>(int32x4_t a)</code>    | `a -> Vd.4S`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_s32" target="_blank">vreinterpretq_u8_s32</a>(int32x4_t a)</code>       | `a -> Vd.4S`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_s32" target="_blank">vreinterpretq_u16_s32</a>(int32x4_t a)</code>     | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_s32" target="_blank">vreinterpretq_u32_s32</a>(int32x4_t a)</code>     | `a -> Vd.4S`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_s32" target="_blank">vreinterpretq_p8_s32</a>(int32x4_t a)</code>       | `a -> Vd.4S`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_s32" target="_blank">vreinterpretq_p16_s32</a>(int32x4_t a)</code>     | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_mf8_s32" target="_blank">vreinterpretq_mf8_s32</a>(int32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.16B -> result` | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_s32" target="_blank">vreinterpretq_u64_s32</a>(int32x4_t a)</code>     | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_s32" target="_blank">vreinterpretq_s64_s32</a>(int32x4_t a)</code>      | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_s32" target="_blank">vreinterpretq_f64_s32</a>(int32x4_t a)</code>    | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_s32" target="_blank">vreinterpretq_p64_s32</a>(int32x4_t a)</code>     | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_s32" target="_blank">vreinterpretq_p128_s32</a>(int32x4_t a)</code>    | `a -> Vd.4S`           | `NOP`                 | `Vd.1Q -> result`  | `A32/A64`                 |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_s32" target="_blank">vreinterpretq_f16_s32</a>(int32x4_t a)</code>    | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_f32" target="_blank">vreinterpretq_s8_f32</a>(float32x4_t a)</code>      | `a -> Vd.4S`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_f32" target="_blank">vreinterpretq_s16_f32</a>(float32x4_t a)</code>    | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_f32" target="_blank">vreinterpretq_s32_f32</a>(float32x4_t a)</code>    | `a -> Vd.4S`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_f32" target="_blank">vreinterpretq_u8_f32</a>(float32x4_t a)</code>     | `a -> Vd.4S`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_f32" target="_blank">vreinterpretq_u16_f32</a>(float32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_f32" target="_blank">vreinterpretq_u32_f32</a>(float32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_f32" target="_blank">vreinterpretq_p8_f32</a>(float32x4_t a)</code>     | `a -> Vd.4S`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_f32" target="_blank">vreinterpretq_p16_f32</a>(float32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_mf8_f32" target="_blank">vreinterpretq_mf8_f32</a>(float32x4_t a)</code> | `a -> Vd.4S`           | `NOP`                 | `Vd.16B -> result` | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_f32" target="_blank">vreinterpretq_u64_f32</a>(float32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_f32" target="_blank">vreinterpretq_s64_f32</a>(float32x4_t a)</code>    | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_f32" target="_blank">vreinterpretq_f64_f32</a>(float32x4_t a)</code>  | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_f32" target="_blank">vreinterpretq_p64_f32</a>(float32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_f32" target="_blank">vreinterpretq_p128_f32</a>(float32x4_t a)</code>  | `a -> Vd.4S`           | `NOP`                 | `Vd.1Q -> result`  | `A32/A64`                 |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_f64" target="_blank">vreinterpretq_p64_f64</a>(float64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
+| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_f64" target="_blank">vreinterpretq_p128_f64</a>(float64x2_t a)</code>  | `a -> Vd.1Q`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_f32" target="_blank">vreinterpretq_f16_f32</a>(float32x4_t a)</code>  | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_u8" target="_blank">vreinterpretq_s8_u8</a>(uint8x16_t a)</code>         | `a -> Vd.16B`          | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_u8" target="_blank">vreinterpretq_s16_u8</a>(uint8x16_t a)</code>       | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_u8" target="_blank">vreinterpretq_s32_u8</a>(uint8x16_t a)</code>       | `a -> Vd.16B`          | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_u8" target="_blank">vreinterpretq_f32_u8</a>(uint8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_u8" target="_blank">vreinterpretq_u16_u8</a>(uint8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_u8" target="_blank">vreinterpretq_u32_u8</a>(uint8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_u8" target="_blank">vreinterpretq_p8_u8</a>(uint8x16_t a)</code>        | `a -> Vd.16B`          | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_u8" target="_blank">vreinterpretq_p16_u8</a>(uint8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_mf8_u8" target="_blank">vreinterpretq_mf8_u8</a>(uint8x16_t a)</code>    | `a -> Vd.16B`          | `NOP`                 | `Vd.16B -> result` | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_u8" target="_blank">vreinterpretq_u64_u8</a>(uint8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_u8" target="_blank">vreinterpretq_s64_u8</a>(uint8x16_t a)</code>       | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_u8" target="_blank">vreinterpretq_f64_u8</a>(uint8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_u8" target="_blank">vreinterpretq_p64_u8</a>(uint8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_u8" target="_blank">vreinterpretq_p128_u8</a>(uint8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.1Q -> result`  | `A32/A64`                 |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_u8" target="_blank">vreinterpretq_f16_u8</a>(uint8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_u16" target="_blank">vreinterpretq_s8_u16</a>(uint16x8_t a)</code>       | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_u16" target="_blank">vreinterpretq_s16_u16</a>(uint16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_u16" target="_blank">vreinterpretq_s32_u16</a>(uint16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_u16" target="_blank">vreinterpretq_f32_u16</a>(uint16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_u16" target="_blank">vreinterpretq_u8_u16</a>(uint16x8_t a)</code>      | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_u16" target="_blank">vreinterpretq_u32_u16</a>(uint16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_u16" target="_blank">vreinterpretq_p8_u16</a>(uint16x8_t a)</code>      | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_u16" target="_blank">vreinterpretq_p16_u16</a>(uint16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_mf8_u16" target="_blank">vreinterpretq_mf8_u16</a>(uint16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_u16" target="_blank">vreinterpretq_u64_u16</a>(uint16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_u16" target="_blank">vreinterpretq_s64_u16</a>(uint16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_u16" target="_blank">vreinterpretq_f64_u16</a>(uint16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_u16" target="_blank">vreinterpretq_p64_u16</a>(uint16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_u16" target="_blank">vreinterpretq_p128_u16</a>(uint16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.1Q -> result`  | `A32/A64`                 |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_u16" target="_blank">vreinterpretq_f16_u16</a>(uint16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_u32" target="_blank">vreinterpretq_s8_u32</a>(uint32x4_t a)</code>       | `a -> Vd.4S`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_u32" target="_blank">vreinterpretq_s16_u32</a>(uint32x4_t a)</code>     | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_u32" target="_blank">vreinterpretq_s32_u32</a>(uint32x4_t a)</code>     | `a -> Vd.4S`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_u32" target="_blank">vreinterpretq_f32_u32</a>(uint32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_u32" target="_blank">vreinterpretq_u8_u32</a>(uint32x4_t a)</code>      | `a -> Vd.4S`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_u32" target="_blank">vreinterpretq_u16_u32</a>(uint32x4_t a)</code>    | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_u32" target="_blank">vreinterpretq_p8_u32</a>(uint32x4_t a)</code>      | `a -> Vd.4S`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_u32" target="_blank">vreinterpretq_p16_u32</a>(uint32x4_t a)</code>    | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_mf8_u32" target="_blank">vreinterpretq_mf8_u32</a>(uint32x4_t a)</code>  | `a -> Vd.4S`           | `NOP`                 | `Vd.16B -> result` | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_u32" target="_blank">vreinterpretq_u64_u32</a>(uint32x4_t a)</code>    | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_u32" target="_blank">vreinterpretq_s64_u32</a>(uint32x4_t a)</code>     | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_u32" target="_blank">vreinterpretq_f64_u32</a>(uint32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_u32" target="_blank">vreinterpretq_p64_u32</a>(uint32x4_t a)</code>    | `a -> Vd.4S`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_u32" target="_blank">vreinterpretq_p128_u32</a>(uint32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.1Q -> result`  | `A32/A64`                 |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_u32" target="_blank">vreinterpretq_f16_u32</a>(uint32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_p8" target="_blank">vreinterpretq_s8_p8</a>(poly8x16_t a)</code>         | `a -> Vd.16B`          | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_p8" target="_blank">vreinterpretq_s16_p8</a>(poly8x16_t a)</code>       | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_p8" target="_blank">vreinterpretq_s32_p8</a>(poly8x16_t a)</code>       | `a -> Vd.16B`          | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_p8" target="_blank">vreinterpretq_f32_p8</a>(poly8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_p8" target="_blank">vreinterpretq_u8_p8</a>(poly8x16_t a)</code>        | `a -> Vd.16B`          | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_p8" target="_blank">vreinterpretq_u16_p8</a>(poly8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_p8" target="_blank">vreinterpretq_u32_p8</a>(poly8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_p8" target="_blank">vreinterpretq_p16_p8</a>(poly8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_p8" target="_blank">vreinterpretq_u64_p8</a>(poly8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_p8" target="_blank">vreinterpretq_s64_p8</a>(poly8x16_t a)</code>       | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_p8" target="_blank">vreinterpretq_f64_p8</a>(poly8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_p8" target="_blank">vreinterpretq_p64_p8</a>(poly8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_p8" target="_blank">vreinterpretq_p128_p8</a>(poly8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.1Q -> result`  | `A32/A64`                 |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_p8" target="_blank">vreinterpretq_f16_p8</a>(poly8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_mf8" target="_blank">vreinterpretq_s8_mf8</a>(mfloat8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.16B -> result` | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_mf8" target="_blank">vreinterpretq_s16_mf8</a>(mfloat8x16_t a)</code>   | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `A64`                     |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_mf8" target="_blank">vreinterpretq_s32_mf8</a>(mfloat8x16_t a)</code>   | `a -> Vd.16B`          | `NOP`                 | `Vd.4S -> result`  | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_mf8" target="_blank">vreinterpretq_f32_mf8</a>(mfloat8x16_t a)</code> | `a -> Vd.16B`          | `NOP`                 | `Vd.4S -> result`  | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_mf8" target="_blank">vreinterpretq_u8_mf8</a>(mfloat8x16_t a)</code>    | `a -> Vd.16B`          | `NOP`                 | `Vd.16B -> result` | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_mf8" target="_blank">vreinterpretq_u16_mf8</a>(mfloat8x16_t a)</code>  | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `A64`                     |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_mf8" target="_blank">vreinterpretq_u32_mf8</a>(mfloat8x16_t a)</code>  | `a -> Vd.16B`          | `NOP`                 | `Vd.4S -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_mf8" target="_blank">vreinterpretq_p16_mf8</a>(mfloat8x16_t a)</code>  | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_mf8" target="_blank">vreinterpretq_u64_mf8</a>(mfloat8x16_t a)</code>  | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_mf8" target="_blank">vreinterpretq_s64_mf8</a>(mfloat8x16_t a)</code>   | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_mf8" target="_blank">vreinterpretq_f64_mf8</a>(mfloat8x16_t a)</code> | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_mf8" target="_blank">vreinterpretq_p64_mf8</a>(mfloat8x16_t a)</code>  | `a -> Vd.16B`          | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
+| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_mf8" target="_blank">vreinterpretq_p128_mf8</a>(mfloat8x16_t a)</code> | `a -> Vd.16B`          | `NOP`                 | `Vd.1Q -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_mf8" target="_blank">vreinterpretq_f16_mf8</a>(mfloat8x16_t a)</code> | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_p16" target="_blank">vreinterpretq_s8_p16</a>(poly16x8_t a)</code>       | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_p16" target="_blank">vreinterpretq_s16_p16</a>(poly16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_p16" target="_blank">vreinterpretq_s32_p16</a>(poly16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_p16" target="_blank">vreinterpretq_f32_p16</a>(poly16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_p16" target="_blank">vreinterpretq_u8_p16</a>(poly16x8_t a)</code>      | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_p16" target="_blank">vreinterpretq_u16_p16</a>(poly16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_p16" target="_blank">vreinterpretq_u32_p16</a>(poly16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_p16" target="_blank">vreinterpretq_p8_p16</a>(poly16x8_t a)</code>      | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_mf8_p16" target="_blank">vreinterpretq_mf8_p16</a>(poly16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_p16" target="_blank">vreinterpretq_u64_p16</a>(poly16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_p16" target="_blank">vreinterpretq_s64_p16</a>(poly16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_p16" target="_blank">vreinterpretq_f64_p16</a>(poly16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_p16" target="_blank">vreinterpretq_p64_p16</a>(poly16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_p16" target="_blank">vreinterpretq_p128_p16</a>(poly16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.1Q -> result`  | `A32/A64`                 |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_p16" target="_blank">vreinterpretq_f16_p16</a>(poly16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_u64" target="_blank">vreinterpretq_s8_u64</a>(uint64x2_t a)</code>       | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_u64" target="_blank">vreinterpretq_s16_u64</a>(uint64x2_t a)</code>     | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_u64" target="_blank">vreinterpretq_s32_u64</a>(uint64x2_t a)</code>     | `a -> Vd.2D`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_u64" target="_blank">vreinterpretq_f32_u64</a>(uint64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_u64" target="_blank">vreinterpretq_u8_u64</a>(uint64x2_t a)</code>      | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_u64" target="_blank">vreinterpretq_u16_u64</a>(uint64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_u64" target="_blank">vreinterpretq_u32_u64</a>(uint64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_u64" target="_blank">vreinterpretq_p8_u64</a>(uint64x2_t a)</code>      | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_u64" target="_blank">vreinterpretq_p16_u64</a>(uint64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_mf8_u64" target="_blank">vreinterpretq_mf8_u64</a>(uint64x2_t a)</code>  | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `A64`                     |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_u64" target="_blank">vreinterpretq_s64_u64</a>(uint64x2_t a)</code>     | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_u64" target="_blank">vreinterpretq_f64_u64</a>(uint64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_s64" target="_blank">vreinterpretq_f64_s64</a>(int64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_s64" target="_blank">vreinterpretq_p64_s64</a>(int64x2_t a)</code>     | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_s64" target="_blank">vreinterpretq_p128_s64</a>(int64x2_t a)</code>    | `a -> Vd.1Q`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_u64" target="_blank">vreinterpretq_p64_u64</a>(uint64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_u64" target="_blank">vreinterpretq_p128_u64</a>(uint64x2_t a)</code>   | `a -> Vd.1Q`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_u64" target="_blank">vreinterpretq_f16_u64</a>(uint64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_s64" target="_blank">vreinterpretq_s8_s64</a>(int64x2_t a)</code>        | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_s64" target="_blank">vreinterpretq_s16_s64</a>(int64x2_t a)</code>      | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_s64" target="_blank">vreinterpretq_s32_s64</a>(int64x2_t a)</code>      | `a -> Vd.2D`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_s64" target="_blank">vreinterpretq_f32_s64</a>(int64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_s64" target="_blank">vreinterpretq_u8_s64</a>(int64x2_t a)</code>       | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_s64" target="_blank">vreinterpretq_u16_s64</a>(int64x2_t a)</code>     | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_s64" target="_blank">vreinterpretq_u32_s64</a>(int64x2_t a)</code>     | `a -> Vd.2D`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_s64" target="_blank">vreinterpretq_p8_s64</a>(int64x2_t a)</code>       | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_s64" target="_blank">vreinterpretq_p16_s64</a>(int64x2_t a)</code>     | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_mf8_s64" target="_blank">vreinterpretq_mf8_s64</a>(int64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_s64" target="_blank">vreinterpretq_u64_s64</a>(int64x2_t a)</code>     | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_p64" target="_blank">vreinterpretq_u64_p64</a>(poly64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_s64" target="_blank">vreinterpretq_f16_s64</a>(int64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_f16" target="_blank">vreinterpretq_s8_f16</a>(float16x8_t a)</code>      | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_f16" target="_blank">vreinterpretq_s16_f16</a>(float16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_f16" target="_blank">vreinterpretq_s32_f16</a>(float16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_f16" target="_blank">vreinterpretq_f32_f16</a>(float16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_f16" target="_blank">vreinterpretq_u8_f16</a>(float16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_f16" target="_blank">vreinterpretq_u16_f16</a>(float16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_f16" target="_blank">vreinterpretq_u32_f16</a>(float16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_f16" target="_blank">vreinterpretq_p8_f16</a>(float16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_f16" target="_blank">vreinterpretq_p16_f16</a>(float16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_mf8_f16" target="_blank">vreinterpretq_mf8_f16</a>(float16x8_t a)</code> | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_f16" target="_blank">vreinterpretq_u64_f16</a>(float16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_f16" target="_blank">vreinterpretq_s64_f16</a>(float16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_f16" target="_blank">vreinterpretq_f64_f16</a>(float16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_f16" target="_blank">vreinterpretq_p64_f16</a>(float16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_f16" target="_blank">vreinterpretq_p128_f16</a>(float16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.1Q -> result`  | `A32/A64`                 |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_f64" target="_blank">vreinterpret_s8_f64</a>(float64x1_t a)</code>         | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_f64" target="_blank">vreinterpret_s16_f64</a>(float64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A64`                     |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_f64" target="_blank">vreinterpret_s32_f64</a>(float64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.2S -> result`  | `A64`                     |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_f64" target="_blank">vreinterpret_u8_f64</a>(float64x1_t a)</code>        | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_f64" target="_blank">vreinterpret_u16_f64</a>(float64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A64`                     |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_f64" target="_blank">vreinterpret_u32_f64</a>(float64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.2S -> result`  | `A64`                     |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_f64" target="_blank">vreinterpret_p8_f64</a>(float64x1_t a)</code>        | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_f64" target="_blank">vreinterpret_p16_f64</a>(float64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_mf8_f64" target="_blank">vreinterpret_mf8_f64</a>(float64x1_t a)</code>    | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_f64" target="_blank">vreinterpret_u64_f64</a>(float64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_f64" target="_blank">vreinterpret_s64_f64</a>(float64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_f64" target="_blank">vreinterpret_f16_f64</a>(float64x1_t a)</code>    | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A64`                     |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_f64" target="_blank">vreinterpret_f32_f64</a>(float64x1_t a)</code>    | `a -> Vd.1D`           | `NOP`                 | `Vd.2S -> result`  | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_f64" target="_blank">vreinterpretq_s8_f64</a>(float64x2_t a)</code>      | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_f64" target="_blank">vreinterpretq_s16_f64</a>(float64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A64`                     |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_f64" target="_blank">vreinterpretq_s32_f64</a>(float64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.4S -> result`  | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_f64" target="_blank">vreinterpretq_u8_f64</a>(float64x2_t a)</code>     | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_f64" target="_blank">vreinterpretq_u16_f64</a>(float64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A64`                     |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_f64" target="_blank">vreinterpretq_u32_f64</a>(float64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.4S -> result`  | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_f64" target="_blank">vreinterpretq_p8_f64</a>(float64x2_t a)</code>     | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_f64" target="_blank">vreinterpretq_p16_f64</a>(float64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_mf8_f64" target="_blank">vreinterpretq_mf8_f64</a>(float64x2_t a)</code> | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_f64" target="_blank">vreinterpretq_u64_f64</a>(float64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_f64" target="_blank">vreinterpretq_s64_f64</a>(float64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_f64" target="_blank">vreinterpretq_f16_f64</a>(float64x2_t a)</code>  | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_f64" target="_blank">vreinterpretq_f32_f64</a>(float64x2_t a)</code>  | `a -> Vd.2D`           | `NOP`                 | `Vd.4S -> result`  | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_p64" target="_blank">vreinterpret_s8_p64</a>(poly64x1_t a)</code>          | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `A32/A64`                 |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_p64" target="_blank">vreinterpret_s16_p64</a>(poly64x1_t a)</code>       | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_p64" target="_blank">vreinterpret_s32_p64</a>(poly64x1_t a)</code>       | `a -> Vd.1D`           | `NOP`                 | `Vd.2S -> result`  | `A32/A64`                 |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_p64" target="_blank">vreinterpret_u8_p64</a>(poly64x1_t a)</code>         | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `A32/A64`                 |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_p64" target="_blank">vreinterpret_u16_p64</a>(poly64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_p64" target="_blank">vreinterpret_u32_p64</a>(poly64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.2S -> result`  | `A32/A64`                 |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_p64" target="_blank">vreinterpret_p8_p64</a>(poly64x1_t a)</code>         | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `A32/A64`                 |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_p64" target="_blank">vreinterpret_p16_p64</a>(poly64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_mf8_p64" target="_blank">vreinterpret_mf8_p64</a>(poly64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.8B -> result`  | `A32/A64`                 |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_p64" target="_blank">vreinterpret_s64_p64</a>(poly64x1_t a)</code>       | `a -> Vd.1D`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_p64" target="_blank">vreinterpret_f64_p64</a>(poly64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f16_p64" target="_blank">vreinterpret_f16_p64</a>(poly64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_p64" target="_blank">vreinterpretq_s8_p64</a>(poly64x2_t a)</code>       | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `A32/A64`                 |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_p64" target="_blank">vreinterpretq_s16_p64</a>(poly64x2_t a)</code>     | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_p64" target="_blank">vreinterpretq_s32_p64</a>(poly64x2_t a)</code>     | `a -> Vd.2D`           | `NOP`                 | `Vd.4S -> result`  | `A32/A64`                 |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_p64" target="_blank">vreinterpretq_u8_p64</a>(poly64x2_t a)</code>      | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `A32/A64`                 |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_p64" target="_blank">vreinterpretq_u16_p64</a>(poly64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_p64" target="_blank">vreinterpretq_u32_p64</a>(poly64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.4S -> result`  | `A32/A64`                 |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_p64" target="_blank">vreinterpretq_p8_p64</a>(poly64x2_t a)</code>      | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `A32/A64`                 |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_p64" target="_blank">vreinterpretq_p16_p64</a>(poly64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_mf8_p64" target="_blank">vreinterpretq_mf8_p64</a>(poly64x2_t a)</code>  | `a -> Vd.2D`           | `NOP`                 | `Vd.16B -> result` | `A64`                     |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_p64" target="_blank">vreinterpretq_s64_p64</a>(poly64x2_t a)</code>     | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_p64" target="_blank">vreinterpretq_f64_p64</a>(poly64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_p64" target="_blank">vreinterpretq_f16_p64</a>(poly64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_p128" target="_blank">vreinterpretq_s8_p128</a>(poly128_t a)</code>      | `a -> Vd.1Q`           | `NOP`                 | `Vd.16B -> result` | `A32/A64`                 |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_p128" target="_blank">vreinterpretq_s16_p128</a>(poly128_t a)</code>    | `a -> Vd.1Q`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_p128" target="_blank">vreinterpretq_s32_p128</a>(poly128_t a)</code>    | `a -> Vd.1Q`           | `NOP`                 | `Vd.4S -> result`  | `A32/A64`                 |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_p128" target="_blank">vreinterpretq_u8_p128</a>(poly128_t a)</code>     | `a -> Vd.1Q`           | `NOP`                 | `Vd.16B -> result` | `A32/A64`                 |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_p128" target="_blank">vreinterpretq_u16_p128</a>(poly128_t a)</code>   | `a -> Vd.1Q`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_p128" target="_blank">vreinterpretq_u32_p128</a>(poly128_t a)</code>   | `a -> Vd.1Q`           | `NOP`                 | `Vd.4S -> result`  | `A32/A64`                 |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_p128" target="_blank">vreinterpretq_p8_p128</a>(poly128_t a)</code>     | `a -> Vd.1Q`           | `NOP`                 | `Vd.16B -> result` | `A32/A64`                 |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_p128" target="_blank">vreinterpretq_p16_p128</a>(poly128_t a)</code>   | `a -> Vd.1Q`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_mf8_p128" target="_blank">vreinterpretq_mf8_p128</a>(poly128_t a)</code> | `a -> Vd.1Q`           | `NOP`                 | `Vd.16B -> result` | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_p128" target="_blank">vreinterpretq_u64_p128</a>(poly128_t a)</code>   | `a -> Vd.1Q`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_p128" target="_blank">vreinterpretq_s64_p128</a>(poly128_t a)</code>    | `a -> Vd.1Q`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_p128" target="_blank">vreinterpretq_f64_p128</a>(poly128_t a)</code>  | `a -> Vd.1Q`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f16_p128" target="_blank">vreinterpretq_f16_p128</a>(poly128_t a)</code>  | `a -> Vd.1Q`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_mf8_u8" target="_blank">vreinterpret_mf8_u8</a>(uint8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_mf8_u8" target="_blank">vreinterpretq_mf8_u8</a>(uint8x16_t a)</code>    | `a -> Vd.16B`          | `NOP`                 | `Vd.16B -> result` | `A64`                     |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_mf8" target="_blank">vreinterpret_u8_mf8</a>(mfloat8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_mf8" target="_blank">vreinterpretq_u8_mf8</a>(mfloat8x16_t a)</code>    | `a -> Vd.16B`          | `NOP`                 | `Vd.16B -> result` | `A64`                     |
 
 ### Move
 
@@ -3045,60 +3103,64 @@ The intrinsics in this section are guarded by the macro ``__ARM_NEON``.
 
 #### Copy vector lane
 
-| Intrinsic                                                                                                                                                                                                                                                                                                                                     | Argument preparation                                                       | AArch64 Instruction           | Result             | Supported architectures   |
-|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------|-------------------------------|--------------------|---------------------------|
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_s8" target="_blank">vcopy_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>                | `a -> Vd.8B`<br>`0 <= lane1 <= 7`<br>`b -> Vn.8B`<br>`0 <= lane2 <= 7`     | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.8B -> result`  | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_s8" target="_blank">vcopyq_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>            | `a -> Vd.16B`<br>`0 <= lane1 <= 15`<br>`b -> Vn.8B`<br>`0 <= lane2 <= 7`   | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.16B -> result` | `A64`                     |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_s16" target="_blank">vcopy_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>           | `a -> Vd.4H`<br>`0 <= lane1 <= 3`<br>`b -> Vn.4H`<br>`0 <= lane2 <= 3`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.4H -> result`  | `A64`                     |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_s16" target="_blank">vcopyq_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>         | `a -> Vd.8H`<br>`0 <= lane1 <= 7`<br>`b -> Vn.4H`<br>`0 <= lane2 <= 3`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.8H -> result`  | `A64`                     |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_s32" target="_blank">vcopy_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>           | `a -> Vd.2S`<br>`0 <= lane1 <= 1`<br>`b -> Vn.2S`<br>`0 <= lane2 <= 1`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.2S -> result`  | `A64`                     |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_s32" target="_blank">vcopyq_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>         | `a -> Vd.4S`<br>`0 <= lane1 <= 3`<br>`b -> Vn.2S`<br>`0 <= lane2 <= 1`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.4S -> result`  | `A64`                     |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_s64" target="_blank">vcopy_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>           | `a -> UNUSED`<br>`0 <= lane1 <= 0`<br>`b -> Vn.1D`<br>`0 <= lane2 <= 0`    | `DUP Dd,Vn.D[lane2]`          | `Dd -> result`     | `A64`                     |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_s64" target="_blank">vcopyq_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>         | `a -> Vd.2D`<br>`0 <= lane1 <= 1`<br>`b -> Vn.1D`<br>`0 <= lane2 <= 0`     | `INS Vd.D[lane1],Vn.D[lane2]` | `Vd.2D -> result`  | `A64`                     |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_u8" target="_blank">vcopy_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>             | `a -> Vd.8B`<br>`0 <= lane1 <= 7`<br>`b -> Vn.8B`<br>`0 <= lane2 <= 7`     | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.8B -> result`  | `A64`                     |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_u8" target="_blank">vcopyq_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>         | `a -> Vd.16B`<br>`0 <= lane1 <= 15`<br>`b -> Vn.8B`<br>`0 <= lane2 <= 7`   | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.16B -> result` | `A64`                     |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_u16" target="_blank">vcopy_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>        | `a -> Vd.4H`<br>`0 <= lane1 <= 3`<br>`b -> Vn.4H`<br>`0 <= lane2 <= 3`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.4H -> result`  | `A64`                     |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_u16" target="_blank">vcopyq_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>      | `a -> Vd.8H`<br>`0 <= lane1 <= 7`<br>`b -> Vn.4H`<br>`0 <= lane2 <= 3`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.8H -> result`  | `A64`                     |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_u32" target="_blank">vcopy_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>        | `a -> Vd.2S`<br>`0 <= lane1 <= 1`<br>`b -> Vn.2S`<br>`0 <= lane2 <= 1`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.2S -> result`  | `A64`                     |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_u32" target="_blank">vcopyq_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>      | `a -> Vd.4S`<br>`0 <= lane1 <= 3`<br>`b -> Vn.2S`<br>`0 <= lane2 <= 1`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.4S -> result`  | `A64`                     |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_u64" target="_blank">vcopy_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>        | `a -> UNUSED`<br>`0 <= lane1 <= 0`<br>`b -> Vn.1D`<br>`0 <= lane2 <= 0`    | `DUP Dd,Vn.D[lane2]`          | `Dd -> result`     | `A64`                     |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_u64" target="_blank">vcopyq_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>      | `a -> Vd.2D`<br>`0 <= lane1 <= 1`<br>`b -> Vn.1D`<br>`0 <= lane2 <= 0`     | `INS Vd.D[lane1],Vn.D[lane2]` | `Vd.2D -> result`  | `A64`                     |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_p64" target="_blank">vcopy_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>        | `a -> UNUSED`<br>`0 <= lane1 <= 0`<br>`b -> Vn.1D`<br>`0 <= lane2 <= 0`    | `DUP Dd,Vn.D[lane2]`          | `Dd -> result`     | `A32/A64`                 |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_p64" target="_blank">vcopyq_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>      | `a -> Vd.2D`<br>`0 <= lane1 <= 1`<br>`b -> Vn.1D`<br>`0 <= lane2 <= 0`     | `INS Vd.D[lane1],Vn.D[lane2]` | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_f32" target="_blank">vcopy_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>     | `a -> Vd.2S`<br>`0 <= lane1 <= 1`<br>`b -> Vn.2S`<br>`0 <= lane2 <= 1`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.2S -> result`  | `A64`                     |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_f32" target="_blank">vcopyq_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>   | `a -> Vd.4S`<br>`0 <= lane1 <= 3`<br>`b -> Vn.2S`<br>`0 <= lane2 <= 1`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.4S -> result`  | `A64`                     |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_f64" target="_blank">vcopy_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>     | `a -> UNUSED`<br>`0 <= lane1 <= 0`<br>`b -> Vn.1D`<br>`0 <= lane2 <= 0`    | `DUP Dd,Vn.D[lane2]`          | `Dd -> result`     | `A64`                     |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_f64" target="_blank">vcopyq_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>   | `a -> Vd.2D`<br>`0 <= lane1 <= 1`<br>`b -> Vn.1D`<br>`0 <= lane2 <= 0`     | `INS Vd.D[lane1],Vn.D[lane2]` | `Vd.2D -> result`  | `A64`                     |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_p8" target="_blank">vcopy_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>             | `a -> Vd.8B`<br>`0 <= lane1 <= 7`<br>`b -> Vn.8B`<br>`0 <= lane2 <= 7`     | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.8B -> result`  | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_p8" target="_blank">vcopyq_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>         | `a -> Vd.16B`<br>`0 <= lane1 <= 15`<br>`b -> Vn.8B`<br>`0 <= lane2 <= 7`   | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.16B -> result` | `A64`                     |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_p16" target="_blank">vcopy_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>        | `a -> Vd.4H`<br>`0 <= lane1 <= 3`<br>`b -> Vn.4H`<br>`0 <= lane2 <= 3`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.4H -> result`  | `A64`                     |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_p16" target="_blank">vcopyq_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>      | `a -> Vd.8H`<br>`0 <= lane1 <= 7`<br>`b -> Vn.4H`<br>`0 <= lane2 <= 3`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.8H -> result`  | `A64`                     |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_s8" target="_blank">vcopy_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>             | `a -> Vd.8B`<br>`0 <= lane1 <= 7`<br>`b -> Vn.16B`<br>`0 <= lane2 <= 15`   | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.8B -> result`  | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_s8" target="_blank">vcopyq_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>         | `a -> Vd.16B`<br>`0 <= lane1 <= 15`<br>`b -> Vn.16B`<br>`0 <= lane2 <= 15` | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.16B -> result` | `A64`                     |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_s16" target="_blank">vcopy_laneq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>         | `a -> Vd.4H`<br>`0 <= lane1 <= 3`<br>`b -> Vn.8H`<br>`0 <= lane2 <= 7`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.4H -> result`  | `A64`                     |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_s16" target="_blank">vcopyq_laneq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>       | `a -> Vd.8H`<br>`0 <= lane1 <= 7`<br>`b -> Vn.8H`<br>`0 <= lane2 <= 7`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.8H -> result`  | `A64`                     |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_s32" target="_blank">vcopy_laneq_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>         | `a -> Vd.2S`<br>`0 <= lane1 <= 1`<br>`b -> Vn.4S`<br>`0 <= lane2 <= 3`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.2S -> result`  | `A64`                     |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_s32" target="_blank">vcopyq_laneq_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>       | `a -> Vd.4S`<br>`0 <= lane1 <= 3`<br>`b -> Vn.4S`<br>`0 <= lane2 <= 3`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.4S -> result`  | `A64`                     |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_s64" target="_blank">vcopy_laneq_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>         | `a -> UNUSED`<br>`0 <= lane1 <= 0`<br>`b -> Vn.2D`<br>`0 <= lane2 <= 1`    | `DUP Dd,Vn.D[lane2]`          | `Dd -> result`     | `A64`                     |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_s64" target="_blank">vcopyq_laneq_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>       | `a -> Vd.2D`<br>`0 <= lane1 <= 1`<br>`b -> Vn.2D`<br>`0 <= lane2 <= 1`     | `INS Vd.D[lane1],Vn.D[lane2]` | `Vd.2D -> result`  | `A64`                     |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_u8" target="_blank">vcopy_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>          | `a -> Vd.8B`<br>`0 <= lane1 <= 7`<br>`b -> Vn.16B`<br>`0 <= lane2 <= 15`   | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.8B -> result`  | `A64`                     |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_u8" target="_blank">vcopyq_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>      | `a -> Vd.16B`<br>`0 <= lane1 <= 15`<br>`b -> Vn.16B`<br>`0 <= lane2 <= 15` | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.16B -> result` | `A64`                     |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_u16" target="_blank">vcopy_laneq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>      | `a -> Vd.4H`<br>`0 <= lane1 <= 3`<br>`b -> Vn.8H`<br>`0 <= lane2 <= 7`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.4H -> result`  | `A64`                     |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_u16" target="_blank">vcopyq_laneq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>    | `a -> Vd.8H`<br>`0 <= lane1 <= 7`<br>`b -> Vn.8H`<br>`0 <= lane2 <= 7`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.8H -> result`  | `A64`                     |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_u32" target="_blank">vcopy_laneq_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>      | `a -> Vd.2S`<br>`0 <= lane1 <= 1`<br>`b -> Vn.4S`<br>`0 <= lane2 <= 3`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.2S -> result`  | `A64`                     |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_u32" target="_blank">vcopyq_laneq_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>    | `a -> Vd.4S`<br>`0 <= lane1 <= 3`<br>`b -> Vn.4S`<br>`0 <= lane2 <= 3`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.4S -> result`  | `A64`                     |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_u64" target="_blank">vcopy_laneq_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>      | `a -> UNUSED`<br>`0 <= lane1 <= 0`<br>`b -> Vn.2D`<br>`0 <= lane2 <= 1`    | `DUP Dd,Vn.D[lane2]`          | `Dd -> result`     | `A64`                     |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_u64" target="_blank">vcopyq_laneq_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>    | `a -> Vd.2D`<br>`0 <= lane1 <= 1`<br>`b -> Vn.2D`<br>`0 <= lane2 <= 1`     | `INS Vd.D[lane1],Vn.D[lane2]` | `Vd.2D -> result`  | `A64`                     |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_p64" target="_blank">vcopy_laneq_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>      | `a -> UNUSED`<br>`0 <= lane1 <= 0`<br>`b -> Vn.2D`<br>`0 <= lane2 <= 1`    | `DUP Dd,Vn.D[lane2]`          | `Dd -> result`     | `A32/A64`                 |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_p64" target="_blank">vcopyq_laneq_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>    | `a -> Vd.2D`<br>`0 <= lane1 <= 1`<br>`b -> Vn.2D`<br>`0 <= lane2 <= 1`     | `INS Vd.D[lane1],Vn.D[lane2]` | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_f32" target="_blank">vcopy_laneq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>   | `a -> Vd.2S`<br>`0 <= lane1 <= 1`<br>`b -> Vn.4S`<br>`0 <= lane2 <= 3`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.2S -> result`  | `A64`                     |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_f32" target="_blank">vcopyq_laneq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code> | `a -> Vd.4S`<br>`0 <= lane1 <= 3`<br>`b -> Vn.4S`<br>`0 <= lane2 <= 3`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.4S -> result`  | `A64`                     |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_f64" target="_blank">vcopy_laneq_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>   | `a -> UNUSED`<br>`0 <= lane1 <= 0`<br>`b -> Vn.2D`<br>`0 <= lane2 <= 1`    | `DUP Dd,Vn.D[lane2]`          | `Dd -> result`     | `A64`                     |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_f64" target="_blank">vcopyq_laneq_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code> | `a -> Vd.2D`<br>`0 <= lane1 <= 1`<br>`b -> Vn.2D`<br>`0 <= lane2 <= 1`     | `INS Vd.D[lane1],Vn.D[lane2]` | `Vd.2D -> result`  | `A64`                     |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_p8" target="_blank">vcopy_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>          | `a -> Vd.8B`<br>`0 <= lane1 <= 7`<br>`b -> Vn.16B`<br>`0 <= lane2 <= 15`   | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.8B -> result`  | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_p8" target="_blank">vcopyq_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>      | `a -> Vd.16B`<br>`0 <= lane1 <= 15`<br>`b -> Vn.16B`<br>`0 <= lane2 <= 15` | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.16B -> result` | `A64`                     |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_p16" target="_blank">vcopy_laneq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>      | `a -> Vd.4H`<br>`0 <= lane1 <= 3`<br>`b -> Vn.8H`<br>`0 <= lane2 <= 7`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.4H -> result`  | `A64`                     |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_p16" target="_blank">vcopyq_laneq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>    | `a -> Vd.8H`<br>`0 <= lane1 <= 7`<br>`b -> Vn.8H`<br>`0 <= lane2 <= 7`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.8H -> result`  | `A64`                     |
+| Intrinsic                                                                                                                                                                                                                                                                                                                                        | Argument preparation                                                       | AArch64 Instruction           | Result             | Supported architectures   |
+|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------|-------------------------------|--------------------|---------------------------|
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_s8" target="_blank">vcopy_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>                   | `a -> Vd.8B`<br>`0 <= lane1 <= 7`<br>`b -> Vn.8B`<br>`0 <= lane2 <= 7`     | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.8B -> result`  | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_s8" target="_blank">vcopyq_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>               | `a -> Vd.16B`<br>`0 <= lane1 <= 15`<br>`b -> Vn.8B`<br>`0 <= lane2 <= 7`   | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.16B -> result` | `A64`                     |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_s16" target="_blank">vcopy_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>              | `a -> Vd.4H`<br>`0 <= lane1 <= 3`<br>`b -> Vn.4H`<br>`0 <= lane2 <= 3`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.4H -> result`  | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_s16" target="_blank">vcopyq_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>            | `a -> Vd.8H`<br>`0 <= lane1 <= 7`<br>`b -> Vn.4H`<br>`0 <= lane2 <= 3`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.8H -> result`  | `A64`                     |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_s32" target="_blank">vcopy_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>              | `a -> Vd.2S`<br>`0 <= lane1 <= 1`<br>`b -> Vn.2S`<br>`0 <= lane2 <= 1`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.2S -> result`  | `A64`                     |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_s32" target="_blank">vcopyq_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>            | `a -> Vd.4S`<br>`0 <= lane1 <= 3`<br>`b -> Vn.2S`<br>`0 <= lane2 <= 1`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.4S -> result`  | `A64`                     |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_s64" target="_blank">vcopy_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>              | `a -> UNUSED`<br>`0 <= lane1 <= 0`<br>`b -> Vn.1D`<br>`0 <= lane2 <= 0`    | `DUP Dd,Vn.D[lane2]`          | `Dd -> result`     | `A64`                     |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_s64" target="_blank">vcopyq_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>            | `a -> Vd.2D`<br>`0 <= lane1 <= 1`<br>`b -> Vn.1D`<br>`0 <= lane2 <= 0`     | `INS Vd.D[lane1],Vn.D[lane2]` | `Vd.2D -> result`  | `A64`                     |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_u8" target="_blank">vcopy_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>                | `a -> Vd.8B`<br>`0 <= lane1 <= 7`<br>`b -> Vn.8B`<br>`0 <= lane2 <= 7`     | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.8B -> result`  | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_u8" target="_blank">vcopyq_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>            | `a -> Vd.16B`<br>`0 <= lane1 <= 15`<br>`b -> Vn.8B`<br>`0 <= lane2 <= 7`   | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.16B -> result` | `A64`                     |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_u16" target="_blank">vcopy_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>           | `a -> Vd.4H`<br>`0 <= lane1 <= 3`<br>`b -> Vn.4H`<br>`0 <= lane2 <= 3`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.4H -> result`  | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_u16" target="_blank">vcopyq_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>         | `a -> Vd.8H`<br>`0 <= lane1 <= 7`<br>`b -> Vn.4H`<br>`0 <= lane2 <= 3`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.8H -> result`  | `A64`                     |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_u32" target="_blank">vcopy_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>           | `a -> Vd.2S`<br>`0 <= lane1 <= 1`<br>`b -> Vn.2S`<br>`0 <= lane2 <= 1`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.2S -> result`  | `A64`                     |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_u32" target="_blank">vcopyq_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>         | `a -> Vd.4S`<br>`0 <= lane1 <= 3`<br>`b -> Vn.2S`<br>`0 <= lane2 <= 1`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.4S -> result`  | `A64`                     |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_u64" target="_blank">vcopy_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>           | `a -> UNUSED`<br>`0 <= lane1 <= 0`<br>`b -> Vn.1D`<br>`0 <= lane2 <= 0`    | `DUP Dd,Vn.D[lane2]`          | `Dd -> result`     | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_u64" target="_blank">vcopyq_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>         | `a -> Vd.2D`<br>`0 <= lane1 <= 1`<br>`b -> Vn.1D`<br>`0 <= lane2 <= 0`     | `INS Vd.D[lane1],Vn.D[lane2]` | `Vd.2D -> result`  | `A64`                     |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_p64" target="_blank">vcopy_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>           | `a -> UNUSED`<br>`0 <= lane1 <= 0`<br>`b -> Vn.1D`<br>`0 <= lane2 <= 0`    | `DUP Dd,Vn.D[lane2]`          | `Dd -> result`     | `A32/A64`                 |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_p64" target="_blank">vcopyq_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>         | `a -> Vd.2D`<br>`0 <= lane1 <= 1`<br>`b -> Vn.1D`<br>`0 <= lane2 <= 0`     | `INS Vd.D[lane1],Vn.D[lane2]` | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_f32" target="_blank">vcopy_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>        | `a -> Vd.2S`<br>`0 <= lane1 <= 1`<br>`b -> Vn.2S`<br>`0 <= lane2 <= 1`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.2S -> result`  | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_f32" target="_blank">vcopyq_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>      | `a -> Vd.4S`<br>`0 <= lane1 <= 3`<br>`b -> Vn.2S`<br>`0 <= lane2 <= 1`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.4S -> result`  | `A64`                     |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_f64" target="_blank">vcopy_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>        | `a -> UNUSED`<br>`0 <= lane1 <= 0`<br>`b -> Vn.1D`<br>`0 <= lane2 <= 0`    | `DUP Dd,Vn.D[lane2]`          | `Dd -> result`     | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_f64" target="_blank">vcopyq_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>      | `a -> Vd.2D`<br>`0 <= lane1 <= 1`<br>`b -> Vn.1D`<br>`0 <= lane2 <= 0`     | `INS Vd.D[lane1],Vn.D[lane2]` | `Vd.2D -> result`  | `A64`                     |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_p8" target="_blank">vcopy_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>                | `a -> Vd.8B`<br>`0 <= lane1 <= 7`<br>`b -> Vn.8B`<br>`0 <= lane2 <= 7`     | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.8B -> result`  | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_p8" target="_blank">vcopyq_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>            | `a -> Vd.16B`<br>`0 <= lane1 <= 15`<br>`b -> Vn.8B`<br>`0 <= lane2 <= 7`   | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.16B -> result` | `A64`                     |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_p16" target="_blank">vcopy_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>           | `a -> Vd.4H`<br>`0 <= lane1 <= 3`<br>`b -> Vn.4H`<br>`0 <= lane2 <= 3`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.4H -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_p16" target="_blank">vcopyq_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>         | `a -> Vd.8H`<br>`0 <= lane1 <= 7`<br>`b -> Vn.4H`<br>`0 <= lane2 <= 3`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.8H -> result`  | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_lane_mf8" target="_blank">vcopy_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>        | `a -> Vd.8B`<br>`0 <= lane1 <= 7`<br>`b -> Vn.8B`<br>`0 <= lane2 <= 7`     | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.8B -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_lane_mf8" target="_blank">vcopyq_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>    | `a -> Vd.16B`<br>`0 <= lane1 <= 15`<br>`b -> Vn.8B`<br>`0 <= lane2 <= 7`   | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.16B -> result` | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_s8" target="_blank">vcopy_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>                | `a -> Vd.8B`<br>`0 <= lane1 <= 7`<br>`b -> Vn.16B`<br>`0 <= lane2 <= 15`   | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.8B -> result`  | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_s8" target="_blank">vcopyq_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>            | `a -> Vd.16B`<br>`0 <= lane1 <= 15`<br>`b -> Vn.16B`<br>`0 <= lane2 <= 15` | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.16B -> result` | `A64`                     |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_s16" target="_blank">vcopy_laneq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>            | `a -> Vd.4H`<br>`0 <= lane1 <= 3`<br>`b -> Vn.8H`<br>`0 <= lane2 <= 7`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.4H -> result`  | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_s16" target="_blank">vcopyq_laneq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>          | `a -> Vd.8H`<br>`0 <= lane1 <= 7`<br>`b -> Vn.8H`<br>`0 <= lane2 <= 7`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.8H -> result`  | `A64`                     |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_s32" target="_blank">vcopy_laneq_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>            | `a -> Vd.2S`<br>`0 <= lane1 <= 1`<br>`b -> Vn.4S`<br>`0 <= lane2 <= 3`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.2S -> result`  | `A64`                     |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_s32" target="_blank">vcopyq_laneq_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>          | `a -> Vd.4S`<br>`0 <= lane1 <= 3`<br>`b -> Vn.4S`<br>`0 <= lane2 <= 3`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.4S -> result`  | `A64`                     |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_s64" target="_blank">vcopy_laneq_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>            | `a -> UNUSED`<br>`0 <= lane1 <= 0`<br>`b -> Vn.2D`<br>`0 <= lane2 <= 1`    | `DUP Dd,Vn.D[lane2]`          | `Dd -> result`     | `A64`                     |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_s64" target="_blank">vcopyq_laneq_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>          | `a -> Vd.2D`<br>`0 <= lane1 <= 1`<br>`b -> Vn.2D`<br>`0 <= lane2 <= 1`     | `INS Vd.D[lane1],Vn.D[lane2]` | `Vd.2D -> result`  | `A64`                     |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_u8" target="_blank">vcopy_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>             | `a -> Vd.8B`<br>`0 <= lane1 <= 7`<br>`b -> Vn.16B`<br>`0 <= lane2 <= 15`   | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.8B -> result`  | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_u8" target="_blank">vcopyq_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>         | `a -> Vd.16B`<br>`0 <= lane1 <= 15`<br>`b -> Vn.16B`<br>`0 <= lane2 <= 15` | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.16B -> result` | `A64`                     |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_u16" target="_blank">vcopy_laneq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>         | `a -> Vd.4H`<br>`0 <= lane1 <= 3`<br>`b -> Vn.8H`<br>`0 <= lane2 <= 7`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.4H -> result`  | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_u16" target="_blank">vcopyq_laneq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>       | `a -> Vd.8H`<br>`0 <= lane1 <= 7`<br>`b -> Vn.8H`<br>`0 <= lane2 <= 7`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.8H -> result`  | `A64`                     |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_u32" target="_blank">vcopy_laneq_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>         | `a -> Vd.2S`<br>`0 <= lane1 <= 1`<br>`b -> Vn.4S`<br>`0 <= lane2 <= 3`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.2S -> result`  | `A64`                     |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_u32" target="_blank">vcopyq_laneq_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>       | `a -> Vd.4S`<br>`0 <= lane1 <= 3`<br>`b -> Vn.4S`<br>`0 <= lane2 <= 3`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.4S -> result`  | `A64`                     |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_u64" target="_blank">vcopy_laneq_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>         | `a -> UNUSED`<br>`0 <= lane1 <= 0`<br>`b -> Vn.2D`<br>`0 <= lane2 <= 1`    | `DUP Dd,Vn.D[lane2]`          | `Dd -> result`     | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_u64" target="_blank">vcopyq_laneq_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>       | `a -> Vd.2D`<br>`0 <= lane1 <= 1`<br>`b -> Vn.2D`<br>`0 <= lane2 <= 1`     | `INS Vd.D[lane1],Vn.D[lane2]` | `Vd.2D -> result`  | `A64`                     |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_p64" target="_blank">vcopy_laneq_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>         | `a -> UNUSED`<br>`0 <= lane1 <= 0`<br>`b -> Vn.2D`<br>`0 <= lane2 <= 1`    | `DUP Dd,Vn.D[lane2]`          | `Dd -> result`     | `A32/A64`                 |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_p64" target="_blank">vcopyq_laneq_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>       | `a -> Vd.2D`<br>`0 <= lane1 <= 1`<br>`b -> Vn.2D`<br>`0 <= lane2 <= 1`     | `INS Vd.D[lane1],Vn.D[lane2]` | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_f32" target="_blank">vcopy_laneq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>      | `a -> Vd.2S`<br>`0 <= lane1 <= 1`<br>`b -> Vn.4S`<br>`0 <= lane2 <= 3`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.2S -> result`  | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_f32" target="_blank">vcopyq_laneq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>    | `a -> Vd.4S`<br>`0 <= lane1 <= 3`<br>`b -> Vn.4S`<br>`0 <= lane2 <= 3`     | `INS Vd.S[lane1],Vn.S[lane2]` | `Vd.4S -> result`  | `A64`                     |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_f64" target="_blank">vcopy_laneq_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>      | `a -> UNUSED`<br>`0 <= lane1 <= 0`<br>`b -> Vn.2D`<br>`0 <= lane2 <= 1`    | `DUP Dd,Vn.D[lane2]`          | `Dd -> result`     | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_f64" target="_blank">vcopyq_laneq_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>    | `a -> Vd.2D`<br>`0 <= lane1 <= 1`<br>`b -> Vn.2D`<br>`0 <= lane2 <= 1`     | `INS Vd.D[lane1],Vn.D[lane2]` | `Vd.2D -> result`  | `A64`                     |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_p8" target="_blank">vcopy_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>             | `a -> Vd.8B`<br>`0 <= lane1 <= 7`<br>`b -> Vn.16B`<br>`0 <= lane2 <= 15`   | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.8B -> result`  | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_p8" target="_blank">vcopyq_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>         | `a -> Vd.16B`<br>`0 <= lane1 <= 15`<br>`b -> Vn.16B`<br>`0 <= lane2 <= 15` | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.16B -> result` | `A64`                     |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_p16" target="_blank">vcopy_laneq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>         | `a -> Vd.4H`<br>`0 <= lane1 <= 3`<br>`b -> Vn.8H`<br>`0 <= lane2 <= 7`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.4H -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_p16" target="_blank">vcopyq_laneq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>       | `a -> Vd.8H`<br>`0 <= lane1 <= 7`<br>`b -> Vn.8H`<br>`0 <= lane2 <= 7`     | `INS Vd.H[lane1],Vn.H[lane2]` | `Vd.8H -> result`  | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopy_laneq_mf8" target="_blank">vcopy_laneq_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code>     | `a -> Vd.8B`<br>`0 <= lane1 <= 7`<br>`b -> Vn.16B`<br>`0 <= lane2 <= 15`   | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.8B -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcopyq_laneq_mf8" target="_blank">vcopyq_laneq_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane1,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane2)</code> | `a -> Vd.16B`<br>`0 <= lane1 <= 15`<br>`b -> Vn.16B`<br>`0 <= lane2 <= 15` | `INS Vd.B[lane1],Vn.B[lane2]` | `Vd.16B -> result` | `A64`                     |
 
 #### Reverse bits within elements
 
@@ -3129,971 +3191,1048 @@ The intrinsics in this section are guarded by the macro ``__ARM_NEON``.
 | <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcreate_p8" target="_blank">vcreate_p8</a>(uint64_t a)</code>     | `a -> Xn`              | `INS Vd.D[0],Xn`      | `Vd.8B -> result` | `v7/A32/A64`              |
 | <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcreate_p16" target="_blank">vcreate_p16</a>(uint64_t a)</code>  | `a -> Xn`              | `INS Vd.D[0],Xn`      | `Vd.4H -> result` | `v7/A32/A64`              |
 | <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcreate_f64" target="_blank">vcreate_f64</a>(uint64_t a)</code> | `a -> Xn`              | `INS Vd.D[0],Xn`      | `Vd.1D -> result` | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcreate_mf8" target="_blank">vcreate_mf8</a>(uint64_t a)</code> | `a -> Xn`              | `INS Vd.D[0],Xn`      | `Vd.8B -> result` | `A64`                     |
 
 #### Set all lanes to the same value
 
-| Intrinsic                                                                                                                                                                                                                                            | Argument preparation                 | AArch64 Instruction     | Result             | Supported architectures   |
-|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------------|-------------------------|--------------------|---------------------------|
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_s8" target="_blank">vdup_n_s8</a>(int8_t value)</code>                                                                                            | `value -> rn`                        | `DUP Vd.8B,rn`          | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_s8" target="_blank">vdupq_n_s8</a>(int8_t value)</code>                                                                                         | `value -> rn`                        | `DUP Vd.16B,rn`         | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_s16" target="_blank">vdup_n_s16</a>(int16_t value)</code>                                                                                        | `value -> rn`                        | `DUP Vd.4H,rn`          | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_s16" target="_blank">vdupq_n_s16</a>(int16_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.8H,rn`          | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_s32" target="_blank">vdup_n_s32</a>(int32_t value)</code>                                                                                        | `value -> rn`                        | `DUP Vd.2S,rn`          | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_s32" target="_blank">vdupq_n_s32</a>(int32_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.4S,rn`          | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_s64" target="_blank">vdup_n_s64</a>(int64_t value)</code>                                                                                        | `value -> rn`                        | `INS Dd.D[0],xn`        | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_s64" target="_blank">vdupq_n_s64</a>(int64_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.2D,rn`          | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_u8" target="_blank">vdup_n_u8</a>(uint8_t value)</code>                                                                                          | `value -> rn`                        | `DUP Vd.8B,rn`          | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_u8" target="_blank">vdupq_n_u8</a>(uint8_t value)</code>                                                                                       | `value -> rn`                        | `DUP Vd.16B,rn`         | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_u16" target="_blank">vdup_n_u16</a>(uint16_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.4H,rn`          | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_u16" target="_blank">vdupq_n_u16</a>(uint16_t value)</code>                                                                                    | `value -> rn`                        | `DUP Vd.8H,rn`          | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_u32" target="_blank">vdup_n_u32</a>(uint32_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.2S,rn`          | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_u32" target="_blank">vdupq_n_u32</a>(uint32_t value)</code>                                                                                    | `value -> rn`                        | `DUP Vd.4S,rn`          | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_u64" target="_blank">vdup_n_u64</a>(uint64_t value)</code>                                                                                      | `value -> rn`                        | `INS Dd.D[0],xn`        | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_u64" target="_blank">vdupq_n_u64</a>(uint64_t value)</code>                                                                                    | `value -> rn`                        | `DUP Vd.2D,rn`          | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_p64" target="_blank">vdup_n_p64</a>(poly64_t value)</code>                                                                                      | `value -> rn`                        | `INS Dd.D[0],xn`        | `Vd.1D -> result`  | `A32/A64`                 |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_p64" target="_blank">vdupq_n_p64</a>(poly64_t value)</code>                                                                                    | `value -> rn`                        | `DUP Vd.2D,rn`          | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_f32" target="_blank">vdup_n_f32</a>(float32_t value)</code>                                                                                    | `value -> rn`                        | `DUP Vd.2S,rn`          | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_f32" target="_blank">vdupq_n_f32</a>(float32_t value)</code>                                                                                  | `value -> rn`                        | `DUP Vd.4S,rn`          | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_p8" target="_blank">vdup_n_p8</a>(poly8_t value)</code>                                                                                          | `value -> rn`                        | `DUP Vd.8B,rn`          | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_p8" target="_blank">vdupq_n_p8</a>(poly8_t value)</code>                                                                                       | `value -> rn`                        | `DUP Vd.16B,rn`         | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_p16" target="_blank">vdup_n_p16</a>(poly16_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.4H,rn`          | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_p16" target="_blank">vdupq_n_p16</a>(poly16_t value)</code>                                                                                    | `value -> rn`                        | `DUP Vd.8H,rn`          | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_f64" target="_blank">vdup_n_f64</a>(float64_t value)</code>                                                                                    | `value -> rn`                        | `INS Dd.D[0],xn`        | `Vd.1D -> result`  | `A64`                     |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_f64" target="_blank">vdupq_n_f64</a>(float64_t value)</code>                                                                                  | `value -> rn`                        | `DUP Vd.2D,rn`          | `Vd.2D -> result`  | `A64`                     |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_s8" target="_blank">vmov_n_s8</a>(int8_t value)</code>                                                                                            | `value -> rn`                        | `DUP Vd.8B,rn`          | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_s8" target="_blank">vmovq_n_s8</a>(int8_t value)</code>                                                                                         | `value -> rn`                        | `DUP Vd.16B,rn`         | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_s16" target="_blank">vmov_n_s16</a>(int16_t value)</code>                                                                                        | `value -> rn`                        | `DUP Vd.4H,rn`          | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_s16" target="_blank">vmovq_n_s16</a>(int16_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.8H,rn`          | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_s32" target="_blank">vmov_n_s32</a>(int32_t value)</code>                                                                                        | `value -> rn`                        | `DUP Vd.2S,rn`          | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_s32" target="_blank">vmovq_n_s32</a>(int32_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.4S,rn`          | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_s64" target="_blank">vmov_n_s64</a>(int64_t value)</code>                                                                                        | `value -> rn`                        | `DUP Vd.1D,rn`          | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_s64" target="_blank">vmovq_n_s64</a>(int64_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.2D,rn`          | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_u8" target="_blank">vmov_n_u8</a>(uint8_t value)</code>                                                                                          | `value -> rn`                        | `DUP Vd.8B,rn`          | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_u8" target="_blank">vmovq_n_u8</a>(uint8_t value)</code>                                                                                       | `value -> rn`                        | `DUP Vd.16B,rn`         | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_u16" target="_blank">vmov_n_u16</a>(uint16_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.4H,rn`          | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_u16" target="_blank">vmovq_n_u16</a>(uint16_t value)</code>                                                                                    | `value -> rn`                        | `DUP Vd.8H,rn`          | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_u32" target="_blank">vmov_n_u32</a>(uint32_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.2S,rn`          | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_u32" target="_blank">vmovq_n_u32</a>(uint32_t value)</code>                                                                                    | `value -> rn`                        | `DUP Vd.4S,rn`          | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_u64" target="_blank">vmov_n_u64</a>(uint64_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.1D,rn`          | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_u64" target="_blank">vmovq_n_u64</a>(uint64_t value)</code>                                                                                    | `value -> rn`                        | `DUP Vd.2D,rn`          | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_f32" target="_blank">vmov_n_f32</a>(float32_t value)</code>                                                                                    | `value -> rn`                        | `DUP Vd.2S,rn`          | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_f32" target="_blank">vmovq_n_f32</a>(float32_t value)</code>                                                                                  | `value -> rn`                        | `DUP Vd.4S,rn`          | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_p8" target="_blank">vmov_n_p8</a>(poly8_t value)</code>                                                                                          | `value -> rn`                        | `DUP Vd.8B,rn`          | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_p8" target="_blank">vmovq_n_p8</a>(poly8_t value)</code>                                                                                       | `value -> rn`                        | `DUP Vd.16B,rn`         | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_p16" target="_blank">vmov_n_p16</a>(poly16_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.4H,rn`          | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_p16" target="_blank">vmovq_n_p16</a>(poly16_t value)</code>                                                                                    | `value -> rn`                        | `DUP Vd.8H,rn`          | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_f64" target="_blank">vmov_n_f64</a>(float64_t value)</code>                                                                                    | `value -> rn`                        | `DUP Vd.1D,rn`          | `Vd.1D -> result`  | `A64`                     |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_f64" target="_blank">vmovq_n_f64</a>(float64_t value)</code>                                                                                  | `value -> rn`                        | `DUP Vd.2D,rn`          | `Vd.2D -> result`  | `A64`                     |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_s8" target="_blank">vdup_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `vec -> Vn.8B`<br>`0 <= lane <= 7`   | `DUP Vd.8B,Vn.B[lane]`  | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_s8" target="_blank">vdupq_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `vec -> Vn.8B`<br>`0 <= lane <= 7`   | `DUP Vd.16B,Vn.B[lane]` | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_s16" target="_blank">vdup_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `vec -> Vn.4H`<br>`0 <= lane <= 3`   | `DUP Vd.4H,Vn.H[lane]`  | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_s16" target="_blank">vdupq_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.4H`<br>`0 <= lane <= 3`   | `DUP Vd.8H,Vn.H[lane]`  | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_s32" target="_blank">vdup_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `vec -> Vn.2S`<br>`0 <= lane <= 1`   | `DUP Vd.2S,Vn.S[lane]`  | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_s32" target="_blank">vdupq_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.2S`<br>`0 <= lane <= 1`   | `DUP Vd.4S,Vn.S[lane]`  | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_s64" target="_blank">vdup_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `vec -> Vn.1D`<br>`0 <= lane <= 0`   | `DUP Dd,Vn.D[lane]`     | `Dd -> result`     | `v7/A32/A64`              |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_s64" target="_blank">vdupq_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.1D`<br>`0 <= lane <= 0`   | `DUP Vd.2D,Vn.D[lane]`  | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_u8" target="_blank">vdup_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `vec -> Vn.8B`<br>`0 <= lane <= 7`   | `DUP Vd.8B,Vn.B[lane]`  | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_u8" target="_blank">vdupq_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `vec -> Vn.8B`<br>`0 <= lane <= 7`   | `DUP Vd.16B,Vn.B[lane]` | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_u16" target="_blank">vdup_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.4H`<br>`0 <= lane <= 3`   | `DUP Vd.4H,Vn.H[lane]`  | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_u16" target="_blank">vdupq_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.4H`<br>`0 <= lane <= 3`   | `DUP Vd.8H,Vn.H[lane]`  | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_u32" target="_blank">vdup_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.2S`<br>`0 <= lane <= 1`   | `DUP Vd.2S,Vn.S[lane]`  | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_u32" target="_blank">vdupq_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.2S`<br>`0 <= lane <= 1`   | `DUP Vd.4S,Vn.S[lane]`  | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_u64" target="_blank">vdup_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.1D`<br>`0 <= lane <= 0`   | `DUP Dd,Vn.D[lane]`     | `Dd -> result`     | `v7/A32/A64`              |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_u64" target="_blank">vdupq_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.1D`<br>`0 <= lane <= 0`   | `DUP Vd.2D,Vn.D[lane]`  | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_p64" target="_blank">vdup_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.1D`<br>`0 <= lane <= 0`   | `DUP Dd,Vn.D[lane]`     | `Dd -> result`     | `A32/A64`                 |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_p64" target="_blank">vdupq_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.1D`<br>`0 <= lane <= 0`   | `DUP Vd.2D,Vn.D[lane]`  | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_f32" target="_blank">vdup_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.2S`<br>`0 <= lane <= 1`   | `DUP Vd.2S,Vn.S[lane]`  | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_f32" target="_blank">vdupq_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `vec -> Vn.2S`<br>`0 <= lane <= 1`   | `DUP Vd.4S,Vn.S[lane]`  | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_p8" target="_blank">vdup_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `vec -> Vn.8B`<br>`0 <= lane <= 7`   | `DUP Vd.8B,Vn.B[lane]`  | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_p8" target="_blank">vdupq_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `vec -> Vn.8B`<br>`0 <= lane <= 7`   | `DUP Vd.16B,Vn.B[lane]` | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_p16" target="_blank">vdup_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.4H`<br>`0 <= lane <= 3`   | `DUP Vd.4H,Vn.H[lane]`  | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_p16" target="_blank">vdupq_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.4H`<br>`0 <= lane <= 3`   | `DUP Vd.8H,Vn.H[lane]`  | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_f64" target="_blank">vdup_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.1D`<br>`0 <= lane <= 0`   | `DUP Dd,Vn.D[lane]`     | `Dd -> result`     | `A64`                     |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_f64" target="_blank">vdupq_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `vec -> Vn.1D`<br>`0 <= lane <= 0`   | `DUP Vd.2D,Vn.D[lane]`  | `Vd.2D -> result`  | `A64`                     |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_s8" target="_blank">vdup_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `vec -> Vn.16B`<br>`0 <= lane <= 15` | `DUP Vd.8B,Vn.B[lane]`  | `Vd.8B -> result`  | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_s8" target="_blank">vdupq_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.16B`<br>`0 <= lane <= 15` | `DUP Vd.16B,Vn.B[lane]` | `Vd.16B -> result` | `A64`                     |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_s16" target="_blank">vdup_laneq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.8H`<br>`0 <= lane <= 7`   | `DUP Vd.4H,Vn.H[lane]`  | `Vd.4H -> result`  | `A64`                     |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_s16" target="_blank">vdupq_laneq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.8H`<br>`0 <= lane <= 7`   | `DUP Vd.8H,Vn.H[lane]`  | `Vd.8H -> result`  | `A64`                     |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_s32" target="_blank">vdup_laneq_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.4S`<br>`0 <= lane <= 3`   | `DUP Vd.2S,Vn.S[lane]`  | `Vd.2S -> result`  | `A64`                     |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_s32" target="_blank">vdupq_laneq_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.4S`<br>`0 <= lane <= 3`   | `DUP Vd.4S,Vn.S[lane]`  | `Vd.4S -> result`  | `A64`                     |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_s64" target="_blank">vdup_laneq_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.2D`<br>`0 <= lane <= 1`   | `DUP Dd,Vn.D[lane]`     | `Dd -> result`     | `A64`                     |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_s64" target="_blank">vdupq_laneq_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.2D`<br>`0 <= lane <= 1`   | `DUP Vd.2D,Vn.D[lane]`  | `Vd.2D -> result`  | `A64`                     |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_u8" target="_blank">vdup_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `vec -> Vn.16B`<br>`0 <= lane <= 15` | `DUP Vd.8B,Vn.B[lane]`  | `Vd.8B -> result`  | `A64`                     |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_u8" target="_blank">vdupq_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.16B`<br>`0 <= lane <= 15` | `DUP Vd.16B,Vn.B[lane]` | `Vd.16B -> result` | `A64`                     |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_u16" target="_blank">vdup_laneq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.8H`<br>`0 <= lane <= 7`   | `DUP Vd.4H,Vn.H[lane]`  | `Vd.4H -> result`  | `A64`                     |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_u16" target="_blank">vdupq_laneq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `vec -> Vn.8H`<br>`0 <= lane <= 7`   | `DUP Vd.8H,Vn.H[lane]`  | `Vd.8H -> result`  | `A64`                     |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_u32" target="_blank">vdup_laneq_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.4S`<br>`0 <= lane <= 3`   | `DUP Vd.2S,Vn.S[lane]`  | `Vd.2S -> result`  | `A64`                     |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_u32" target="_blank">vdupq_laneq_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `vec -> Vn.4S`<br>`0 <= lane <= 3`   | `DUP Vd.4S,Vn.S[lane]`  | `Vd.4S -> result`  | `A64`                     |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_u64" target="_blank">vdup_laneq_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.2D`<br>`0 <= lane <= 1`   | `DUP Dd,Vn.D[lane]`     | `Dd -> result`     | `A64`                     |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_u64" target="_blank">vdupq_laneq_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `vec -> Vn.2D`<br>`0 <= lane <= 1`   | `DUP Vd.2D,Vn.D[lane]`  | `Vd.2D -> result`  | `A64`                     |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_p64" target="_blank">vdup_laneq_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.2D`<br>`0 <= lane <= 1`   | `DUP Dd,Vn.D[lane]`     | `Dd -> result`     | `A64`                     |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_p64" target="_blank">vdupq_laneq_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `vec -> Vn.2D`<br>`0 <= lane <= 1`   | `DUP Vd.2D,Vn.D[lane]`  | `Vd.2D -> result`  | `A64`                     |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_f32" target="_blank">vdup_laneq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `vec -> Vn.4S`<br>`0 <= lane <= 3`   | `DUP Vd.2S,Vn.S[lane]`  | `Vd.2S -> result`  | `A64`                     |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_f32" target="_blank">vdupq_laneq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `vec -> Vn.4S`<br>`0 <= lane <= 3`   | `DUP Vd.4S,Vn.S[lane]`  | `Vd.4S -> result`  | `A64`                     |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_p8" target="_blank">vdup_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `vec -> Vn.16B`<br>`0 <= lane <= 15` | `DUP Vd.8B,Vn.B[lane]`  | `Vd.8B -> result`  | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_p8" target="_blank">vdupq_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.16B`<br>`0 <= lane <= 15` | `DUP Vd.16B,Vn.B[lane]` | `Vd.16B -> result` | `A64`                     |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_p16" target="_blank">vdup_laneq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.8H`<br>`0 <= lane <= 7`   | `DUP Vd.4H,Vn.H[lane]`  | `Vd.4H -> result`  | `A64`                     |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_p16" target="_blank">vdupq_laneq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `vec -> Vn.8H`<br>`0 <= lane <= 7`   | `DUP Vd.8H,Vn.H[lane]`  | `Vd.8H -> result`  | `A64`                     |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_f64" target="_blank">vdup_laneq_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `vec -> Vn.2D`<br>`0 <= lane <= 1`   | `DUP Dd,Vn.D[lane]`     | `Dd -> result`     | `A64`                     |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_f64" target="_blank">vdupq_laneq_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `vec -> Vn.2D`<br>`0 <= lane <= 1`   | `DUP Vd.2D,Vn.D[lane]`  | `Vd.2D -> result`  | `A64`                     |
+| Intrinsic                                                                                                                                                                                                                                              | Argument preparation                 | AArch64 Instruction     | Result             | Supported architectures   |
+|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------------|-------------------------|--------------------|---------------------------|
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_s8" target="_blank">vdup_n_s8</a>(int8_t value)</code>                                                                                              | `value -> rn`                        | `DUP Vd.8B,rn`          | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_s8" target="_blank">vdupq_n_s8</a>(int8_t value)</code>                                                                                           | `value -> rn`                        | `DUP Vd.16B,rn`         | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_s16" target="_blank">vdup_n_s16</a>(int16_t value)</code>                                                                                          | `value -> rn`                        | `DUP Vd.4H,rn`          | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_s16" target="_blank">vdupq_n_s16</a>(int16_t value)</code>                                                                                        | `value -> rn`                        | `DUP Vd.8H,rn`          | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_s32" target="_blank">vdup_n_s32</a>(int32_t value)</code>                                                                                          | `value -> rn`                        | `DUP Vd.2S,rn`          | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_s32" target="_blank">vdupq_n_s32</a>(int32_t value)</code>                                                                                        | `value -> rn`                        | `DUP Vd.4S,rn`          | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_s64" target="_blank">vdup_n_s64</a>(int64_t value)</code>                                                                                          | `value -> rn`                        | `INS Dd.D[0],xn`        | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_s64" target="_blank">vdupq_n_s64</a>(int64_t value)</code>                                                                                        | `value -> rn`                        | `DUP Vd.2D,rn`          | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_u8" target="_blank">vdup_n_u8</a>(uint8_t value)</code>                                                                                            | `value -> rn`                        | `DUP Vd.8B,rn`          | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_u8" target="_blank">vdupq_n_u8</a>(uint8_t value)</code>                                                                                         | `value -> rn`                        | `DUP Vd.16B,rn`         | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_u16" target="_blank">vdup_n_u16</a>(uint16_t value)</code>                                                                                        | `value -> rn`                        | `DUP Vd.4H,rn`          | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_u16" target="_blank">vdupq_n_u16</a>(uint16_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.8H,rn`          | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_u32" target="_blank">vdup_n_u32</a>(uint32_t value)</code>                                                                                        | `value -> rn`                        | `DUP Vd.2S,rn`          | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_u32" target="_blank">vdupq_n_u32</a>(uint32_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.4S,rn`          | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_u64" target="_blank">vdup_n_u64</a>(uint64_t value)</code>                                                                                        | `value -> rn`                        | `INS Dd.D[0],xn`        | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_u64" target="_blank">vdupq_n_u64</a>(uint64_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.2D,rn`          | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_p64" target="_blank">vdup_n_p64</a>(poly64_t value)</code>                                                                                        | `value -> rn`                        | `INS Dd.D[0],xn`        | `Vd.1D -> result`  | `A32/A64`                 |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_p64" target="_blank">vdupq_n_p64</a>(poly64_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.2D,rn`          | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_f32" target="_blank">vdup_n_f32</a>(float32_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.2S,rn`          | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_f32" target="_blank">vdupq_n_f32</a>(float32_t value)</code>                                                                                    | `value -> rn`                        | `DUP Vd.4S,rn`          | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_p8" target="_blank">vdup_n_p8</a>(poly8_t value)</code>                                                                                            | `value -> rn`                        | `DUP Vd.8B,rn`          | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_p8" target="_blank">vdupq_n_p8</a>(poly8_t value)</code>                                                                                         | `value -> rn`                        | `DUP Vd.16B,rn`         | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_p16" target="_blank">vdup_n_p16</a>(poly16_t value)</code>                                                                                        | `value -> rn`                        | `DUP Vd.4H,rn`          | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_p16" target="_blank">vdupq_n_p16</a>(poly16_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.8H,rn`          | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_f64" target="_blank">vdup_n_f64</a>(float64_t value)</code>                                                                                      | `value -> rn`                        | `INS Dd.D[0],xn`        | `Vd.1D -> result`  | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_f64" target="_blank">vdupq_n_f64</a>(float64_t value)</code>                                                                                    | `value -> rn`                        | `DUP Vd.2D,rn`          | `Vd.2D -> result`  | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_n_mf8" target="_blank">vdup_n_mf8</a>(mfloat8_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.8B,rn`          | `Vd.8B -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_n_mf8" target="_blank">vdupq_n_mf8</a>(mfloat8_t value)</code>                                                                                   | `value -> rn`                        | `DUP Vd.16B,rn`         | `Vd.16B -> result` | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_s8" target="_blank">vmov_n_s8</a>(int8_t value)</code>                                                                                              | `value -> rn`                        | `DUP Vd.8B,rn`          | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_s8" target="_blank">vmovq_n_s8</a>(int8_t value)</code>                                                                                           | `value -> rn`                        | `DUP Vd.16B,rn`         | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_s16" target="_blank">vmov_n_s16</a>(int16_t value)</code>                                                                                          | `value -> rn`                        | `DUP Vd.4H,rn`          | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_s16" target="_blank">vmovq_n_s16</a>(int16_t value)</code>                                                                                        | `value -> rn`                        | `DUP Vd.8H,rn`          | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_s32" target="_blank">vmov_n_s32</a>(int32_t value)</code>                                                                                          | `value -> rn`                        | `DUP Vd.2S,rn`          | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_s32" target="_blank">vmovq_n_s32</a>(int32_t value)</code>                                                                                        | `value -> rn`                        | `DUP Vd.4S,rn`          | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_s64" target="_blank">vmov_n_s64</a>(int64_t value)</code>                                                                                          | `value -> rn`                        | `DUP Vd.1D,rn`          | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_s64" target="_blank">vmovq_n_s64</a>(int64_t value)</code>                                                                                        | `value -> rn`                        | `DUP Vd.2D,rn`          | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_u8" target="_blank">vmov_n_u8</a>(uint8_t value)</code>                                                                                            | `value -> rn`                        | `DUP Vd.8B,rn`          | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_u8" target="_blank">vmovq_n_u8</a>(uint8_t value)</code>                                                                                         | `value -> rn`                        | `DUP Vd.16B,rn`         | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_u16" target="_blank">vmov_n_u16</a>(uint16_t value)</code>                                                                                        | `value -> rn`                        | `DUP Vd.4H,rn`          | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_u16" target="_blank">vmovq_n_u16</a>(uint16_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.8H,rn`          | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_u32" target="_blank">vmov_n_u32</a>(uint32_t value)</code>                                                                                        | `value -> rn`                        | `DUP Vd.2S,rn`          | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_u32" target="_blank">vmovq_n_u32</a>(uint32_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.4S,rn`          | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_u64" target="_blank">vmov_n_u64</a>(uint64_t value)</code>                                                                                        | `value -> rn`                        | `DUP Vd.1D,rn`          | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_u64" target="_blank">vmovq_n_u64</a>(uint64_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.2D,rn`          | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_f32" target="_blank">vmov_n_f32</a>(float32_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.2S,rn`          | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_f32" target="_blank">vmovq_n_f32</a>(float32_t value)</code>                                                                                    | `value -> rn`                        | `DUP Vd.4S,rn`          | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_p8" target="_blank">vmov_n_p8</a>(poly8_t value)</code>                                                                                            | `value -> rn`                        | `DUP Vd.8B,rn`          | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_p8" target="_blank">vmovq_n_p8</a>(poly8_t value)</code>                                                                                         | `value -> rn`                        | `DUP Vd.16B,rn`         | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_p16" target="_blank">vmov_n_p16</a>(poly16_t value)</code>                                                                                        | `value -> rn`                        | `DUP Vd.4H,rn`          | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_p16" target="_blank">vmovq_n_p16</a>(poly16_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.8H,rn`          | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_f64" target="_blank">vmov_n_f64</a>(float64_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.1D,rn`          | `Vd.1D -> result`  | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_f64" target="_blank">vmovq_n_f64</a>(float64_t value)</code>                                                                                    | `value -> rn`                        | `DUP Vd.2D,rn`          | `Vd.2D -> result`  | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmov_n_mf8" target="_blank">vmov_n_mf8</a>(mfloat8_t value)</code>                                                                                      | `value -> rn`                        | `DUP Vd.8B,rn`          | `Vd.8B -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmovq_n_mf8" target="_blank">vmovq_n_mf8</a>(mfloat8_t value)</code>                                                                                   | `value -> rn`                        | `DUP Vd.16B,rn`         | `Vd.16B -> result` | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_s8" target="_blank">vdup_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>               | `vec -> Vn.8B`<br>`0 <= lane <= 7`   | `DUP Vd.8B,Vn.B[lane]`  | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_s8" target="_blank">vdupq_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>            | `vec -> Vn.8B`<br>`0 <= lane <= 7`   | `DUP Vd.16B,Vn.B[lane]` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_s16" target="_blank">vdup_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `vec -> Vn.4H`<br>`0 <= lane <= 3`   | `DUP Vd.4H,Vn.H[lane]`  | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_s16" target="_blank">vdupq_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `vec -> Vn.4H`<br>`0 <= lane <= 3`   | `DUP Vd.8H,Vn.H[lane]`  | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_s32" target="_blank">vdup_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `vec -> Vn.2S`<br>`0 <= lane <= 1`   | `DUP Vd.2S,Vn.S[lane]`  | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_s32" target="_blank">vdupq_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `vec -> Vn.2S`<br>`0 <= lane <= 1`   | `DUP Vd.4S,Vn.S[lane]`  | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_s64" target="_blank">vdup_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `vec -> Vn.1D`<br>`0 <= lane <= 0`   | `DUP Dd,Vn.D[lane]`     | `Dd -> result`     | `v7/A32/A64`              |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_s64" target="_blank">vdupq_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `vec -> Vn.1D`<br>`0 <= lane <= 0`   | `DUP Vd.2D,Vn.D[lane]`  | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_u8" target="_blank">vdup_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `vec -> Vn.8B`<br>`0 <= lane <= 7`   | `DUP Vd.8B,Vn.B[lane]`  | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_u8" target="_blank">vdupq_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `vec -> Vn.8B`<br>`0 <= lane <= 7`   | `DUP Vd.16B,Vn.B[lane]` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_u16" target="_blank">vdup_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `vec -> Vn.4H`<br>`0 <= lane <= 3`   | `DUP Vd.4H,Vn.H[lane]`  | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_u16" target="_blank">vdupq_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.4H`<br>`0 <= lane <= 3`   | `DUP Vd.8H,Vn.H[lane]`  | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_u32" target="_blank">vdup_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `vec -> Vn.2S`<br>`0 <= lane <= 1`   | `DUP Vd.2S,Vn.S[lane]`  | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_u32" target="_blank">vdupq_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.2S`<br>`0 <= lane <= 1`   | `DUP Vd.4S,Vn.S[lane]`  | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_u64" target="_blank">vdup_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `vec -> Vn.1D`<br>`0 <= lane <= 0`   | `DUP Dd,Vn.D[lane]`     | `Dd -> result`     | `v7/A32/A64`              |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_u64" target="_blank">vdupq_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.1D`<br>`0 <= lane <= 0`   | `DUP Vd.2D,Vn.D[lane]`  | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_p64" target="_blank">vdup_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `vec -> Vn.1D`<br>`0 <= lane <= 0`   | `DUP Dd,Vn.D[lane]`     | `Dd -> result`     | `A32/A64`                 |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_p64" target="_blank">vdupq_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.1D`<br>`0 <= lane <= 0`   | `DUP Vd.2D,Vn.D[lane]`  | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_f32" target="_blank">vdup_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.2S`<br>`0 <= lane <= 1`   | `DUP Vd.2S,Vn.S[lane]`  | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_f32" target="_blank">vdupq_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.2S`<br>`0 <= lane <= 1`   | `DUP Vd.4S,Vn.S[lane]`  | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_p8" target="_blank">vdup_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `vec -> Vn.8B`<br>`0 <= lane <= 7`   | `DUP Vd.8B,Vn.B[lane]`  | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_p8" target="_blank">vdupq_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `vec -> Vn.8B`<br>`0 <= lane <= 7`   | `DUP Vd.16B,Vn.B[lane]` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_p16" target="_blank">vdup_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `vec -> Vn.4H`<br>`0 <= lane <= 3`   | `DUP Vd.4H,Vn.H[lane]`  | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_p16" target="_blank">vdupq_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.4H`<br>`0 <= lane <= 3`   | `DUP Vd.8H,Vn.H[lane]`  | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_f64" target="_blank">vdup_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.1D`<br>`0 <= lane <= 0`   | `DUP Dd,Vn.D[lane]`     | `Dd -> result`     | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_f64" target="_blank">vdupq_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.1D`<br>`0 <= lane <= 0`   | `DUP Vd.2D,Vn.D[lane]`  | `Vd.2D -> result`  | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_lane_mf8" target="_blank">vdup_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.8B`<br>`0 <= lane <= 7`   | `DUP Vd.8B,Vn.B[lane]`  | `Vd.8B -> result`  | `/A64`                    |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_lane_mf8" target="_blank">vdupq_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `vec -> Vn.8B`<br>`0 <= lane <= 7`   | `DUP Vd.16B,Vn.B[lane]` | `Vd.16B -> result` | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_s8" target="_blank">vdup_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>            | `vec -> Vn.16B`<br>`0 <= lane <= 15` | `DUP Vd.8B,Vn.B[lane]`  | `Vd.8B -> result`  | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_s8" target="_blank">vdupq_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `vec -> Vn.16B`<br>`0 <= lane <= 15` | `DUP Vd.16B,Vn.B[lane]` | `Vd.16B -> result` | `A64`                     |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_s16" target="_blank">vdup_laneq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `vec -> Vn.8H`<br>`0 <= lane <= 7`   | `DUP Vd.4H,Vn.H[lane]`  | `Vd.4H -> result`  | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_s16" target="_blank">vdupq_laneq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.8H`<br>`0 <= lane <= 7`   | `DUP Vd.8H,Vn.H[lane]`  | `Vd.8H -> result`  | `A64`                     |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_s32" target="_blank">vdup_laneq_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `vec -> Vn.4S`<br>`0 <= lane <= 3`   | `DUP Vd.2S,Vn.S[lane]`  | `Vd.2S -> result`  | `A64`                     |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_s32" target="_blank">vdupq_laneq_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.4S`<br>`0 <= lane <= 3`   | `DUP Vd.4S,Vn.S[lane]`  | `Vd.4S -> result`  | `A64`                     |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_s64" target="_blank">vdup_laneq_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `vec -> Vn.2D`<br>`0 <= lane <= 1`   | `DUP Dd,Vn.D[lane]`     | `Dd -> result`     | `A64`                     |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_s64" target="_blank">vdupq_laneq_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.2D`<br>`0 <= lane <= 1`   | `DUP Vd.2D,Vn.D[lane]`  | `Vd.2D -> result`  | `A64`                     |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_u8" target="_blank">vdup_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `vec -> Vn.16B`<br>`0 <= lane <= 15` | `DUP Vd.8B,Vn.B[lane]`  | `Vd.8B -> result`  | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_u8" target="_blank">vdupq_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.16B`<br>`0 <= lane <= 15` | `DUP Vd.16B,Vn.B[lane]` | `Vd.16B -> result` | `A64`                     |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_u16" target="_blank">vdup_laneq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.8H`<br>`0 <= lane <= 7`   | `DUP Vd.4H,Vn.H[lane]`  | `Vd.4H -> result`  | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_u16" target="_blank">vdupq_laneq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.8H`<br>`0 <= lane <= 7`   | `DUP Vd.8H,Vn.H[lane]`  | `Vd.8H -> result`  | `A64`                     |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_u32" target="_blank">vdup_laneq_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.4S`<br>`0 <= lane <= 3`   | `DUP Vd.2S,Vn.S[lane]`  | `Vd.2S -> result`  | `A64`                     |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_u32" target="_blank">vdupq_laneq_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.4S`<br>`0 <= lane <= 3`   | `DUP Vd.4S,Vn.S[lane]`  | `Vd.4S -> result`  | `A64`                     |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_u64" target="_blank">vdup_laneq_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.2D`<br>`0 <= lane <= 1`   | `DUP Dd,Vn.D[lane]`     | `Dd -> result`     | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_u64" target="_blank">vdupq_laneq_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.2D`<br>`0 <= lane <= 1`   | `DUP Vd.2D,Vn.D[lane]`  | `Vd.2D -> result`  | `A64`                     |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_p64" target="_blank">vdup_laneq_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.2D`<br>`0 <= lane <= 1`   | `DUP Dd,Vn.D[lane]`     | `Dd -> result`     | `A64`                     |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_p64" target="_blank">vdupq_laneq_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.2D`<br>`0 <= lane <= 1`   | `DUP Vd.2D,Vn.D[lane]`  | `Vd.2D -> result`  | `A64`                     |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_f32" target="_blank">vdup_laneq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.4S`<br>`0 <= lane <= 3`   | `DUP Vd.2S,Vn.S[lane]`  | `Vd.2S -> result`  | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_f32" target="_blank">vdupq_laneq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `vec -> Vn.4S`<br>`0 <= lane <= 3`   | `DUP Vd.4S,Vn.S[lane]`  | `Vd.4S -> result`  | `A64`                     |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_p8" target="_blank">vdup_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `vec -> Vn.16B`<br>`0 <= lane <= 15` | `DUP Vd.8B,Vn.B[lane]`  | `Vd.8B -> result`  | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_p8" target="_blank">vdupq_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.16B`<br>`0 <= lane <= 15` | `DUP Vd.16B,Vn.B[lane]` | `Vd.16B -> result` | `A64`                     |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_p16" target="_blank">vdup_laneq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.8H`<br>`0 <= lane <= 7`   | `DUP Vd.4H,Vn.H[lane]`  | `Vd.4H -> result`  | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_p16" target="_blank">vdupq_laneq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.8H`<br>`0 <= lane <= 7`   | `DUP Vd.8H,Vn.H[lane]`  | `Vd.8H -> result`  | `A64`                     |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_f64" target="_blank">vdup_laneq_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.2D`<br>`0 <= lane <= 1`   | `DUP Dd,Vn.D[lane]`     | `Dd -> result`     | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_f64" target="_blank">vdupq_laneq_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `vec -> Vn.2D`<br>`0 <= lane <= 1`   | `DUP Vd.2D,Vn.D[lane]`  | `Vd.2D -> result`  | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdup_laneq_mf8" target="_blank">vdup_laneq_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `vec -> Vn.16B`<br>`0 <= lane <= 15` | `DUP Vd.8B,Vn.B[lane]`  | `Vd.8B -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupq_laneq_mf8" target="_blank">vdupq_laneq_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `vec -> Vn.16B`<br>`0 <= lane <= 15` | `DUP Vd.16B,Vn.B[lane]` | `Vd.16B -> result` | `A64`                     |
 
 #### Combine vectors
 
-| Intrinsic                                                                                                                                                                                                                                        | Argument preparation              | AArch64 Instruction                          | Result             | Supported architectures   |
-|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------|----------------------------------------------|--------------------|---------------------------|
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_s8" target="_blank">vcombine_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t high)</code>           | `low -> Vn.8B`<br>`high -> Vm.8B` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_s16" target="_blank">vcombine_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t high)</code>       | `low -> Vn.4H`<br>`high -> Vm.4H` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_s32" target="_blank">vcombine_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t high)</code>       | `low -> Vn.2S`<br>`high -> Vm.2S` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_s64" target="_blank">vcombine_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t high)</code>       | `low -> Vn.1D`<br>`high -> Vm.1D` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_u8" target="_blank">vcombine_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t high)</code>        | `low -> Vn.8B`<br>`high -> Vm.8B` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_u16" target="_blank">vcombine_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t high)</code>    | `low -> Vn.4H`<br>`high -> Vm.4H` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_u32" target="_blank">vcombine_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t high)</code>    | `low -> Vn.2S`<br>`high -> Vm.2S` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_u64" target="_blank">vcombine_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t high)</code>    | `low -> Vn.1D`<br>`high -> Vm.1D` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_p64" target="_blank">vcombine_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t high)</code>    | `low -> Vn.1D`<br>`high -> Vm.1D` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_f16" target="_blank">vcombine_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t high)</code> | `low -> Vn.4H`<br>`high -> Vm.4H` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_f32" target="_blank">vcombine_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t high)</code> | `low -> Vn.2S`<br>`high -> Vm.2S` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_p8" target="_blank">vcombine_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t high)</code>        | `low -> Vn.8B`<br>`high -> Vm.8B` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_p16" target="_blank">vcombine_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t high)</code>    | `low -> Vn.4H`<br>`high -> Vm.4H` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_f64" target="_blank">vcombine_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t high)</code> | `low -> Vn.1D`<br>`high -> Vm.1D` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.2D -> result`  | `A64`                     |
+| Intrinsic                                                                                                                                                                                                                                         | Argument preparation              | AArch64 Instruction                          | Result             | Supported architectures   |
+|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------|----------------------------------------------|--------------------|---------------------------|
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_s8" target="_blank">vcombine_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t high)</code>            | `low -> Vn.8B`<br>`high -> Vm.8B` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_s16" target="_blank">vcombine_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t high)</code>        | `low -> Vn.4H`<br>`high -> Vm.4H` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_s32" target="_blank">vcombine_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t high)</code>        | `low -> Vn.2S`<br>`high -> Vm.2S` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_s64" target="_blank">vcombine_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t high)</code>        | `low -> Vn.1D`<br>`high -> Vm.1D` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_u8" target="_blank">vcombine_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t high)</code>         | `low -> Vn.8B`<br>`high -> Vm.8B` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_u16" target="_blank">vcombine_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t high)</code>     | `low -> Vn.4H`<br>`high -> Vm.4H` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_u32" target="_blank">vcombine_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t high)</code>     | `low -> Vn.2S`<br>`high -> Vm.2S` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_u64" target="_blank">vcombine_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t high)</code>     | `low -> Vn.1D`<br>`high -> Vm.1D` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_p64" target="_blank">vcombine_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t high)</code>     | `low -> Vn.1D`<br>`high -> Vm.1D` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_f16" target="_blank">vcombine_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t high)</code>  | `low -> Vn.4H`<br>`high -> Vm.4H` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_f32" target="_blank">vcombine_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t high)</code>  | `low -> Vn.2S`<br>`high -> Vm.2S` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_p8" target="_blank">vcombine_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t high)</code>         | `low -> Vn.8B`<br>`high -> Vm.8B` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_p16" target="_blank">vcombine_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t high)</code>     | `low -> Vn.4H`<br>`high -> Vm.4H` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_f64" target="_blank">vcombine_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t high)</code>  | `low -> Vn.1D`<br>`high -> Vm.1D` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.2D -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcombine_mf8" target="_blank">vcombine_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t low,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t high)</code> | `low -> Vn.8B`<br>`high -> Vm.8B` | `DUP Vd.1D,Vn.D[0]`<br>`INS Vd.D[1],Vm.D[0]` | `Vd.16B -> result` | `A64`                     |
 
 #### Split vectors
 
-| Intrinsic                                                                                                                                                             | Argument preparation   | AArch64 Instruction   | Result            | Supported architectures   |
-|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------|-----------------------|-------------------|---------------------------|
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_s8" target="_blank">vget_high_s8</a>(int8x16_t a)</code>        | `a -> Vn.16B`          | `DUP Vd.1D,Vn.D[1]`   | `Vd.8B -> result` | `v7/A32/A64`              |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_s16" target="_blank">vget_high_s16</a>(int16x8_t a)</code>     | `a -> Vn.8H`           | `DUP Vd.1D,Vn.D[1]`   | `Vd.4H -> result` | `v7/A32/A64`              |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_s32" target="_blank">vget_high_s32</a>(int32x4_t a)</code>     | `a -> Vn.4S`           | `DUP Vd.1D,Vn.D[1]`   | `Vd.2S -> result` | `v7/A32/A64`              |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_s64" target="_blank">vget_high_s64</a>(int64x2_t a)</code>     | `a -> Vn.2D`           | `DUP Vd.1D,Vn.D[1]`   | `Vd.1D -> result` | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_u8" target="_blank">vget_high_u8</a>(uint8x16_t a)</code>      | `a -> Vn.16B`          | `DUP Vd.1D,Vn.D[1]`   | `Vd.8B -> result` | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_u16" target="_blank">vget_high_u16</a>(uint16x8_t a)</code>   | `a -> Vn.8H`           | `DUP Vd.1D,Vn.D[1]`   | `Vd.4H -> result` | `v7/A32/A64`              |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_u32" target="_blank">vget_high_u32</a>(uint32x4_t a)</code>   | `a -> Vn.4S`           | `DUP Vd.1D,Vn.D[1]`   | `Vd.2S -> result` | `v7/A32/A64`              |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_u64" target="_blank">vget_high_u64</a>(uint64x2_t a)</code>   | `a -> Vn.2D`           | `DUP Vd.1D,Vn.D[1]`   | `Vd.1D -> result` | `v7/A32/A64`              |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_p64" target="_blank">vget_high_p64</a>(poly64x2_t a)</code>   | `a -> Vn.2D`           | `DUP Vd.1D,Vn.D[1]`   | `Vd.1D -> result` | `A32/A64`                 |
-| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_f16" target="_blank">vget_high_f16</a>(float16x8_t a)</code> | `a -> Vn.8H`           | `DUP Vd.1D,Vn.D[1]`   | `Vd.4H -> result` | `v7/A32/A64`              |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_f32" target="_blank">vget_high_f32</a>(float32x4_t a)</code> | `a -> Vn.4S`           | `DUP Vd.1D,Vn.D[1]`   | `Vd.2S -> result` | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_p8" target="_blank">vget_high_p8</a>(poly8x16_t a)</code>      | `a -> Vn.16B`          | `DUP Vd.1D,Vn.D[1]`   | `Vd.8B -> result` | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_p16" target="_blank">vget_high_p16</a>(poly16x8_t a)</code>   | `a -> Vn.8H`           | `DUP Vd.1D,Vn.D[1]`   | `Vd.4H -> result` | `v7/A32/A64`              |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_f64" target="_blank">vget_high_f64</a>(float64x2_t a)</code> | `a -> Vn.2D`           | `DUP Vd.1D,Vn.D[1]`   | `Vd.1D -> result` | `A64`                     |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_s8" target="_blank">vget_low_s8</a>(int8x16_t a)</code>          | `a -> Vn.16B`          | `DUP Vd.1D,Vn.D[0]`   | `Vd.8B -> result` | `v7/A32/A64`              |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_s16" target="_blank">vget_low_s16</a>(int16x8_t a)</code>       | `a -> Vn.8H`           | `DUP Vd.1D,Vn.D[0]`   | `Vd.4H -> result` | `v7/A32/A64`              |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_s32" target="_blank">vget_low_s32</a>(int32x4_t a)</code>       | `a -> Vn.4S`           | `DUP Vd.1D,Vn.D[0]`   | `Vd.2S -> result` | `v7/A32/A64`              |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_s64" target="_blank">vget_low_s64</a>(int64x2_t a)</code>       | `a -> Vn.2D`           | `DUP Vd.1D,Vn.D[0]`   | `Vd.1D -> result` | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_u8" target="_blank">vget_low_u8</a>(uint8x16_t a)</code>        | `a -> Vn.16B`          | `DUP Vd.1D,Vn.D[0]`   | `Vd.8B -> result` | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_u16" target="_blank">vget_low_u16</a>(uint16x8_t a)</code>     | `a -> Vn.8H`           | `DUP Vd.1D,Vn.D[0]`   | `Vd.4H -> result` | `v7/A32/A64`              |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_u32" target="_blank">vget_low_u32</a>(uint32x4_t a)</code>     | `a -> Vn.4S`           | `DUP Vd.1D,Vn.D[0]`   | `Vd.2S -> result` | `v7/A32/A64`              |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_u64" target="_blank">vget_low_u64</a>(uint64x2_t a)</code>     | `a -> Vn.2D`           | `DUP Vd.1D,Vn.D[0]`   | `Vd.1D -> result` | `v7/A32/A64`              |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_p64" target="_blank">vget_low_p64</a>(poly64x2_t a)</code>     | `a -> Vn.2D`           | `DUP Vd.1D,Vn.D[0]`   | `Vd.1D -> result` | `A32/A64`                 |
-| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_f16" target="_blank">vget_low_f16</a>(float16x8_t a)</code>   | `a -> Vn.8H`           | `DUP Vd.1D,Vn.D[0]`   | `Vd.4H -> result` | `v7/A32/A64`              |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_f32" target="_blank">vget_low_f32</a>(float32x4_t a)</code>   | `a -> Vn.4S`           | `DUP Vd.1D,Vn.D[0]`   | `Vd.2S -> result` | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_p8" target="_blank">vget_low_p8</a>(poly8x16_t a)</code>        | `a -> Vn.16B`          | `DUP Vd.1D,Vn.D[0]`   | `Vd.8B -> result` | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_p16" target="_blank">vget_low_p16</a>(poly16x8_t a)</code>     | `a -> Vn.8H`           | `DUP Vd.1D,Vn.D[0]`   | `Vd.4H -> result` | `v7/A32/A64`              |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_f64" target="_blank">vget_low_f64</a>(float64x2_t a)</code>   | `a -> Vn.2D`           | `DUP Vd.1D,Vn.D[0]`   | `Vd.1D -> result` | `A64`                     |
+| Intrinsic                                                                                                                                                              | Argument preparation   | AArch64 Instruction   | Result            | Supported architectures   |
+|------------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------|-----------------------|-------------------|---------------------------|
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_s8" target="_blank">vget_high_s8</a>(int8x16_t a)</code>         | `a -> Vn.16B`          | `DUP Vd.1D,Vn.D[1]`   | `Vd.8B -> result` | `v7/A32/A64`              |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_s16" target="_blank">vget_high_s16</a>(int16x8_t a)</code>      | `a -> Vn.8H`           | `DUP Vd.1D,Vn.D[1]`   | `Vd.4H -> result` | `v7/A32/A64`              |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_s32" target="_blank">vget_high_s32</a>(int32x4_t a)</code>      | `a -> Vn.4S`           | `DUP Vd.1D,Vn.D[1]`   | `Vd.2S -> result` | `v7/A32/A64`              |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_s64" target="_blank">vget_high_s64</a>(int64x2_t a)</code>      | `a -> Vn.2D`           | `DUP Vd.1D,Vn.D[1]`   | `Vd.1D -> result` | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_u8" target="_blank">vget_high_u8</a>(uint8x16_t a)</code>       | `a -> Vn.16B`          | `DUP Vd.1D,Vn.D[1]`   | `Vd.8B -> result` | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_u16" target="_blank">vget_high_u16</a>(uint16x8_t a)</code>    | `a -> Vn.8H`           | `DUP Vd.1D,Vn.D[1]`   | `Vd.4H -> result` | `v7/A32/A64`              |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_u32" target="_blank">vget_high_u32</a>(uint32x4_t a)</code>    | `a -> Vn.4S`           | `DUP Vd.1D,Vn.D[1]`   | `Vd.2S -> result` | `v7/A32/A64`              |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_u64" target="_blank">vget_high_u64</a>(uint64x2_t a)</code>    | `a -> Vn.2D`           | `DUP Vd.1D,Vn.D[1]`   | `Vd.1D -> result` | `v7/A32/A64`              |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_p64" target="_blank">vget_high_p64</a>(poly64x2_t a)</code>    | `a -> Vn.2D`           | `DUP Vd.1D,Vn.D[1]`   | `Vd.1D -> result` | `A32/A64`                 |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_f16" target="_blank">vget_high_f16</a>(float16x8_t a)</code>  | `a -> Vn.8H`           | `DUP Vd.1D,Vn.D[1]`   | `Vd.4H -> result` | `v7/A32/A64`              |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_f32" target="_blank">vget_high_f32</a>(float32x4_t a)</code>  | `a -> Vn.4S`           | `DUP Vd.1D,Vn.D[1]`   | `Vd.2S -> result` | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_p8" target="_blank">vget_high_p8</a>(poly8x16_t a)</code>       | `a -> Vn.16B`          | `DUP Vd.1D,Vn.D[1]`   | `Vd.8B -> result` | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_p16" target="_blank">vget_high_p16</a>(poly16x8_t a)</code>    | `a -> Vn.8H`           | `DUP Vd.1D,Vn.D[1]`   | `Vd.4H -> result` | `v7/A32/A64`              |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_f64" target="_blank">vget_high_f64</a>(float64x2_t a)</code>  | `a -> Vn.2D`           | `DUP Vd.1D,Vn.D[1]`   | `Vd.1D -> result` | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_high_mf8" target="_blank">vget_high_mf8</a>(mfloat8x16_t a)</code> | `a -> Vn.16B`          | `DUP Vd.1D,Vn.D[1]`   | `Vd.8B -> result` | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_s8" target="_blank">vget_low_s8</a>(int8x16_t a)</code>           | `a -> Vn.16B`          | `DUP Vd.1D,Vn.D[0]`   | `Vd.8B -> result` | `v7/A32/A64`              |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_s16" target="_blank">vget_low_s16</a>(int16x8_t a)</code>        | `a -> Vn.8H`           | `DUP Vd.1D,Vn.D[0]`   | `Vd.4H -> result` | `v7/A32/A64`              |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_s32" target="_blank">vget_low_s32</a>(int32x4_t a)</code>        | `a -> Vn.4S`           | `DUP Vd.1D,Vn.D[0]`   | `Vd.2S -> result` | `v7/A32/A64`              |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_s64" target="_blank">vget_low_s64</a>(int64x2_t a)</code>        | `a -> Vn.2D`           | `DUP Vd.1D,Vn.D[0]`   | `Vd.1D -> result` | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_u8" target="_blank">vget_low_u8</a>(uint8x16_t a)</code>         | `a -> Vn.16B`          | `DUP Vd.1D,Vn.D[0]`   | `Vd.8B -> result` | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_u16" target="_blank">vget_low_u16</a>(uint16x8_t a)</code>      | `a -> Vn.8H`           | `DUP Vd.1D,Vn.D[0]`   | `Vd.4H -> result` | `v7/A32/A64`              |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_u32" target="_blank">vget_low_u32</a>(uint32x4_t a)</code>      | `a -> Vn.4S`           | `DUP Vd.1D,Vn.D[0]`   | `Vd.2S -> result` | `v7/A32/A64`              |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_u64" target="_blank">vget_low_u64</a>(uint64x2_t a)</code>      | `a -> Vn.2D`           | `DUP Vd.1D,Vn.D[0]`   | `Vd.1D -> result` | `v7/A32/A64`              |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_p64" target="_blank">vget_low_p64</a>(poly64x2_t a)</code>      | `a -> Vn.2D`           | `DUP Vd.1D,Vn.D[0]`   | `Vd.1D -> result` | `A32/A64`                 |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_f16" target="_blank">vget_low_f16</a>(float16x8_t a)</code>    | `a -> Vn.8H`           | `DUP Vd.1D,Vn.D[0]`   | `Vd.4H -> result` | `v7/A32/A64`              |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_f32" target="_blank">vget_low_f32</a>(float32x4_t a)</code>    | `a -> Vn.4S`           | `DUP Vd.1D,Vn.D[0]`   | `Vd.2S -> result` | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_p8" target="_blank">vget_low_p8</a>(poly8x16_t a)</code>         | `a -> Vn.16B`          | `DUP Vd.1D,Vn.D[0]`   | `Vd.8B -> result` | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_p16" target="_blank">vget_low_p16</a>(poly16x8_t a)</code>      | `a -> Vn.8H`           | `DUP Vd.1D,Vn.D[0]`   | `Vd.4H -> result` | `v7/A32/A64`              |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_f64" target="_blank">vget_low_f64</a>(float64x2_t a)</code>    | `a -> Vn.2D`           | `DUP Vd.1D,Vn.D[0]`   | `Vd.1D -> result` | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_low_mf8" target="_blank">vget_low_mf8</a>(mfloat8x16_t a)</code>   | `a -> Vn.16B`          | `DUP Vd.1D,Vn.D[0]`   | `Vd.8B -> result` | `A64`                     |
 
 #### Extract one element from vector
 
-| Intrinsic                                                                                                                                                                                                                                          | Argument preparation                 | AArch64 Instruction   | Result         | Supported architectures   |
-|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------------|-----------------------|----------------|---------------------------|
-| <code>int8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupb_lane_s8" target="_blank">vdupb_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `vec -> Vn.8B`<br>`0 <= lane <= 7`   | `DUP Bd,Vn.B[lane]`   | `Bd -> result` | `A64`                     |
-| <code>int16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vduph_lane_s16" target="_blank">vduph_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.4H`<br>`0 <= lane <= 3`   | `DUP Hd,Vn.H[lane]`   | `Hd -> result` | `A64`                     |
-| <code>int32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdups_lane_s32" target="_blank">vdups_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.2S`<br>`0 <= lane <= 1`   | `DUP Sd,Vn.S[lane]`   | `Sd -> result` | `A64`                     |
-| <code>int64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupd_lane_s64" target="_blank">vdupd_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.1D`<br>`0 <= lane <= 0`   | `DUP Dd,Vn.D[lane]`   | `Dd -> result` | `A64`                     |
-| <code>uint8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupb_lane_u8" target="_blank">vdupb_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `vec -> Vn.8B`<br>`0 <= lane <= 7`   | `DUP Bd,Vn.B[lane]`   | `Bd -> result` | `A64`                     |
-| <code>uint16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vduph_lane_u16" target="_blank">vduph_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.4H`<br>`0 <= lane <= 3`   | `DUP Hd,Vn.H[lane]`   | `Hd -> result` | `A64`                     |
-| <code>uint32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdups_lane_u32" target="_blank">vdups_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.2S`<br>`0 <= lane <= 1`   | `DUP Sd,Vn.S[lane]`   | `Sd -> result` | `A64`                     |
-| <code>uint64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupd_lane_u64" target="_blank">vdupd_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.1D`<br>`0 <= lane <= 0`   | `DUP Dd,Vn.D[lane]`   | `Dd -> result` | `A64`                     |
-| <code>float32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdups_lane_f32" target="_blank">vdups_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `vec -> Vn.2S`<br>`0 <= lane <= 1`   | `DUP Sd,Vn.S[lane]`   | `Sd -> result` | `A64`                     |
-| <code>float64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupd_lane_f64" target="_blank">vdupd_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `vec -> Vn.1D`<br>`0 <= lane <= 0`   | `DUP Dd,Vn.D[lane]`   | `Dd -> result` | `A64`                     |
-| <code>poly8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupb_lane_p8" target="_blank">vdupb_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `vec -> Vn.8B`<br>`0 <= lane <= 7`   | `DUP Bd,Vn.B[lane]`   | `Bd -> result` | `A64`                     |
-| <code>poly16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vduph_lane_p16" target="_blank">vduph_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.4H`<br>`0 <= lane <= 3`   | `DUP Hd,Vn.H[lane]`   | `Hd -> result` | `A64`                     |
-| <code>int8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupb_laneq_s8" target="_blank">vdupb_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `vec -> Vn.16B`<br>`0 <= lane <= 15` | `DUP Bd,Vn.B[lane]`   | `Bd -> result` | `A64`                     |
-| <code>int16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vduph_laneq_s16" target="_blank">vduph_laneq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.8H`<br>`0 <= lane <= 7`   | `DUP Hd,Vn.H[lane]`   | `Hd -> result` | `A64`                     |
-| <code>int32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdups_laneq_s32" target="_blank">vdups_laneq_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.4S`<br>`0 <= lane <= 3`   | `DUP Sd,Vn.S[lane]`   | `Sd -> result` | `A64`                     |
-| <code>int64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupd_laneq_s64" target="_blank">vdupd_laneq_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `vec -> Vn.2D`<br>`0 <= lane <= 1`   | `DUP Dd,Vn.D[lane]`   | `Dd -> result` | `A64`                     |
-| <code>uint8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupb_laneq_u8" target="_blank">vdupb_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `vec -> Vn.16B`<br>`0 <= lane <= 15` | `DUP Bd,Vn.B[lane]`   | `Bd -> result` | `A64`                     |
-| <code>uint16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vduph_laneq_u16" target="_blank">vduph_laneq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `vec -> Vn.8H`<br>`0 <= lane <= 7`   | `DUP Hd,Vn.H[lane]`   | `Hd -> result` | `A64`                     |
-| <code>uint32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdups_laneq_u32" target="_blank">vdups_laneq_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `vec -> Vn.4S`<br>`0 <= lane <= 3`   | `DUP Sd,Vn.S[lane]`   | `Sd -> result` | `A64`                     |
-| <code>uint64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupd_laneq_u64" target="_blank">vdupd_laneq_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `vec -> Vn.2D`<br>`0 <= lane <= 1`   | `DUP Dd,Vn.D[lane]`   | `Dd -> result` | `A64`                     |
-| <code>float32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdups_laneq_f32" target="_blank">vdups_laneq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `vec -> Vn.4S`<br>`0 <= lane <= 3`   | `DUP Sd,Vn.S[lane]`   | `Sd -> result` | `A64`                     |
-| <code>float64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupd_laneq_f64" target="_blank">vdupd_laneq_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `vec -> Vn.2D`<br>`0 <= lane <= 1`   | `DUP Dd,Vn.D[lane]`   | `Dd -> result` | `A64`                     |
-| <code>poly8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupb_laneq_p8" target="_blank">vdupb_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `vec -> Vn.16B`<br>`0 <= lane <= 15` | `DUP Bd,Vn.B[lane]`   | `Bd -> result` | `A64`                     |
-| <code>poly16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vduph_laneq_p16" target="_blank">vduph_laneq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `vec -> Vn.8H`<br>`0 <= lane <= 7`   | `DUP Hd,Vn.H[lane]`   | `Hd -> result` | `A64`                     |
-| <code>uint8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_u8" target="_blank">vget_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `0<=lane<=7`<br>`v -> Vn.8B`         | `UMOV Rd,Vn.B[lane]`  | `Rd -> result` | `v7/A32/A64`              |
-| <code>uint16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_u16" target="_blank">vget_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `0<=lane<=3`<br>`v -> Vn.4H`         | `UMOV Rd,Vn.H[lane]`  | `Rd -> result` | `v7/A32/A64`              |
-| <code>uint32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_u32" target="_blank">vget_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `0<=lane<=1`<br>`v -> Vn.2S`         | `UMOV Rd,Vn.S[lane]`  | `Rd -> result` | `v7/A32/A64`              |
-| <code>uint64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_u64" target="_blank">vget_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `lane==0`<br>`v -> Vn.1D`            | `UMOV Rd,Vn.D[lane]`  | `Rd -> result` | `v7/A32/A64`              |
-| <code>poly64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_p64" target="_blank">vget_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `lane==0`<br>`v -> Vn.1D`            | `UMOV Rd,Vn.D[lane]`  | `Rd -> result` | `A32/A64`                 |
-| <code>int8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_s8" target="_blank">vget_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>               | `0<=lane<=7`<br>`v -> Vn.8B`         | `SMOV Rd,Vn.B[lane]`  | `Rd -> result` | `v7/A32/A64`              |
-| <code>int16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_s16" target="_blank">vget_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `0<=lane<=3`<br>`v -> Vn.4H`         | `SMOV Rd,Vn.H[lane]`  | `Rd -> result` | `v7/A32/A64`              |
-| <code>int32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_s32" target="_blank">vget_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `0<=lane<=1`<br>`v -> Vn.2S`         | `SMOV Rd,Vn.S[lane]`  | `Rd -> result` | `v7/A32/A64`              |
-| <code>int64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_s64" target="_blank">vget_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `lane==0`<br>`v -> Vn.1D`            | `UMOV Rd,Vn.D[lane]`  | `Rd -> result` | `v7/A32/A64`              |
-| <code>poly8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_p8" target="_blank">vget_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `0<=lane<=7`<br>`v -> Vn.8B`         | `UMOV Rd,Vn.B[lane]`  | `Rd -> result` | `v7/A32/A64`              |
-| <code>poly16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_p16" target="_blank">vget_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `0<=lane<=3`<br>`v -> Vn.4H`         | `UMOV Rd,Vn.H[lane]`  | `Rd -> result` | `v7/A32/A64`              |
-| <code>float32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_f32" target="_blank">vget_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `0<=lane<=1`<br>`v -> Vn.2S`         | `DUP Sd,Vn.S[lane]`   | `Sd -> result` | `v7/A32/A64`              |
-| <code>float64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_f64" target="_blank">vget_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `lane==0`<br>`v -> Vn.1D`            | `DUP Dd,Vn.D[lane]`   | `Dd -> result` | `A64`                     |
-| <code>uint8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_u8" target="_blank">vgetq_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `0<=lane<=15`<br>`v -> Vn.16B`       | `UMOV Rd,Vn.B[lane]`  | `Rd -> result` | `v7/A32/A64`              |
-| <code>uint16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_u16" target="_blank">vgetq_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `0<=lane<=7`<br>`v -> Vn.8H`         | `UMOV Rd,Vn.H[lane]`  | `Rd -> result` | `v7/A32/A64`              |
-| <code>uint32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_u32" target="_blank">vgetq_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `0<=lane<=3`<br>`v -> Vn.4S`         | `UMOV Rd,Vn.S[lane]`  | `Rd -> result` | `v7/A32/A64`              |
-| <code>uint64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_u64" target="_blank">vgetq_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `0<=lane<=1`<br>`v -> Vn.2D`         | `UMOV Rd,Vn.D[lane]`  | `Rd -> result` | `v7/A32/A64`              |
-| <code>poly64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_p64" target="_blank">vgetq_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `0<=lane<=1`<br>`v -> Vn.2D`         | `UMOV Rd,Vn.D[lane]`  | `Rd -> result` | `A32/A64`                 |
-| <code>int8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_s8" target="_blank">vgetq_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>            | `0<=lane<=15`<br>`v -> Vn.16B`       | `SMOV Rd,Vn.B[lane]`  | `Rd -> result` | `v7/A32/A64`              |
-| <code>int16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_s16" target="_blank">vgetq_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `0<=lane<=7`<br>`v -> Vn.8H`         | `SMOV Rd,Vn.H[lane]`  | `Rd -> result` | `v7/A32/A64`              |
-| <code>int32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_s32" target="_blank">vgetq_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `0<=lane<=3`<br>`v -> Vn.4S`         | `SMOV Rd,Vn.S[lane]`  | `Rd -> result` | `v7/A32/A64`              |
-| <code>int64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_s64" target="_blank">vgetq_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `0<=lane<=1`<br>`v -> Vn.2D`         | `UMOV Rd,Vn.D[lane]`  | `Rd -> result` | `v7/A32/A64`              |
-| <code>poly8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_p8" target="_blank">vgetq_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `0<=lane<=15`<br>`v -> Vn.16B`       | `UMOV Rd,Vn.B[lane]`  | `Rd -> result` | `v7/A32/A64`              |
-| <code>poly16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_p16" target="_blank">vgetq_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `0<=lane<=7`<br>`v -> Vn.8H`         | `UMOV Rd,Vn.H[lane]`  | `Rd -> result` | `v7/A32/A64`              |
-| <code>float16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_f16" target="_blank">vget_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `0<=lane<=3`<br>`v -> Vn.4H`         | `DUP Hd,Vn.H[lane]`   | `Hd -> result` | `v7/A32/A64`              |
-| <code>float16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_f16" target="_blank">vgetq_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `0<=lane<=7`<br>`v -> Vn.8H`         | `DUP Hd,Vn.H[lane]`   | `Hd -> result` | `v7/A32/A64`              |
-| <code>float32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_f32" target="_blank">vgetq_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `0<=lane<=3`<br>`v -> Vn.4S`         | `DUP Sd,Vn.S[lane]`   | `Sd -> result` | `v7/A32/A64`              |
-| <code>float64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_f64" target="_blank">vgetq_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `0<=lane<=1`<br>`v -> Vn.2D`         | `DUP Dd,Vn.D[lane]`   | `Dd -> result` | `A64`                     |
+| Intrinsic                                                                                                                                                                                                                                           | Argument preparation                 | AArch64 Instruction   | Result         | Supported architectures   |
+|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------------|-----------------------|----------------|---------------------------|
+| <code>int8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupb_lane_s8" target="_blank">vdupb_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>            | `vec -> Vn.8B`<br>`0 <= lane <= 7`   | `DUP Bd,Vn.B[lane]`   | `Bd -> result` | `A64`                     |
+| <code>int16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vduph_lane_s16" target="_blank">vduph_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `vec -> Vn.4H`<br>`0 <= lane <= 3`   | `DUP Hd,Vn.H[lane]`   | `Hd -> result` | `A64`                     |
+| <code>int32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdups_lane_s32" target="_blank">vdups_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `vec -> Vn.2S`<br>`0 <= lane <= 1`   | `DUP Sd,Vn.S[lane]`   | `Sd -> result` | `A64`                     |
+| <code>int64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupd_lane_s64" target="_blank">vdupd_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `vec -> Vn.1D`<br>`0 <= lane <= 0`   | `DUP Dd,Vn.D[lane]`   | `Dd -> result` | `A64`                     |
+| <code>uint8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupb_lane_u8" target="_blank">vdupb_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `vec -> Vn.8B`<br>`0 <= lane <= 7`   | `DUP Bd,Vn.B[lane]`   | `Bd -> result` | `A64`                     |
+| <code>uint16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vduph_lane_u16" target="_blank">vduph_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `vec -> Vn.4H`<br>`0 <= lane <= 3`   | `DUP Hd,Vn.H[lane]`   | `Hd -> result` | `A64`                     |
+| <code>uint32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdups_lane_u32" target="_blank">vdups_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `vec -> Vn.2S`<br>`0 <= lane <= 1`   | `DUP Sd,Vn.S[lane]`   | `Sd -> result` | `A64`                     |
+| <code>uint64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupd_lane_u64" target="_blank">vdupd_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `vec -> Vn.1D`<br>`0 <= lane <= 0`   | `DUP Dd,Vn.D[lane]`   | `Dd -> result` | `A64`                     |
+| <code>float32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdups_lane_f32" target="_blank">vdups_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `vec -> Vn.2S`<br>`0 <= lane <= 1`   | `DUP Sd,Vn.S[lane]`   | `Sd -> result` | `A64`                     |
+| <code>float64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupd_lane_f64" target="_blank">vdupd_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `vec -> Vn.1D`<br>`0 <= lane <= 0`   | `DUP Dd,Vn.D[lane]`   | `Dd -> result` | `A64`                     |
+| <code>poly8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupb_lane_p8" target="_blank">vdupb_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `vec -> Vn.8B`<br>`0 <= lane <= 7`   | `DUP Bd,Vn.B[lane]`   | `Bd -> result` | `A64`                     |
+| <code>poly16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vduph_lane_p16" target="_blank">vduph_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `vec -> Vn.4H`<br>`0 <= lane <= 3`   | `DUP Hd,Vn.H[lane]`   | `Hd -> result` | `A64`                     |
+| <code>mfloat8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupb_lane_mf8" target="_blank">vdupb_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `vec -> Vn.8B`<br>`0 <= lane <= 7`   | `DUP Bd,Vn.B[lane]`   | `Bd -> result` | `A64`                     |
+| <code>int8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupb_laneq_s8" target="_blank">vdupb_laneq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `vec -> Vn.16B`<br>`0 <= lane <= 15` | `DUP Bd,Vn.B[lane]`   | `Bd -> result` | `A64`                     |
+| <code>int16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vduph_laneq_s16" target="_blank">vduph_laneq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `vec -> Vn.8H`<br>`0 <= lane <= 7`   | `DUP Hd,Vn.H[lane]`   | `Hd -> result` | `A64`                     |
+| <code>int32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdups_laneq_s32" target="_blank">vdups_laneq_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `vec -> Vn.4S`<br>`0 <= lane <= 3`   | `DUP Sd,Vn.S[lane]`   | `Sd -> result` | `A64`                     |
+| <code>int64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupd_laneq_s64" target="_blank">vdupd_laneq_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `vec -> Vn.2D`<br>`0 <= lane <= 1`   | `DUP Dd,Vn.D[lane]`   | `Dd -> result` | `A64`                     |
+| <code>uint8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupb_laneq_u8" target="_blank">vdupb_laneq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.16B`<br>`0 <= lane <= 15` | `DUP Bd,Vn.B[lane]`   | `Bd -> result` | `A64`                     |
+| <code>uint16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vduph_laneq_u16" target="_blank">vduph_laneq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `vec -> Vn.8H`<br>`0 <= lane <= 7`   | `DUP Hd,Vn.H[lane]`   | `Hd -> result` | `A64`                     |
+| <code>uint32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdups_laneq_u32" target="_blank">vdups_laneq_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `vec -> Vn.4S`<br>`0 <= lane <= 3`   | `DUP Sd,Vn.S[lane]`   | `Sd -> result` | `A64`                     |
+| <code>uint64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupd_laneq_u64" target="_blank">vdupd_laneq_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `vec -> Vn.2D`<br>`0 <= lane <= 1`   | `DUP Dd,Vn.D[lane]`   | `Dd -> result` | `A64`                     |
+| <code>float32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdups_laneq_f32" target="_blank">vdups_laneq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>  | `vec -> Vn.4S`<br>`0 <= lane <= 3`   | `DUP Sd,Vn.S[lane]`   | `Sd -> result` | `A64`                     |
+| <code>float64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupd_laneq_f64" target="_blank">vdupd_laneq_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>  | `vec -> Vn.2D`<br>`0 <= lane <= 1`   | `DUP Dd,Vn.D[lane]`   | `Dd -> result` | `A64`                     |
+| <code>poly8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupb_laneq_p8" target="_blank">vdupb_laneq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `vec -> Vn.16B`<br>`0 <= lane <= 15` | `DUP Bd,Vn.B[lane]`   | `Bd -> result` | `A64`                     |
+| <code>poly16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vduph_laneq_p16" target="_blank">vduph_laneq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `vec -> Vn.8H`<br>`0 <= lane <= 7`   | `DUP Hd,Vn.H[lane]`   | `Hd -> result` | `A64`                     |
+| <code>mfloat8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdupb_laneq_mf8" target="_blank">vdupb_laneq_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vec,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `vec -> Vn.16B`<br>`0 <= lane <= 15` | `DUP Bd,Vn.B[lane]`   | `Bd -> result` | `A64`                     |
+| <code>uint8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_u8" target="_blank">vget_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>              | `0<=lane<=7`<br>`v -> Vn.8B`         | `UMOV Rd,Vn.B[lane]`  | `Rd -> result` | `v7/A32/A64`              |
+| <code>uint16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_u16" target="_blank">vget_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `0<=lane<=3`<br>`v -> Vn.4H`         | `UMOV Rd,Vn.H[lane]`  | `Rd -> result` | `v7/A32/A64`              |
+| <code>uint32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_u32" target="_blank">vget_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `0<=lane<=1`<br>`v -> Vn.2S`         | `UMOV Rd,Vn.S[lane]`  | `Rd -> result` | `v7/A32/A64`              |
+| <code>uint64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_u64" target="_blank">vget_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `lane==0`<br>`v -> Vn.1D`            | `UMOV Rd,Vn.D[lane]`  | `Rd -> result` | `v7/A32/A64`              |
+| <code>poly64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_p64" target="_blank">vget_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `lane==0`<br>`v -> Vn.1D`            | `UMOV Rd,Vn.D[lane]`  | `Rd -> result` | `A32/A64`                 |
+| <code>int8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_s8" target="_blank">vget_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                | `0<=lane<=7`<br>`v -> Vn.8B`         | `SMOV Rd,Vn.B[lane]`  | `Rd -> result` | `v7/A32/A64`              |
+| <code>int16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_s16" target="_blank">vget_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>            | `0<=lane<=3`<br>`v -> Vn.4H`         | `SMOV Rd,Vn.H[lane]`  | `Rd -> result` | `v7/A32/A64`              |
+| <code>int32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_s32" target="_blank">vget_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>            | `0<=lane<=1`<br>`v -> Vn.2S`         | `SMOV Rd,Vn.S[lane]`  | `Rd -> result` | `v7/A32/A64`              |
+| <code>int64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_s64" target="_blank">vget_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>            | `lane==0`<br>`v -> Vn.1D`            | `UMOV Rd,Vn.D[lane]`  | `Rd -> result` | `v7/A32/A64`              |
+| <code>poly8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_p8" target="_blank">vget_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>              | `0<=lane<=7`<br>`v -> Vn.8B`         | `UMOV Rd,Vn.B[lane]`  | `Rd -> result` | `v7/A32/A64`              |
+| <code>poly16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_p16" target="_blank">vget_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `0<=lane<=3`<br>`v -> Vn.4H`         | `UMOV Rd,Vn.H[lane]`  | `Rd -> result` | `v7/A32/A64`              |
+| <code>float32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_f32" target="_blank">vget_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `0<=lane<=1`<br>`v -> Vn.2S`         | `DUP Sd,Vn.S[lane]`   | `Sd -> result` | `v7/A32/A64`              |
+| <code>float64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_f64" target="_blank">vget_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `lane==0`<br>`v -> Vn.1D`            | `DUP Dd,Vn.D[lane]`   | `Dd -> result` | `A64`                     |
+| <code>uint8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_u8" target="_blank">vgetq_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `0<=lane<=15`<br>`v -> Vn.16B`       | `UMOV Rd,Vn.B[lane]`  | `Rd -> result` | `v7/A32/A64`              |
+| <code>uint16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_u16" target="_blank">vgetq_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `0<=lane<=7`<br>`v -> Vn.8H`         | `UMOV Rd,Vn.H[lane]`  | `Rd -> result` | `v7/A32/A64`              |
+| <code>uint32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_u32" target="_blank">vgetq_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `0<=lane<=3`<br>`v -> Vn.4S`         | `UMOV Rd,Vn.S[lane]`  | `Rd -> result` | `v7/A32/A64`              |
+| <code>uint64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_u64" target="_blank">vgetq_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `0<=lane<=1`<br>`v -> Vn.2D`         | `UMOV Rd,Vn.D[lane]`  | `Rd -> result` | `v7/A32/A64`              |
+| <code>poly64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_p64" target="_blank">vgetq_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `0<=lane<=1`<br>`v -> Vn.2D`         | `UMOV Rd,Vn.D[lane]`  | `Rd -> result` | `A32/A64`                 |
+| <code>int8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_s8" target="_blank">vgetq_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `0<=lane<=15`<br>`v -> Vn.16B`       | `SMOV Rd,Vn.B[lane]`  | `Rd -> result` | `v7/A32/A64`              |
+| <code>int16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_s16" target="_blank">vgetq_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `0<=lane<=7`<br>`v -> Vn.8H`         | `SMOV Rd,Vn.H[lane]`  | `Rd -> result` | `v7/A32/A64`              |
+| <code>int32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_s32" target="_blank">vgetq_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `0<=lane<=3`<br>`v -> Vn.4S`         | `SMOV Rd,Vn.S[lane]`  | `Rd -> result` | `v7/A32/A64`              |
+| <code>int64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_s64" target="_blank">vgetq_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `0<=lane<=1`<br>`v -> Vn.2D`         | `UMOV Rd,Vn.D[lane]`  | `Rd -> result` | `v7/A32/A64`              |
+| <code>poly8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_p8" target="_blank">vgetq_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `0<=lane<=15`<br>`v -> Vn.16B`       | `UMOV Rd,Vn.B[lane]`  | `Rd -> result` | `v7/A32/A64`              |
+| <code>poly16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_p16" target="_blank">vgetq_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `0<=lane<=7`<br>`v -> Vn.8H`         | `UMOV Rd,Vn.H[lane]`  | `Rd -> result` | `v7/A32/A64`              |
+| <code>float16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vget_lane_f16" target="_blank">vget_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `0<=lane<=3`<br>`v -> Vn.4H`         | `DUP Hd,Vn.H[lane]`   | `Hd -> result` | `v7/A32/A64`              |
+| <code>float16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_f16" target="_blank">vgetq_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `0<=lane<=7`<br>`v -> Vn.8H`         | `DUP Hd,Vn.H[lane]`   | `Hd -> result` | `v7/A32/A64`              |
+| <code>float32_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_f32" target="_blank">vgetq_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `0<=lane<=3`<br>`v -> Vn.4S`         | `DUP Sd,Vn.S[lane]`   | `Sd -> result` | `v7/A32/A64`              |
+| <code>float64_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vgetq_lane_f64" target="_blank">vgetq_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `0<=lane<=1`<br>`v -> Vn.2D`         | `DUP Dd,Vn.D[lane]`   | `Dd -> result` | `A64`                     |
 
 #### Extract vector from a pair of vectors
 
-| Intrinsic                                                                                                                                                                                                                                                                      | Argument preparation                             | AArch64 Instruction                | Result             | Supported architectures   |
-|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------------------------|------------------------------------|--------------------|---------------------------|
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_s8" target="_blank">vext_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`0 <= n <= 7`    | `EXT Vd.8B,Vn.8B,Vm.8B,#n`         | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_s8" target="_blank">vextq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 15` | `EXT Vd.16B,Vn.16B,Vm.16B,#n`      | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_s16" target="_blank">vext_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>         | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`0 <= n <= 3`    | `EXT Vd.8B,Vn.8B,Vm.8B,#(n<<1)`    | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_s16" target="_blank">vextq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>       | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 7`  | `EXT Vd.16B,Vn.16B,Vm.16B,#(n<<1)` | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_s32" target="_blank">vext_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>         | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`0 <= n <= 1`    | `EXT Vd.8B,Vn.8B,Vm.8B,#(n<<2)`    | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_s32" target="_blank">vextq_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>       | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 3`  | `EXT Vd.16B,Vn.16B,Vm.16B,#(n<<2)` | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_s64" target="_blank">vext_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>         | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`n == 0`         | `EXT Vd.8B,Vn.8B,Vm.8B,#(n<<3)`    | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_s64" target="_blank">vextq_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>       | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 1`  | `EXT Vd.16B,Vn.16B,Vm.16B,#(n<<3)` | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_u8" target="_blank">vext_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>           | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`0 <= n <= 7`    | `EXT Vd.8B,Vn.8B,Vm.8B,#n`         | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_u8" target="_blank">vextq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>      | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 15` | `EXT Vd.16B,Vn.16B,Vm.16B,#n`      | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_u16" target="_blank">vext_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>      | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`0 <= n <= 3`    | `EXT Vd.8B,Vn.8B,Vm.8B,#(n<<1)`    | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_u16" target="_blank">vextq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>    | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 7`  | `EXT Vd.16B,Vn.16B,Vm.16B,#(n<<1)` | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_u32" target="_blank">vext_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>      | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`0 <= n <= 1`    | `EXT Vd.8B,Vn.8B,Vm.8B,#(n<<2)`    | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_u32" target="_blank">vextq_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>    | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 3`  | `EXT Vd.16B,Vn.16B,Vm.16B,#(n<<2)` | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_u64" target="_blank">vext_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>      | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`n == 0`         | `EXT Vd.8B,Vn.8B,Vm.8B,#(n<<3)`    | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_u64" target="_blank">vextq_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>    | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 1`  | `EXT Vd.16B,Vn.16B,Vm.16B,#(n<<3)` | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_p64" target="_blank">vext_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>      | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`n == 0`         | `EXT Vd.8B,Vn.8B,Vm.8B,#(n<<3)`    | `Vd.8B -> result`  | `A32/A64`                 |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_p64" target="_blank">vextq_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>    | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 1`  | `EXT Vd.16B,Vn.16B,Vm.16B,#(n<<3)` | `Vd.16B -> result` | `A32/A64`                 |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_f32" target="_blank">vext_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>   | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`0 <= n <= 1`    | `EXT Vd.8B,Vn.8B,Vm.8B,#(n<<2)`    | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_f32" target="_blank">vextq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code> | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 3`  | `EXT Vd.16B,Vn.16B,Vm.16B,#(n<<2)` | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_f64" target="_blank">vext_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>   | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`n == 0`         | `EXT Vd.8B,Vn.8B,Vm.8B,#(n<<3)`    | `Vd.8B -> result`  | `A64`                     |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_f64" target="_blank">vextq_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code> | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 1`  | `EXT Vd.16B,Vn.16B,Vm.16B,#(n<<3)` | `Vd.16B -> result` | `A64`                     |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_p8" target="_blank">vext_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>           | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`0 <= n <= 7`    | `EXT Vd.8B,Vn.8B,Vm.8B,#n`         | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_p8" target="_blank">vextq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>      | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 15` | `EXT Vd.16B,Vn.16B,Vm.16B,#n`      | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_p16" target="_blank">vext_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>      | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`0 <= n <= 3`    | `EXT Vd.8B,Vn.8B,Vm.8B,#(n<<1)`    | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_p16" target="_blank">vextq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>    | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 7`  | `EXT Vd.16B,Vn.16B,Vm.16B,#(n<<1)` | `Vd.16B -> result` | `v7/A32/A64`              |
+| Intrinsic                                                                                                                                                                                                                                                                         | Argument preparation                             | AArch64 Instruction                | Result             | Supported architectures   |
+|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------------------------|------------------------------------|--------------------|---------------------------|
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_s8" target="_blank">vext_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>                 | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`0 <= n <= 7`    | `EXT Vd.8B,Vn.8B,Vm.8B,#n`         | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_s8" target="_blank">vextq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>            | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 15` | `EXT Vd.16B,Vn.16B,Vm.16B,#n`      | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_s16" target="_blank">vext_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>            | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`0 <= n <= 3`    | `EXT Vd.8B,Vn.8B,Vm.8B,#(n<<1)`    | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_s16" target="_blank">vextq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>          | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 7`  | `EXT Vd.16B,Vn.16B,Vm.16B,#(n<<1)` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_s32" target="_blank">vext_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>            | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`0 <= n <= 1`    | `EXT Vd.8B,Vn.8B,Vm.8B,#(n<<2)`    | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_s32" target="_blank">vextq_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>          | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 3`  | `EXT Vd.16B,Vn.16B,Vm.16B,#(n<<2)` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_s64" target="_blank">vext_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>            | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`n == 0`         | `EXT Vd.8B,Vn.8B,Vm.8B,#(n<<3)`    | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_s64" target="_blank">vextq_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>          | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 1`  | `EXT Vd.16B,Vn.16B,Vm.16B,#(n<<3)` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_u8" target="_blank">vext_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`0 <= n <= 7`    | `EXT Vd.8B,Vn.8B,Vm.8B,#n`         | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_u8" target="_blank">vextq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 15` | `EXT Vd.16B,Vn.16B,Vm.16B,#n`      | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_u16" target="_blank">vext_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>         | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`0 <= n <= 3`    | `EXT Vd.8B,Vn.8B,Vm.8B,#(n<<1)`    | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_u16" target="_blank">vextq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>       | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 7`  | `EXT Vd.16B,Vn.16B,Vm.16B,#(n<<1)` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_u32" target="_blank">vext_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>         | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`0 <= n <= 1`    | `EXT Vd.8B,Vn.8B,Vm.8B,#(n<<2)`    | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_u32" target="_blank">vextq_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>       | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 3`  | `EXT Vd.16B,Vn.16B,Vm.16B,#(n<<2)` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_u64" target="_blank">vext_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>         | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`n == 0`         | `EXT Vd.8B,Vn.8B,Vm.8B,#(n<<3)`    | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_u64" target="_blank">vextq_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>       | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 1`  | `EXT Vd.16B,Vn.16B,Vm.16B,#(n<<3)` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_p64" target="_blank">vext_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>         | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`n == 0`         | `EXT Vd.8B,Vn.8B,Vm.8B,#(n<<3)`    | `Vd.8B -> result`  | `A32/A64`                 |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_p64" target="_blank">vextq_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>       | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 1`  | `EXT Vd.16B,Vn.16B,Vm.16B,#(n<<3)` | `Vd.16B -> result` | `A32/A64`                 |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_f32" target="_blank">vext_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>      | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`0 <= n <= 1`    | `EXT Vd.8B,Vn.8B,Vm.8B,#(n<<2)`    | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_f32" target="_blank">vextq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>    | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 3`  | `EXT Vd.16B,Vn.16B,Vm.16B,#(n<<2)` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_f64" target="_blank">vext_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>      | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`n == 0`         | `EXT Vd.8B,Vn.8B,Vm.8B,#(n<<3)`    | `Vd.8B -> result`  | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_f64" target="_blank">vextq_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>    | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 1`  | `EXT Vd.16B,Vn.16B,Vm.16B,#(n<<3)` | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_p8" target="_blank">vext_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`0 <= n <= 7`    | `EXT Vd.8B,Vn.8B,Vm.8B,#n`         | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_p8" target="_blank">vextq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 15` | `EXT Vd.16B,Vn.16B,Vm.16B,#n`      | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_p16" target="_blank">vext_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>         | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`0 <= n <= 3`    | `EXT Vd.8B,Vn.8B,Vm.8B,#(n<<1)`    | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_p16" target="_blank">vextq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>       | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 7`  | `EXT Vd.16B,Vn.16B,Vm.16B,#(n<<1)` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vext_mf8" target="_blank">vext_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code>      | `a -> Vn.8B`<br>`b -> Vm.8B`<br>`0 <= n <= 7`    | `EXT Vd.8B,Vn.8B,Vm.8B,#n`         | `Vd.8B -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vextq_mf8" target="_blank">vextq_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int n)</code> | `a -> Vn.16B`<br>`b -> Vm.16B`<br>`0 <= n <= 15` | `EXT Vd.16B,Vn.16B,Vm.16B,#n`      | `Vd.16B -> result` | `A64`                     |
 
 #### Reverse elements
 
-| Intrinsic                                                                                                                                                           | Argument preparation   | AArch64 Instruction   | Result             | Supported architectures   |
-|---------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------|-----------------------|--------------------|---------------------------|
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64_s8" target="_blank">vrev64_s8</a>(int8x8_t vec)</code>           | `vec -> Vn.8B`         | `REV64 Vd.8B,Vn.8B`   | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64q_s8" target="_blank">vrev64q_s8</a>(int8x16_t vec)</code>       | `vec -> Vn.16B`        | `REV64 Vd.16B,Vn.16B` | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64_s16" target="_blank">vrev64_s16</a>(int16x4_t vec)</code>       | `vec -> Vn.4H`         | `REV64 Vd.4H,Vn.4H`   | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64q_s16" target="_blank">vrev64q_s16</a>(int16x8_t vec)</code>     | `vec -> Vn.8H`         | `REV64 Vd.8H,Vn.8H`   | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64_s32" target="_blank">vrev64_s32</a>(int32x2_t vec)</code>       | `vec -> Vn.2S`         | `REV64 Vd.2S,Vn.2S`   | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64q_s32" target="_blank">vrev64q_s32</a>(int32x4_t vec)</code>     | `vec -> Vn.4S`         | `REV64 Vd.4S,Vn.4S`   | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64_u8" target="_blank">vrev64_u8</a>(uint8x8_t vec)</code>         | `vec -> Vn.8B`         | `REV64 Vd.8B,Vn.8B`   | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64q_u8" target="_blank">vrev64q_u8</a>(uint8x16_t vec)</code>     | `vec -> Vn.16B`        | `REV64 Vd.16B,Vn.16B` | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64_u16" target="_blank">vrev64_u16</a>(uint16x4_t vec)</code>     | `vec -> Vn.4H`         | `REV64 Vd.4H,Vn.4H`   | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64q_u16" target="_blank">vrev64q_u16</a>(uint16x8_t vec)</code>   | `vec -> Vn.8H`         | `REV64 Vd.8H,Vn.8H`   | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64_u32" target="_blank">vrev64_u32</a>(uint32x2_t vec)</code>     | `vec -> Vn.2S`         | `REV64 Vd.2S,Vn.2S`   | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64q_u32" target="_blank">vrev64q_u32</a>(uint32x4_t vec)</code>   | `vec -> Vn.4S`         | `REV64 Vd.4S,Vn.4S`   | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64_f32" target="_blank">vrev64_f32</a>(float32x2_t vec)</code>   | `vec -> Vn.2S`         | `REV64 Vd.2S,Vn.2S`   | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64q_f32" target="_blank">vrev64q_f32</a>(float32x4_t vec)</code> | `vec -> Vn.4S`         | `REV64 Vd.4S,Vn.4S`   | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64_p8" target="_blank">vrev64_p8</a>(poly8x8_t vec)</code>         | `vec -> Vn.8B`         | `REV64 Vd.8B,Vn.8B`   | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64q_p8" target="_blank">vrev64q_p8</a>(poly8x16_t vec)</code>     | `vec -> Vn.16B`        | `REV64 Vd.16B,Vn.16B` | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64_p16" target="_blank">vrev64_p16</a>(poly16x4_t vec)</code>     | `vec -> Vn.4H`         | `REV64 Vd.4H,Vn.4H`   | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64q_p16" target="_blank">vrev64q_p16</a>(poly16x8_t vec)</code>   | `vec -> Vn.8H`         | `REV64 Vd.8H,Vn.8H`   | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32_s8" target="_blank">vrev32_s8</a>(int8x8_t vec)</code>           | `vec -> Vn.8B`         | `REV32 Vd.8B,Vn.8B`   | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32q_s8" target="_blank">vrev32q_s8</a>(int8x16_t vec)</code>       | `vec -> Vn.16B`        | `REV32 Vd.16B,Vn.16B` | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32_s16" target="_blank">vrev32_s16</a>(int16x4_t vec)</code>       | `vec -> Vn.4H`         | `REV32 Vd.4H,Vn.4H`   | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32q_s16" target="_blank">vrev32q_s16</a>(int16x8_t vec)</code>     | `vec -> Vn.8H`         | `REV32 Vd.8H,Vn.8H`   | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32_u8" target="_blank">vrev32_u8</a>(uint8x8_t vec)</code>         | `vec -> Vn.8B`         | `REV32 Vd.8B,Vn.8B`   | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32q_u8" target="_blank">vrev32q_u8</a>(uint8x16_t vec)</code>     | `vec -> Vn.16B`        | `REV32 Vd.16B,Vn.16B` | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32_u16" target="_blank">vrev32_u16</a>(uint16x4_t vec)</code>     | `vec -> Vn.4H`         | `REV32 Vd.4H,Vn.4H`   | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32q_u16" target="_blank">vrev32q_u16</a>(uint16x8_t vec)</code>   | `vec -> Vn.8H`         | `REV32 Vd.8H,Vn.8H`   | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32_p8" target="_blank">vrev32_p8</a>(poly8x8_t vec)</code>         | `vec -> Vn.8B`         | `REV32 Vd.8B,Vn.8B`   | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32q_p8" target="_blank">vrev32q_p8</a>(poly8x16_t vec)</code>     | `vec -> Vn.16B`        | `REV32 Vd.16B,Vn.16B` | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32_p16" target="_blank">vrev32_p16</a>(poly16x4_t vec)</code>     | `vec -> Vn.4H`         | `REV32 Vd.4H,Vn.4H`   | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32q_p16" target="_blank">vrev32q_p16</a>(poly16x8_t vec)</code>   | `vec -> Vn.8H`         | `REV32 Vd.8H,Vn.8H`   | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev16_s8" target="_blank">vrev16_s8</a>(int8x8_t vec)</code>           | `vec -> Vn.8B`         | `REV16 Vd.8B,Vn.8B`   | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev16q_s8" target="_blank">vrev16q_s8</a>(int8x16_t vec)</code>       | `vec -> Vn.16B`        | `REV16 Vd.16B,Vn.16B` | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev16_u8" target="_blank">vrev16_u8</a>(uint8x8_t vec)</code>         | `vec -> Vn.8B`         | `REV16 Vd.8B,Vn.8B`   | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev16q_u8" target="_blank">vrev16q_u8</a>(uint8x16_t vec)</code>     | `vec -> Vn.16B`        | `REV16 Vd.16B,Vn.16B` | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev16_p8" target="_blank">vrev16_p8</a>(poly8x8_t vec)</code>         | `vec -> Vn.8B`         | `REV16 Vd.8B,Vn.8B`   | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev16q_p8" target="_blank">vrev16q_p8</a>(poly8x16_t vec)</code>     | `vec -> Vn.16B`        | `REV16 Vd.16B,Vn.16B` | `Vd.16B -> result` | `v7/A32/A64`              |
+| Intrinsic                                                                                                                                                             | Argument preparation   | AArch64 Instruction   | Result             | Supported architectures   |
+|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------|-----------------------|--------------------|---------------------------|
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64_s8" target="_blank">vrev64_s8</a>(int8x8_t vec)</code>             | `vec -> Vn.8B`         | `REV64 Vd.8B,Vn.8B`   | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64q_s8" target="_blank">vrev64q_s8</a>(int8x16_t vec)</code>         | `vec -> Vn.16B`        | `REV64 Vd.16B,Vn.16B` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64_s16" target="_blank">vrev64_s16</a>(int16x4_t vec)</code>         | `vec -> Vn.4H`         | `REV64 Vd.4H,Vn.4H`   | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64q_s16" target="_blank">vrev64q_s16</a>(int16x8_t vec)</code>       | `vec -> Vn.8H`         | `REV64 Vd.8H,Vn.8H`   | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64_s32" target="_blank">vrev64_s32</a>(int32x2_t vec)</code>         | `vec -> Vn.2S`         | `REV64 Vd.2S,Vn.2S`   | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64q_s32" target="_blank">vrev64q_s32</a>(int32x4_t vec)</code>       | `vec -> Vn.4S`         | `REV64 Vd.4S,Vn.4S`   | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64_u8" target="_blank">vrev64_u8</a>(uint8x8_t vec)</code>           | `vec -> Vn.8B`         | `REV64 Vd.8B,Vn.8B`   | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64q_u8" target="_blank">vrev64q_u8</a>(uint8x16_t vec)</code>       | `vec -> Vn.16B`        | `REV64 Vd.16B,Vn.16B` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64_u16" target="_blank">vrev64_u16</a>(uint16x4_t vec)</code>       | `vec -> Vn.4H`         | `REV64 Vd.4H,Vn.4H`   | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64q_u16" target="_blank">vrev64q_u16</a>(uint16x8_t vec)</code>     | `vec -> Vn.8H`         | `REV64 Vd.8H,Vn.8H`   | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64_u32" target="_blank">vrev64_u32</a>(uint32x2_t vec)</code>       | `vec -> Vn.2S`         | `REV64 Vd.2S,Vn.2S`   | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64q_u32" target="_blank">vrev64q_u32</a>(uint32x4_t vec)</code>     | `vec -> Vn.4S`         | `REV64 Vd.4S,Vn.4S`   | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64_f32" target="_blank">vrev64_f32</a>(float32x2_t vec)</code>     | `vec -> Vn.2S`         | `REV64 Vd.2S,Vn.2S`   | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64q_f32" target="_blank">vrev64q_f32</a>(float32x4_t vec)</code>   | `vec -> Vn.4S`         | `REV64 Vd.4S,Vn.4S`   | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64_p8" target="_blank">vrev64_p8</a>(poly8x8_t vec)</code>           | `vec -> Vn.8B`         | `REV64 Vd.8B,Vn.8B`   | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64q_p8" target="_blank">vrev64q_p8</a>(poly8x16_t vec)</code>       | `vec -> Vn.16B`        | `REV64 Vd.16B,Vn.16B` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64_p16" target="_blank">vrev64_p16</a>(poly16x4_t vec)</code>       | `vec -> Vn.4H`         | `REV64 Vd.4H,Vn.4H`   | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64q_p16" target="_blank">vrev64q_p16</a>(poly16x8_t vec)</code>     | `vec -> Vn.8H`         | `REV64 Vd.8H,Vn.8H`   | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64_mf8" target="_blank">vrev64_mf8</a>(mfloat8x8_t vec)</code>     | `vec -> Vn.8B`         | `REV64 Vd.8B,Vn.8B`   | `Vd.8B -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev64q_mf8" target="_blank">vrev64q_mf8</a>(mfloat8x16_t vec)</code> | `vec -> Vn.16B`        | `REV64 Vd.16B,Vn.16B` | `Vd.16B -> result` | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32_s8" target="_blank">vrev32_s8</a>(int8x8_t vec)</code>             | `vec -> Vn.8B`         | `REV32 Vd.8B,Vn.8B`   | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32q_s8" target="_blank">vrev32q_s8</a>(int8x16_t vec)</code>         | `vec -> Vn.16B`        | `REV32 Vd.16B,Vn.16B` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32_s16" target="_blank">vrev32_s16</a>(int16x4_t vec)</code>         | `vec -> Vn.4H`         | `REV32 Vd.4H,Vn.4H`   | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32q_s16" target="_blank">vrev32q_s16</a>(int16x8_t vec)</code>       | `vec -> Vn.8H`         | `REV32 Vd.8H,Vn.8H`   | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32_u8" target="_blank">vrev32_u8</a>(uint8x8_t vec)</code>           | `vec -> Vn.8B`         | `REV32 Vd.8B,Vn.8B`   | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32q_u8" target="_blank">vrev32q_u8</a>(uint8x16_t vec)</code>       | `vec -> Vn.16B`        | `REV32 Vd.16B,Vn.16B` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32_u16" target="_blank">vrev32_u16</a>(uint16x4_t vec)</code>       | `vec -> Vn.4H`         | `REV32 Vd.4H,Vn.4H`   | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32q_u16" target="_blank">vrev32q_u16</a>(uint16x8_t vec)</code>     | `vec -> Vn.8H`         | `REV32 Vd.8H,Vn.8H`   | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32_p8" target="_blank">vrev32_p8</a>(poly8x8_t vec)</code>           | `vec -> Vn.8B`         | `REV32 Vd.8B,Vn.8B`   | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32q_p8" target="_blank">vrev32q_p8</a>(poly8x16_t vec)</code>       | `vec -> Vn.16B`        | `REV32 Vd.16B,Vn.16B` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32_p16" target="_blank">vrev32_p16</a>(poly16x4_t vec)</code>       | `vec -> Vn.4H`         | `REV32 Vd.4H,Vn.4H`   | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32q_p16" target="_blank">vrev32q_p16</a>(poly16x8_t vec)</code>     | `vec -> Vn.8H`         | `REV32 Vd.8H,Vn.8H`   | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32_mf8" target="_blank">vrev32_mf8</a>(mfloat8x8_t vec)</code>     | `vec -> Vn.8B`         | `REV32 Vd.8B,Vn.8B`   | `Vd.8B -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev32q_mf8" target="_blank">vrev32q_mf8</a>(mfloat8x16_t vec)</code> | `vec -> Vn.16B`        | `REV32 Vd.16B,Vn.16B` | `Vd.16B -> result` | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev16_s8" target="_blank">vrev16_s8</a>(int8x8_t vec)</code>             | `vec -> Vn.8B`         | `REV16 Vd.8B,Vn.8B`   | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev16q_s8" target="_blank">vrev16q_s8</a>(int8x16_t vec)</code>         | `vec -> Vn.16B`        | `REV16 Vd.16B,Vn.16B` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev16_u8" target="_blank">vrev16_u8</a>(uint8x8_t vec)</code>           | `vec -> Vn.8B`         | `REV16 Vd.8B,Vn.8B`   | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev16q_u8" target="_blank">vrev16q_u8</a>(uint8x16_t vec)</code>       | `vec -> Vn.16B`        | `REV16 Vd.16B,Vn.16B` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev16_p8" target="_blank">vrev16_p8</a>(poly8x8_t vec)</code>           | `vec -> Vn.8B`         | `REV16 Vd.8B,Vn.8B`   | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev16q_p8" target="_blank">vrev16q_p8</a>(poly8x16_t vec)</code>       | `vec -> Vn.16B`        | `REV16 Vd.16B,Vn.16B` | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev16_mf8" target="_blank">vrev16_mf8</a>(mfloat8x8_t vec)</code>     | `vec -> Vn.8B`         | `REV16 Vd.8B,Vn.8B`   | `Vd.8B -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vrev16q_mf8" target="_blank">vrev16q_mf8</a>(mfloat8x16_t vec)</code> | `vec -> Vn.16B`        | `REV16 Vd.16B,Vn.16B` | `Vd.16B -> result` | `A64`                     |
 
 #### Zip elements
 
-| Intrinsic                                                                                                                                                                                                                               | Argument preparation           | AArch64 Instruction                                          | Result                                                   | Supported architectures   |
-|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------|--------------------------------------------------------------|----------------------------------------------------------|---------------------------|
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1_s8" target="_blank">vzip1_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `ZIP1 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_s8" target="_blank">vzip1q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `ZIP1 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1_s16" target="_blank">vzip1_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `ZIP1 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_s16" target="_blank">vzip1q_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `ZIP1 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1_s32" target="_blank">vzip1_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b)</code>         | `a -> Vn.2S`<br>`b -> Vm.2S`   | `ZIP1 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_s32" target="_blank">vzip1q_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b)</code>       | `a -> Vn.4S`<br>`b -> Vm.4S`   | `ZIP1 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_s64" target="_blank">vzip1q_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t b)</code>       | `a -> Vn.2D`<br>`b -> Vm.2D`   | `ZIP1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1_u8" target="_blank">vzip1_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b)</code>           | `a -> Vn.8B`<br>`b -> Vm.8B`   | `ZIP1 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_u8" target="_blank">vzip1q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b)</code>      | `a -> Vn.16B`<br>`b -> Vm.16B` | `ZIP1 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1_u16" target="_blank">vzip1_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b)</code>      | `a -> Vn.4H`<br>`b -> Vm.4H`   | `ZIP1 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_u16" target="_blank">vzip1q_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b)</code>    | `a -> Vn.8H`<br>`b -> Vm.8H`   | `ZIP1 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1_u32" target="_blank">vzip1_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b)</code>      | `a -> Vn.2S`<br>`b -> Vm.2S`   | `ZIP1 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_u32" target="_blank">vzip1q_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b)</code>    | `a -> Vn.4S`<br>`b -> Vm.4S`   | `ZIP1 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_u64" target="_blank">vzip1q_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t b)</code>    | `a -> Vn.2D`<br>`b -> Vm.2D`   | `ZIP1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_p64" target="_blank">vzip1q_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t b)</code>    | `a -> Vn.2D`<br>`b -> Vm.2D`   | `ZIP1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1_f32" target="_blank">vzip1_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b)</code>   | `a -> Vn.2S`<br>`b -> Vm.2S`   | `ZIP1 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_f32" target="_blank">vzip1q_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b)</code> | `a -> Vn.4S`<br>`b -> Vm.4S`   | `ZIP1 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_f64" target="_blank">vzip1q_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t b)</code> | `a -> Vn.2D`<br>`b -> Vm.2D`   | `ZIP1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1_p8" target="_blank">vzip1_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b)</code>           | `a -> Vn.8B`<br>`b -> Vm.8B`   | `ZIP1 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_p8" target="_blank">vzip1q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b)</code>      | `a -> Vn.16B`<br>`b -> Vm.16B` | `ZIP1 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1_p16" target="_blank">vzip1_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b)</code>      | `a -> Vn.4H`<br>`b -> Vm.4H`   | `ZIP1 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_p16" target="_blank">vzip1q_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b)</code>    | `a -> Vn.8H`<br>`b -> Vm.8H`   | `ZIP1 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2_s8" target="_blank">vzip2_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `ZIP2 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_s8" target="_blank">vzip2q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `ZIP2 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2_s16" target="_blank">vzip2_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `ZIP2 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_s16" target="_blank">vzip2q_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `ZIP2 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2_s32" target="_blank">vzip2_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b)</code>         | `a -> Vn.2S`<br>`b -> Vm.2S`   | `ZIP2 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_s32" target="_blank">vzip2q_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b)</code>       | `a -> Vn.4S`<br>`b -> Vm.4S`   | `ZIP2 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_s64" target="_blank">vzip2q_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t b)</code>       | `a -> Vn.2D`<br>`b -> Vm.2D`   | `ZIP2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2_u8" target="_blank">vzip2_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b)</code>           | `a -> Vn.8B`<br>`b -> Vm.8B`   | `ZIP2 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_u8" target="_blank">vzip2q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b)</code>      | `a -> Vn.16B`<br>`b -> Vm.16B` | `ZIP2 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2_u16" target="_blank">vzip2_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b)</code>      | `a -> Vn.4H`<br>`b -> Vm.4H`   | `ZIP2 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_u16" target="_blank">vzip2q_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b)</code>    | `a -> Vn.8H`<br>`b -> Vm.8H`   | `ZIP2 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2_u32" target="_blank">vzip2_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b)</code>      | `a -> Vn.2S`<br>`b -> Vm.2S`   | `ZIP2 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_u32" target="_blank">vzip2q_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b)</code>    | `a -> Vn.4S`<br>`b -> Vm.4S`   | `ZIP2 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_u64" target="_blank">vzip2q_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t b)</code>    | `a -> Vn.2D`<br>`b -> Vm.2D`   | `ZIP2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_p64" target="_blank">vzip2q_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t b)</code>    | `a -> Vn.2D`<br>`b -> Vm.2D`   | `ZIP2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2_f32" target="_blank">vzip2_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b)</code>   | `a -> Vn.2S`<br>`b -> Vm.2S`   | `ZIP2 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_f32" target="_blank">vzip2q_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b)</code> | `a -> Vn.4S`<br>`b -> Vm.4S`   | `ZIP2 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_f64" target="_blank">vzip2q_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t b)</code> | `a -> Vn.2D`<br>`b -> Vm.2D`   | `ZIP2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2_p8" target="_blank">vzip2_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b)</code>           | `a -> Vn.8B`<br>`b -> Vm.8B`   | `ZIP2 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_p8" target="_blank">vzip2q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b)</code>      | `a -> Vn.16B`<br>`b -> Vm.16B` | `ZIP2 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2_p16" target="_blank">vzip2_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b)</code>      | `a -> Vn.4H`<br>`b -> Vm.4H`   | `ZIP2 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_p16" target="_blank">vzip2q_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b)</code>    | `a -> Vn.8H`<br>`b -> Vm.8H`   | `ZIP2 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
-| <code>int8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip_s8" target="_blank">vzip_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `ZIP1 Vd1.8B,Vn.8B,Vm.8B`<br>`ZIP2 Vd2.8B,Vn.8B,Vm.8B`       | `Vd1.8B -> result.val[0]`<br>`Vd2.8B -> result.val[1]`   | `v7/A32/A64`              |
-| <code>int16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip_s16" target="_blank">vzip_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `ZIP1 Vd1.4H,Vn.4H,Vm.4H`<br>`ZIP2 Vd2.4H,Vn.4H,Vm.4H`       | `Vd1.4H -> result.val[0]`<br>`Vd2.4H -> result.val[1]`   | `v7/A32/A64`              |
-| <code>uint8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip_u8" target="_blank">vzip_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b)</code>           | `a -> Vn.8B`<br>`b -> Vm.8B`   | `ZIP1 Vd1.8B,Vn.8B,Vm.8B`<br>`ZIP2 Vd2.8B,Vn.8B,Vm.8B`       | `Vd1.8B -> result.val[0]`<br>`Vd2.8B -> result.val[1]`   | `v7/A32/A64`              |
-| <code>uint16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip_u16" target="_blank">vzip_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b)</code>      | `a -> Vn.4H`<br>`b -> Vm.4H`   | `ZIP1 Vd1.4H,Vn.4H,Vm.4H`<br>`ZIP2 Vd2.4H,Vn.4H,Vm.4H`       | `Vd1.4H -> result.val[0]`<br>`Vd2.4H -> result.val[1]`   | `v7/A32/A64`              |
-| <code>poly8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip_p8" target="_blank">vzip_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b)</code>           | `a -> Vn.8B`<br>`b -> Vm.8B`   | `ZIP1 Vd1.8B,Vn.8B,Vm.8B`<br>`ZIP2 Vd2.8B,Vn.8B,Vm.8B`       | `Vd1.8B -> result.val[0]`<br>`Vd2.8B -> result.val[1]`   | `v7/A32/A64`              |
-| <code>poly16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip_p16" target="_blank">vzip_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b)</code>      | `a -> Vn.4H`<br>`b -> Vm.4H`   | `ZIP1 Vd1.4H,Vn.4H,Vm.4H`<br>`ZIP2 Vd2.4H,Vn.4H,Vm.4H`       | `Vd1.4H -> result.val[0]`<br>`Vd2.4H -> result.val[1]`   | `v7/A32/A64`              |
-| <code>int32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip_s32" target="_blank">vzip_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b)</code>         | `a -> Vn.2S`<br>`b -> Vm.2S`   | `ZIP1 Vd1.2S,Vn.2S,Vm.2S`<br>`ZIP2 Vd2.2S,Vn.2S,Vm.2S`       | `Vd1.2S -> result.val[0]`<br>`Vd2.2S -> result.val[1]`   | `v7/A32/A64`              |
-| <code>float32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip_f32" target="_blank">vzip_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b)</code>   | `a -> Vn.2S`<br>`b -> Vm.2S`   | `ZIP1 Vd1.2S,Vn.2S,Vm.2S`<br>`ZIP2 Vd2.2S,Vn.2S,Vm.2S`       | `Vd1.2S -> result.val[0]`<br>`Vd2.2S -> result.val[1]`   | `v7/A32/A64`              |
-| <code>uint32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip_u32" target="_blank">vzip_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b)</code>      | `a -> Vn.2S`<br>`b -> Vm.2S`   | `ZIP1 Vd1.2S,Vn.2S,Vm.2S`<br>`ZIP2 Vd2.2S,Vn.2S,Vm.2S`       | `Vd1.2S -> result.val[0]`<br>`Vd2.2S -> result.val[1]`   | `v7/A32/A64`              |
-| <code>int8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzipq_s8" target="_blank">vzipq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `ZIP1 Vd1.16B,Vn.16B,Vm.16B`<br>`ZIP2 Vd2.16B,Vn.16B,Vm.16B` | `Vd1.16B -> result.val[0]`<br>`Vd2.16B -> result.val[1]` | `v7/A32/A64`              |
-| <code>int16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzipq_s16" target="_blank">vzipq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `ZIP1 Vd1.8H,Vn.8H,Vm.8H`<br>`ZIP2 Vd2.8H,Vn.8H,Vm.8H`       | `Vd1.8H -> result.val[0]`<br>`Vd2.8H -> result.val[1]`   | `v7/A32/A64`              |
-| <code>int32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzipq_s32" target="_blank">vzipq_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b)</code>       | `a -> Vn.4S`<br>`b -> Vm.4S`   | `ZIP1 Vd1.4S,Vn.4S,Vm.4S`<br>`ZIP2 Vd2.4S,Vn.4S,Vm.4S`       | `Vd1.4S -> result.val[0]`<br>`Vd2.4S -> result.val[1]`   | `v7/A32/A64`              |
-| <code>float32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzipq_f32" target="_blank">vzipq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b)</code> | `a -> Vn.4S`<br>`b -> Vm.4S`   | `ZIP1 Vd1.4S,Vn.4S,Vm.4S`<br>`ZIP2 Vd2.4S,Vn.4S,Vm.4S`       | `Vd1.4S -> result.val[0]`<br>`Vd2.4S -> result.val[1]`   | `v7/A32/A64`              |
-| <code>uint8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzipq_u8" target="_blank">vzipq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b)</code>      | `a -> Vn.16B`<br>`b -> Vm.16B` | `ZIP1 Vd1.16B,Vn.16B,Vm.16B`<br>`ZIP2 Vd2.16B,Vn.16B,Vm.16B` | `Vd1.16B -> result.val[0]`<br>`Vd2.16B -> result.val[1]` | `v7/A32/A64`              |
-| <code>uint16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzipq_u16" target="_blank">vzipq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b)</code>    | `a -> Vn.8H`<br>`b -> Vm.8H`   | `ZIP1 Vd1.8H,Vn.8H,Vm.8H`<br>`ZIP2 Vd2.8H,Vn.8H,Vm.8H`       | `Vd1.8H -> result.val[0]`<br>`Vd2.8H -> result.val[1]`   | `v7/A32/A64`              |
-| <code>uint32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzipq_u32" target="_blank">vzipq_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b)</code>    | `a -> Vn.4S`<br>`b -> Vm.4S`   | `ZIP1 Vd1.4S,Vn.4S,Vm.4S`<br>`ZIP2 Vd2.4S,Vn.4S,Vm.4S`       | `Vd1.4S -> result.val[0]`<br>`Vd2.4S -> result.val[1]`   | `v7/A32/A64`              |
-| <code>poly8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzipq_p8" target="_blank">vzipq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b)</code>      | `a -> Vn.16B`<br>`b -> Vm.16B` | `ZIP1 Vd1.16B,Vn.16B,Vm.16B`<br>`ZIP2 Vd2.16B,Vn.16B,Vm.16B` | `Vd1.16B -> result.val[0]`<br>`Vd2.16B -> result.val[1]` | `v7/A32/A64`              |
-| <code>poly16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzipq_p16" target="_blank">vzipq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b)</code>    | `a -> Vn.8H`<br>`b -> Vm.8H`   | `ZIP1 Vd1.8H,Vn.8H,Vm.8H`<br>`ZIP2 Vd2.8H,Vn.8H,Vm.8H`       | `Vd1.8H -> result.val[0]`<br>`Vd2.8H -> result.val[1]`   | `v7/A32/A64`              |
+| Intrinsic                                                                                                                                                                                                                                  | Argument preparation           | AArch64 Instruction                                          | Result                                                   | Supported architectures   |
+|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------|--------------------------------------------------------------|----------------------------------------------------------|---------------------------|
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1_s8" target="_blank">vzip1_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b)</code>                 | `a -> Vn.8B`<br>`b -> Vm.8B`   | `ZIP1 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_s8" target="_blank">vzip1q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b)</code>            | `a -> Vn.16B`<br>`b -> Vm.16B` | `ZIP1 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1_s16" target="_blank">vzip1_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b)</code>            | `a -> Vn.4H`<br>`b -> Vm.4H`   | `ZIP1 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_s16" target="_blank">vzip1q_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b)</code>          | `a -> Vn.8H`<br>`b -> Vm.8H`   | `ZIP1 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1_s32" target="_blank">vzip1_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b)</code>            | `a -> Vn.2S`<br>`b -> Vm.2S`   | `ZIP1 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_s32" target="_blank">vzip1q_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b)</code>          | `a -> Vn.4S`<br>`b -> Vm.4S`   | `ZIP1 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_s64" target="_blank">vzip1q_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t b)</code>          | `a -> Vn.2D`<br>`b -> Vm.2D`   | `ZIP1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1_u8" target="_blank">vzip1_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `ZIP1 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_u8" target="_blank">vzip1q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `ZIP1 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1_u16" target="_blank">vzip1_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `ZIP1 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_u16" target="_blank">vzip1q_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `ZIP1 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1_u32" target="_blank">vzip1_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b)</code>         | `a -> Vn.2S`<br>`b -> Vm.2S`   | `ZIP1 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_u32" target="_blank">vzip1q_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b)</code>       | `a -> Vn.4S`<br>`b -> Vm.4S`   | `ZIP1 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_u64" target="_blank">vzip1q_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t b)</code>       | `a -> Vn.2D`<br>`b -> Vm.2D`   | `ZIP1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_p64" target="_blank">vzip1q_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t b)</code>       | `a -> Vn.2D`<br>`b -> Vm.2D`   | `ZIP1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1_f32" target="_blank">vzip1_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b)</code>      | `a -> Vn.2S`<br>`b -> Vm.2S`   | `ZIP1 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_f32" target="_blank">vzip1q_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b)</code>    | `a -> Vn.4S`<br>`b -> Vm.4S`   | `ZIP1 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_f64" target="_blank">vzip1q_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t b)</code>    | `a -> Vn.2D`<br>`b -> Vm.2D`   | `ZIP1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1_p8" target="_blank">vzip1_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `ZIP1 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_p8" target="_blank">vzip1q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `ZIP1 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1_p16" target="_blank">vzip1_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `ZIP1 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_p16" target="_blank">vzip1q_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `ZIP1 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1_mf8" target="_blank">vzip1_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t b)</code>      | `a -> Vn.8B`<br>`b -> Vm.8B`   | `ZIP1 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip1q_mf8" target="_blank">vzip1q_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t b)</code> | `a -> Vn.16B`<br>`b -> Vm.16B` | `ZIP1 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2_s8" target="_blank">vzip2_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b)</code>                 | `a -> Vn.8B`<br>`b -> Vm.8B`   | `ZIP2 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_s8" target="_blank">vzip2q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b)</code>            | `a -> Vn.16B`<br>`b -> Vm.16B` | `ZIP2 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2_s16" target="_blank">vzip2_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b)</code>            | `a -> Vn.4H`<br>`b -> Vm.4H`   | `ZIP2 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_s16" target="_blank">vzip2q_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b)</code>          | `a -> Vn.8H`<br>`b -> Vm.8H`   | `ZIP2 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2_s32" target="_blank">vzip2_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b)</code>            | `a -> Vn.2S`<br>`b -> Vm.2S`   | `ZIP2 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_s32" target="_blank">vzip2q_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b)</code>          | `a -> Vn.4S`<br>`b -> Vm.4S`   | `ZIP2 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_s64" target="_blank">vzip2q_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t b)</code>          | `a -> Vn.2D`<br>`b -> Vm.2D`   | `ZIP2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2_u8" target="_blank">vzip2_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `ZIP2 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_u8" target="_blank">vzip2q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `ZIP2 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2_u16" target="_blank">vzip2_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `ZIP2 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_u16" target="_blank">vzip2q_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `ZIP2 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2_u32" target="_blank">vzip2_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b)</code>         | `a -> Vn.2S`<br>`b -> Vm.2S`   | `ZIP2 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_u32" target="_blank">vzip2q_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b)</code>       | `a -> Vn.4S`<br>`b -> Vm.4S`   | `ZIP2 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_u64" target="_blank">vzip2q_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t b)</code>       | `a -> Vn.2D`<br>`b -> Vm.2D`   | `ZIP2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_p64" target="_blank">vzip2q_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t b)</code>       | `a -> Vn.2D`<br>`b -> Vm.2D`   | `ZIP2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2_f32" target="_blank">vzip2_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b)</code>      | `a -> Vn.2S`<br>`b -> Vm.2S`   | `ZIP2 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_f32" target="_blank">vzip2q_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b)</code>    | `a -> Vn.4S`<br>`b -> Vm.4S`   | `ZIP2 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_f64" target="_blank">vzip2q_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t b)</code>    | `a -> Vn.2D`<br>`b -> Vm.2D`   | `ZIP2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2_p8" target="_blank">vzip2_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `ZIP2 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_p8" target="_blank">vzip2q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `ZIP2 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2_p16" target="_blank">vzip2_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `ZIP2 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_p16" target="_blank">vzip2q_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `ZIP2 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2_mf8" target="_blank">vzip2_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t b)</code>      | `a -> Vn.8B`<br>`b -> Vm.8B`   | `ZIP2 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip2q_mf8" target="_blank">vzip2q_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t b)</code> | `a -> Vn.16B`<br>`b -> Vm.16B` | `ZIP2 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>int8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip_s8" target="_blank">vzip_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b)</code>                 | `a -> Vn.8B`<br>`b -> Vm.8B`   | `ZIP1 Vd1.8B,Vn.8B,Vm.8B`<br>`ZIP2 Vd2.8B,Vn.8B,Vm.8B`       | `Vd1.8B -> result.val[0]`<br>`Vd2.8B -> result.val[1]`   | `v7/A32/A64`              |
+| <code>int16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip_s16" target="_blank">vzip_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b)</code>            | `a -> Vn.4H`<br>`b -> Vm.4H`   | `ZIP1 Vd1.4H,Vn.4H,Vm.4H`<br>`ZIP2 Vd2.4H,Vn.4H,Vm.4H`       | `Vd1.4H -> result.val[0]`<br>`Vd2.4H -> result.val[1]`   | `v7/A32/A64`              |
+| <code>uint8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip_u8" target="_blank">vzip_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `ZIP1 Vd1.8B,Vn.8B,Vm.8B`<br>`ZIP2 Vd2.8B,Vn.8B,Vm.8B`       | `Vd1.8B -> result.val[0]`<br>`Vd2.8B -> result.val[1]`   | `v7/A32/A64`              |
+| <code>uint16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip_u16" target="_blank">vzip_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `ZIP1 Vd1.4H,Vn.4H,Vm.4H`<br>`ZIP2 Vd2.4H,Vn.4H,Vm.4H`       | `Vd1.4H -> result.val[0]`<br>`Vd2.4H -> result.val[1]`   | `v7/A32/A64`              |
+| <code>poly8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip_p8" target="_blank">vzip_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `ZIP1 Vd1.8B,Vn.8B,Vm.8B`<br>`ZIP2 Vd2.8B,Vn.8B,Vm.8B`       | `Vd1.8B -> result.val[0]`<br>`Vd2.8B -> result.val[1]`   | `v7/A32/A64`              |
+| <code>poly16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip_p16" target="_blank">vzip_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `ZIP1 Vd1.4H,Vn.4H,Vm.4H`<br>`ZIP2 Vd2.4H,Vn.4H,Vm.4H`       | `Vd1.4H -> result.val[0]`<br>`Vd2.4H -> result.val[1]`   | `v7/A32/A64`              |
+| <code>mfloat8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip_mf8" target="_blank">vzip_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t b)</code>      | `a -> Vn.8B`<br>`b -> Vm.8B`   | `ZIP1 Vd1.8B,Vn.8B,Vm.8B`<br>`ZIP2 Vd2.8B,Vn.8B,Vm.8B`       | `Vd1.8B -> result.val[0]`<br>`Vd2.8B -> result.val[1]`   | `A64`                     |
+| <code>int32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip_s32" target="_blank">vzip_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b)</code>            | `a -> Vn.2S`<br>`b -> Vm.2S`   | `ZIP1 Vd1.2S,Vn.2S,Vm.2S`<br>`ZIP2 Vd2.2S,Vn.2S,Vm.2S`       | `Vd1.2S -> result.val[0]`<br>`Vd2.2S -> result.val[1]`   | `v7/A32/A64`              |
+| <code>float32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip_f32" target="_blank">vzip_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b)</code>      | `a -> Vn.2S`<br>`b -> Vm.2S`   | `ZIP1 Vd1.2S,Vn.2S,Vm.2S`<br>`ZIP2 Vd2.2S,Vn.2S,Vm.2S`       | `Vd1.2S -> result.val[0]`<br>`Vd2.2S -> result.val[1]`   | `v7/A32/A64`              |
+| <code>uint32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzip_u32" target="_blank">vzip_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b)</code>         | `a -> Vn.2S`<br>`b -> Vm.2S`   | `ZIP1 Vd1.2S,Vn.2S,Vm.2S`<br>`ZIP2 Vd2.2S,Vn.2S,Vm.2S`       | `Vd1.2S -> result.val[0]`<br>`Vd2.2S -> result.val[1]`   | `v7/A32/A64`              |
+| <code>int8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzipq_s8" target="_blank">vzipq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b)</code>            | `a -> Vn.16B`<br>`b -> Vm.16B` | `ZIP1 Vd1.16B,Vn.16B,Vm.16B`<br>`ZIP2 Vd2.16B,Vn.16B,Vm.16B` | `Vd1.16B -> result.val[0]`<br>`Vd2.16B -> result.val[1]` | `v7/A32/A64`              |
+| <code>int16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzipq_s16" target="_blank">vzipq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b)</code>          | `a -> Vn.8H`<br>`b -> Vm.8H`   | `ZIP1 Vd1.8H,Vn.8H,Vm.8H`<br>`ZIP2 Vd2.8H,Vn.8H,Vm.8H`       | `Vd1.8H -> result.val[0]`<br>`Vd2.8H -> result.val[1]`   | `v7/A32/A64`              |
+| <code>int32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzipq_s32" target="_blank">vzipq_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b)</code>          | `a -> Vn.4S`<br>`b -> Vm.4S`   | `ZIP1 Vd1.4S,Vn.4S,Vm.4S`<br>`ZIP2 Vd2.4S,Vn.4S,Vm.4S`       | `Vd1.4S -> result.val[0]`<br>`Vd2.4S -> result.val[1]`   | `v7/A32/A64`              |
+| <code>float32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzipq_f32" target="_blank">vzipq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b)</code>    | `a -> Vn.4S`<br>`b -> Vm.4S`   | `ZIP1 Vd1.4S,Vn.4S,Vm.4S`<br>`ZIP2 Vd2.4S,Vn.4S,Vm.4S`       | `Vd1.4S -> result.val[0]`<br>`Vd2.4S -> result.val[1]`   | `v7/A32/A64`              |
+| <code>uint8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzipq_u8" target="_blank">vzipq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `ZIP1 Vd1.16B,Vn.16B,Vm.16B`<br>`ZIP2 Vd2.16B,Vn.16B,Vm.16B` | `Vd1.16B -> result.val[0]`<br>`Vd2.16B -> result.val[1]` | `v7/A32/A64`              |
+| <code>uint16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzipq_u16" target="_blank">vzipq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `ZIP1 Vd1.8H,Vn.8H,Vm.8H`<br>`ZIP2 Vd2.8H,Vn.8H,Vm.8H`       | `Vd1.8H -> result.val[0]`<br>`Vd2.8H -> result.val[1]`   | `v7/A32/A64`              |
+| <code>uint32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzipq_u32" target="_blank">vzipq_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b)</code>       | `a -> Vn.4S`<br>`b -> Vm.4S`   | `ZIP1 Vd1.4S,Vn.4S,Vm.4S`<br>`ZIP2 Vd2.4S,Vn.4S,Vm.4S`       | `Vd1.4S -> result.val[0]`<br>`Vd2.4S -> result.val[1]`   | `v7/A32/A64`              |
+| <code>poly8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzipq_p8" target="_blank">vzipq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `ZIP1 Vd1.16B,Vn.16B,Vm.16B`<br>`ZIP2 Vd2.16B,Vn.16B,Vm.16B` | `Vd1.16B -> result.val[0]`<br>`Vd2.16B -> result.val[1]` | `v7/A32/A64`              |
+| <code>poly16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzipq_p16" target="_blank">vzipq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `ZIP1 Vd1.8H,Vn.8H,Vm.8H`<br>`ZIP2 Vd2.8H,Vn.8H,Vm.8H`       | `Vd1.8H -> result.val[0]`<br>`Vd2.8H -> result.val[1]`   | `v7/A32/A64`              |
+| <code>mfloat8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vzipq_mf8" target="_blank">vzipq_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t b)</code> | `a -> Vn.16B`<br>`b -> Vm.16B` | `ZIP1 Vd1.16B,Vn.16B,Vm.16B`<br>`ZIP2 Vd2.16B,Vn.16B,Vm.16B` | `Vd1.16B -> result.val[0]`<br>`Vd2.16B -> result.val[1]` | `A64`                     |
 
 #### Unzip elements
 
-| Intrinsic                                                                                                                                                                                                                               | Argument preparation           | AArch64 Instruction                                          | Result                                                   | Supported architectures   |
-|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------|--------------------------------------------------------------|----------------------------------------------------------|---------------------------|
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1_s8" target="_blank">vuzp1_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `UZP1 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_s8" target="_blank">vuzp1q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `UZP1 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1_s16" target="_blank">vuzp1_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `UZP1 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_s16" target="_blank">vuzp1q_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `UZP1 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1_s32" target="_blank">vuzp1_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b)</code>         | `a -> Vn.2S`<br>`b -> Vm.2S`   | `UZP1 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_s32" target="_blank">vuzp1q_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b)</code>       | `a -> Vn.4S`<br>`b -> Vm.4S`   | `UZP1 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_s64" target="_blank">vuzp1q_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t b)</code>       | `a -> Vn.2D`<br>`b -> Vm.2D`   | `UZP1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1_u8" target="_blank">vuzp1_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b)</code>           | `a -> Vn.8B`<br>`b -> Vm.8B`   | `UZP1 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_u8" target="_blank">vuzp1q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b)</code>      | `a -> Vn.16B`<br>`b -> Vm.16B` | `UZP1 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1_u16" target="_blank">vuzp1_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b)</code>      | `a -> Vn.4H`<br>`b -> Vm.4H`   | `UZP1 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_u16" target="_blank">vuzp1q_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b)</code>    | `a -> Vn.8H`<br>`b -> Vm.8H`   | `UZP1 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1_u32" target="_blank">vuzp1_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b)</code>      | `a -> Vn.2S`<br>`b -> Vm.2S`   | `UZP1 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_u32" target="_blank">vuzp1q_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b)</code>    | `a -> Vn.4S`<br>`b -> Vm.4S`   | `UZP1 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_u64" target="_blank">vuzp1q_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t b)</code>    | `a -> Vn.2D`<br>`b -> Vm.2D`   | `UZP1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_p64" target="_blank">vuzp1q_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t b)</code>    | `a -> Vn.2D`<br>`b -> Vm.2D`   | `UZP1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1_f32" target="_blank">vuzp1_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b)</code>   | `a -> Vn.2S`<br>`b -> Vm.2S`   | `UZP1 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_f32" target="_blank">vuzp1q_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b)</code> | `a -> Vn.4S`<br>`b -> Vm.4S`   | `UZP1 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_f64" target="_blank">vuzp1q_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t b)</code> | `a -> Vn.2D`<br>`b -> Vm.2D`   | `UZP1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1_p8" target="_blank">vuzp1_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b)</code>           | `a -> Vn.8B`<br>`b -> Vm.8B`   | `UZP1 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_p8" target="_blank">vuzp1q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b)</code>      | `a -> Vn.16B`<br>`b -> Vm.16B` | `UZP1 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1_p16" target="_blank">vuzp1_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b)</code>      | `a -> Vn.4H`<br>`b -> Vm.4H`   | `UZP1 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_p16" target="_blank">vuzp1q_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b)</code>    | `a -> Vn.8H`<br>`b -> Vm.8H`   | `UZP1 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2_s8" target="_blank">vuzp2_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `UZP2 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_s8" target="_blank">vuzp2q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `UZP2 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2_s16" target="_blank">vuzp2_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `UZP2 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_s16" target="_blank">vuzp2q_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `UZP2 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2_s32" target="_blank">vuzp2_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b)</code>         | `a -> Vn.2S`<br>`b -> Vm.2S`   | `UZP2 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_s32" target="_blank">vuzp2q_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b)</code>       | `a -> Vn.4S`<br>`b -> Vm.4S`   | `UZP2 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_s64" target="_blank">vuzp2q_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t b)</code>       | `a -> Vn.2D`<br>`b -> Vm.2D`   | `UZP2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2_u8" target="_blank">vuzp2_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b)</code>           | `a -> Vn.8B`<br>`b -> Vm.8B`   | `UZP2 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_u8" target="_blank">vuzp2q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b)</code>      | `a -> Vn.16B`<br>`b -> Vm.16B` | `UZP2 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2_u16" target="_blank">vuzp2_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b)</code>      | `a -> Vn.4H`<br>`b -> Vm.4H`   | `UZP2 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_u16" target="_blank">vuzp2q_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b)</code>    | `a -> Vn.8H`<br>`b -> Vm.8H`   | `UZP2 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2_u32" target="_blank">vuzp2_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b)</code>      | `a -> Vn.2S`<br>`b -> Vm.2S`   | `UZP2 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_u32" target="_blank">vuzp2q_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b)</code>    | `a -> Vn.4S`<br>`b -> Vm.4S`   | `UZP2 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_u64" target="_blank">vuzp2q_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t b)</code>    | `a -> Vn.2D`<br>`b -> Vm.2D`   | `UZP2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_p64" target="_blank">vuzp2q_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t b)</code>    | `a -> Vn.2D`<br>`b -> Vm.2D`   | `UZP2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2_f32" target="_blank">vuzp2_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b)</code>   | `a -> Vn.2S`<br>`b -> Vm.2S`   | `UZP2 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_f32" target="_blank">vuzp2q_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b)</code> | `a -> Vn.4S`<br>`b -> Vm.4S`   | `UZP2 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_f64" target="_blank">vuzp2q_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t b)</code> | `a -> Vn.2D`<br>`b -> Vm.2D`   | `UZP2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2_p8" target="_blank">vuzp2_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b)</code>           | `a -> Vn.8B`<br>`b -> Vm.8B`   | `UZP2 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_p8" target="_blank">vuzp2q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b)</code>      | `a -> Vn.16B`<br>`b -> Vm.16B` | `UZP2 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2_p16" target="_blank">vuzp2_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b)</code>      | `a -> Vn.4H`<br>`b -> Vm.4H`   | `UZP2 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_p16" target="_blank">vuzp2q_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b)</code>    | `a -> Vn.8H`<br>`b -> Vm.8H`   | `UZP2 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
-| <code>int8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp_s8" target="_blank">vuzp_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `UZP1 Vd1.8B,Vn.8B,Vm.8B`<br>`UZP2 Vd2.8B,Vn.8B,Vm.8B`       | `Vd1.8B -> result.val[0]`<br>`Vd2.8B -> result.val[1]`   | `v7/A32/A64`              |
-| <code>int16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp_s16" target="_blank">vuzp_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `UZP1 Vd1.4H,Vn.4H,Vm.4H`<br>`UZP2 Vd2.4H,Vn.4H,Vm.4H`       | `Vd1.4H -> result.val[0]`<br>`Vd2.4H -> result.val[1]`   | `v7/A32/A64`              |
-| <code>int32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp_s32" target="_blank">vuzp_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b)</code>         | `a -> Vn.2S`<br>`b -> Vm.2S`   | `UZP1 Vd1.2S,Vn.2S,Vm.2S`<br>`UZP2 Vd2.2S,Vn.2S,Vm.2S`       | `Vd1.2S -> result.val[0]`<br>`Vd2.2S -> result.val[1]`   | `v7/A32/A64`              |
-| <code>float32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp_f32" target="_blank">vuzp_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b)</code>   | `a -> Vn.2S`<br>`b -> Vm.2S`   | `UZP1 Vd1.2S,Vn.2S,Vm.2S`<br>`UZP2 Vd2.2S,Vn.2S,Vm.2S`       | `Vd1.2S -> result.val[0]`<br>`Vd2.2S -> result.val[1]`   | `v7/A32/A64`              |
-| <code>uint8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp_u8" target="_blank">vuzp_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b)</code>           | `a -> Vn.8B`<br>`b -> Vm.8B`   | `UZP1 Vd1.8B,Vn.8B,Vm.8B`<br>`UZP2 Vd2.8B,Vn.8B,Vm.8B`       | `Vd1.8B -> result.val[0]`<br>`Vd2.8B -> result.val[1]`   | `v7/A32/A64`              |
-| <code>uint16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp_u16" target="_blank">vuzp_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b)</code>      | `a -> Vn.4H`<br>`b -> Vm.4H`   | `UZP1 Vd1.4H,Vn.4H,Vm.4H`<br>`UZP2 Vd2.4H,Vn.4H,Vm.4H`       | `Vd1.4H -> result.val[0]`<br>`Vd2.4H -> result.val[1]`   | `v7/A32/A64`              |
-| <code>uint32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp_u32" target="_blank">vuzp_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b)</code>      | `a -> Vn.2S`<br>`b -> Vm.2S`   | `UZP1 Vd1.2S,Vn.2S,Vm.2S`<br>`UZP2 Vd2.2S,Vn.2S,Vm.2S`       | `Vd1.2S -> result.val[0]`<br>`Vd2.2S -> result.val[1]`   | `v7/A32/A64`              |
-| <code>poly8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp_p8" target="_blank">vuzp_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b)</code>           | `a -> Vn.8B`<br>`b -> Vm.8B`   | `UZP1 Vd1.8B,Vn.8B,Vm.8B`<br>`UZP2 Vd2.8B,Vn.8B,Vm.8B`       | `Vd1.8B -> result.val[0]`<br>`Vd2.8B -> result.val[1]`   | `v7/A32/A64`              |
-| <code>poly16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp_p16" target="_blank">vuzp_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b)</code>      | `a -> Vn.4H`<br>`b -> Vm.4H`   | `UZP1 Vd1.4H,Vn.4H,Vm.4H`<br>`UZP2 Vd2.4H,Vn.4H,Vm.4H`       | `Vd1.4H -> result.val[0]`<br>`Vd2.4H -> result.val[1]`   | `v7/A32/A64`              |
-| <code>int8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzpq_s8" target="_blank">vuzpq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `UZP1 Vd1.16B,Vn.16B,Vm.16B`<br>`UZP2 Vd2.16B,Vn.16B,Vm.16B` | `Vd1.16B -> result.val[0]`<br>`Vd2.16B -> result.val[1]` | `v7/A32/A64`              |
-| <code>int16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzpq_s16" target="_blank">vuzpq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `UZP1 Vd1.8H,Vn.8H,Vm.8H`<br>`UZP2 Vd2.8H,Vn.8H,Vm.8H`       | `Vd1.8H -> result.val[0]`<br>`Vd2.8H -> result.val[1]`   | `v7/A32/A64`              |
-| <code>int32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzpq_s32" target="_blank">vuzpq_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b)</code>       | `a -> Vn.4S`<br>`b -> Vm.4S`   | `UZP1 Vd1.4S,Vn.4S,Vm.4S`<br>`UZP2 Vd2.4S,Vn.4S,Vm.4S`       | `Vd1.4S -> result.val[0]`<br>`Vd2.4S -> result.val[1]`   | `v7/A32/A64`              |
-| <code>float32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzpq_f32" target="_blank">vuzpq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b)</code> | `a -> Vn.4S`<br>`b -> Vm.4S`   | `UZP1 Vd1.4S,Vn.4S,Vm.4S`<br>`UZP2 Vd2.4S,Vn.4S,Vm.4S`       | `Vd1.4S -> result.val[0]`<br>`Vd2.4S -> result.val[1]`   | `v7/A32/A64`              |
-| <code>uint8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzpq_u8" target="_blank">vuzpq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b)</code>      | `a -> Vn.16B`<br>`b -> Vm.16B` | `UZP1 Vd1.16B,Vn.16B,Vm.16B`<br>`UZP2 Vd2.16B,Vn.16B,Vm.16B` | `Vd1.16B -> result.val[0]`<br>`Vd2.16B -> result.val[1]` | `v7/A32/A64`              |
-| <code>uint16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzpq_u16" target="_blank">vuzpq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b)</code>    | `a -> Vn.8H`<br>`b -> Vm.8H`   | `UZP1 Vd1.8H,Vn.8H,Vm.8H`<br>`UZP2 Vd2.8H,Vn.8H,Vm.8H`       | `Vd1.8H -> result.val[0]`<br>`Vd2.8H -> result.val[1]`   | `v7/A32/A64`              |
-| <code>uint32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzpq_u32" target="_blank">vuzpq_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b)</code>    | `a -> Vn.4S`<br>`b -> Vm.4S`   | `UZP1 Vd1.4S,Vn.4S,Vm.4S`<br>`UZP2 Vd2.4S,Vn.4S,Vm.4S`       | `Vd1.4S -> result.val[0]`<br>`Vd2.4S -> result.val[1]`   | `v7/A32/A64`              |
-| <code>poly8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzpq_p8" target="_blank">vuzpq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b)</code>      | `a -> Vn.16B`<br>`b -> Vm.16B` | `UZP1 Vd1.16B,Vn.16B,Vm.16B`<br>`UZP2 Vd2.16B,Vn.16B,Vm.16B` | `Vd1.16B -> result.val[0]`<br>`Vd2.16B -> result.val[1]` | `v7/A32/A64`              |
-| <code>poly16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzpq_p16" target="_blank">vuzpq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b)</code>    | `a -> Vn.8H`<br>`b -> Vm.8H`   | `UZP1 Vd1.8H,Vn.8H,Vm.8H`<br>`UZP2 Vd2.8H,Vn.8H,Vm.8H`       | `Vd1.8H -> result.val[0]`<br>`Vd2.8H -> result.val[1]`   | `v7/A32/A64`              |
+| Intrinsic                                                                                                                                                                                                                                  | Argument preparation           | AArch64 Instruction                                          | Result                                                   | Supported architectures   |
+|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------|--------------------------------------------------------------|----------------------------------------------------------|---------------------------|
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1_s8" target="_blank">vuzp1_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b)</code>                 | `a -> Vn.8B`<br>`b -> Vm.8B`   | `UZP1 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_s8" target="_blank">vuzp1q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b)</code>            | `a -> Vn.16B`<br>`b -> Vm.16B` | `UZP1 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1_s16" target="_blank">vuzp1_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b)</code>            | `a -> Vn.4H`<br>`b -> Vm.4H`   | `UZP1 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_s16" target="_blank">vuzp1q_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b)</code>          | `a -> Vn.8H`<br>`b -> Vm.8H`   | `UZP1 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1_s32" target="_blank">vuzp1_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b)</code>            | `a -> Vn.2S`<br>`b -> Vm.2S`   | `UZP1 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_s32" target="_blank">vuzp1q_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b)</code>          | `a -> Vn.4S`<br>`b -> Vm.4S`   | `UZP1 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_s64" target="_blank">vuzp1q_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t b)</code>          | `a -> Vn.2D`<br>`b -> Vm.2D`   | `UZP1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1_u8" target="_blank">vuzp1_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `UZP1 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_u8" target="_blank">vuzp1q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `UZP1 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1_u16" target="_blank">vuzp1_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `UZP1 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_u16" target="_blank">vuzp1q_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `UZP1 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1_u32" target="_blank">vuzp1_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b)</code>         | `a -> Vn.2S`<br>`b -> Vm.2S`   | `UZP1 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_u32" target="_blank">vuzp1q_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b)</code>       | `a -> Vn.4S`<br>`b -> Vm.4S`   | `UZP1 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_u64" target="_blank">vuzp1q_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t b)</code>       | `a -> Vn.2D`<br>`b -> Vm.2D`   | `UZP1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_p64" target="_blank">vuzp1q_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t b)</code>       | `a -> Vn.2D`<br>`b -> Vm.2D`   | `UZP1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1_f32" target="_blank">vuzp1_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b)</code>      | `a -> Vn.2S`<br>`b -> Vm.2S`   | `UZP1 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_f32" target="_blank">vuzp1q_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b)</code>    | `a -> Vn.4S`<br>`b -> Vm.4S`   | `UZP1 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_f64" target="_blank">vuzp1q_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t b)</code>    | `a -> Vn.2D`<br>`b -> Vm.2D`   | `UZP1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1_p8" target="_blank">vuzp1_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `UZP1 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_p8" target="_blank">vuzp1q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `UZP1 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1_p16" target="_blank">vuzp1_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `UZP1 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_p16" target="_blank">vuzp1q_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `UZP1 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1_mf8" target="_blank">vuzp1_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t b)</code>      | `a -> Vn.8B`<br>`b -> Vm.8B`   | `UZP1 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp1q_mf8" target="_blank">vuzp1q_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t b)</code> | `a -> Vn.16B`<br>`b -> Vm.16B` | `UZP1 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2_s8" target="_blank">vuzp2_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b)</code>                 | `a -> Vn.8B`<br>`b -> Vm.8B`   | `UZP2 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_s8" target="_blank">vuzp2q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b)</code>            | `a -> Vn.16B`<br>`b -> Vm.16B` | `UZP2 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2_s16" target="_blank">vuzp2_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b)</code>            | `a -> Vn.4H`<br>`b -> Vm.4H`   | `UZP2 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_s16" target="_blank">vuzp2q_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b)</code>          | `a -> Vn.8H`<br>`b -> Vm.8H`   | `UZP2 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2_s32" target="_blank">vuzp2_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b)</code>            | `a -> Vn.2S`<br>`b -> Vm.2S`   | `UZP2 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_s32" target="_blank">vuzp2q_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b)</code>          | `a -> Vn.4S`<br>`b -> Vm.4S`   | `UZP2 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_s64" target="_blank">vuzp2q_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t b)</code>          | `a -> Vn.2D`<br>`b -> Vm.2D`   | `UZP2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2_u8" target="_blank">vuzp2_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `UZP2 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_u8" target="_blank">vuzp2q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `UZP2 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2_u16" target="_blank">vuzp2_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `UZP2 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_u16" target="_blank">vuzp2q_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `UZP2 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2_u32" target="_blank">vuzp2_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b)</code>         | `a -> Vn.2S`<br>`b -> Vm.2S`   | `UZP2 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_u32" target="_blank">vuzp2q_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b)</code>       | `a -> Vn.4S`<br>`b -> Vm.4S`   | `UZP2 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_u64" target="_blank">vuzp2q_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t b)</code>       | `a -> Vn.2D`<br>`b -> Vm.2D`   | `UZP2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_p64" target="_blank">vuzp2q_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t b)</code>       | `a -> Vn.2D`<br>`b -> Vm.2D`   | `UZP2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2_f32" target="_blank">vuzp2_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b)</code>      | `a -> Vn.2S`<br>`b -> Vm.2S`   | `UZP2 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_f32" target="_blank">vuzp2q_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b)</code>    | `a -> Vn.4S`<br>`b -> Vm.4S`   | `UZP2 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_f64" target="_blank">vuzp2q_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t b)</code>    | `a -> Vn.2D`<br>`b -> Vm.2D`   | `UZP2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2_p8" target="_blank">vuzp2_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `UZP2 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_p8" target="_blank">vuzp2q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `UZP2 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2_p16" target="_blank">vuzp2_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `UZP2 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_p16" target="_blank">vuzp2q_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `UZP2 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2_mf8" target="_blank">vuzp2_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t b)</code>      | `a -> Vn.8B`<br>`b -> Vm.8B`   | `UZP2 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp2q_mf8" target="_blank">vuzp2q_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t b)</code> | `a -> Vn.16B`<br>`b -> Vm.16B` | `UZP2 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>int8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp_s8" target="_blank">vuzp_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b)</code>                 | `a -> Vn.8B`<br>`b -> Vm.8B`   | `UZP1 Vd1.8B,Vn.8B,Vm.8B`<br>`UZP2 Vd2.8B,Vn.8B,Vm.8B`       | `Vd1.8B -> result.val[0]`<br>`Vd2.8B -> result.val[1]`   | `v7/A32/A64`              |
+| <code>int16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp_s16" target="_blank">vuzp_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b)</code>            | `a -> Vn.4H`<br>`b -> Vm.4H`   | `UZP1 Vd1.4H,Vn.4H,Vm.4H`<br>`UZP2 Vd2.4H,Vn.4H,Vm.4H`       | `Vd1.4H -> result.val[0]`<br>`Vd2.4H -> result.val[1]`   | `v7/A32/A64`              |
+| <code>int32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp_s32" target="_blank">vuzp_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b)</code>            | `a -> Vn.2S`<br>`b -> Vm.2S`   | `UZP1 Vd1.2S,Vn.2S,Vm.2S`<br>`UZP2 Vd2.2S,Vn.2S,Vm.2S`       | `Vd1.2S -> result.val[0]`<br>`Vd2.2S -> result.val[1]`   | `v7/A32/A64`              |
+| <code>float32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp_f32" target="_blank">vuzp_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b)</code>      | `a -> Vn.2S`<br>`b -> Vm.2S`   | `UZP1 Vd1.2S,Vn.2S,Vm.2S`<br>`UZP2 Vd2.2S,Vn.2S,Vm.2S`       | `Vd1.2S -> result.val[0]`<br>`Vd2.2S -> result.val[1]`   | `v7/A32/A64`              |
+| <code>uint8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp_u8" target="_blank">vuzp_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `UZP1 Vd1.8B,Vn.8B,Vm.8B`<br>`UZP2 Vd2.8B,Vn.8B,Vm.8B`       | `Vd1.8B -> result.val[0]`<br>`Vd2.8B -> result.val[1]`   | `v7/A32/A64`              |
+| <code>uint16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp_u16" target="_blank">vuzp_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `UZP1 Vd1.4H,Vn.4H,Vm.4H`<br>`UZP2 Vd2.4H,Vn.4H,Vm.4H`       | `Vd1.4H -> result.val[0]`<br>`Vd2.4H -> result.val[1]`   | `v7/A32/A64`              |
+| <code>uint32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp_u32" target="_blank">vuzp_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b)</code>         | `a -> Vn.2S`<br>`b -> Vm.2S`   | `UZP1 Vd1.2S,Vn.2S,Vm.2S`<br>`UZP2 Vd2.2S,Vn.2S,Vm.2S`       | `Vd1.2S -> result.val[0]`<br>`Vd2.2S -> result.val[1]`   | `v7/A32/A64`              |
+| <code>poly8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp_p8" target="_blank">vuzp_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `UZP1 Vd1.8B,Vn.8B,Vm.8B`<br>`UZP2 Vd2.8B,Vn.8B,Vm.8B`       | `Vd1.8B -> result.val[0]`<br>`Vd2.8B -> result.val[1]`   | `v7/A32/A64`              |
+| <code>poly16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp_p16" target="_blank">vuzp_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `UZP1 Vd1.4H,Vn.4H,Vm.4H`<br>`UZP2 Vd2.4H,Vn.4H,Vm.4H`       | `Vd1.4H -> result.val[0]`<br>`Vd2.4H -> result.val[1]`   | `v7/A32/A64`              |
+| <code>mfloat8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzp_mf8" target="_blank">vuzp_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t b)</code>      | `a -> Vn.8B`<br>`b -> Vm.8B`   | `UZP1 Vd1.8B,Vn.8B,Vm.8B`<br>`UZP2 Vd2.8B,Vn.8B,Vm.8B`       | `Vd1.8B -> result.val[0]`<br>`Vd2.8B -> result.val[1]`   | `A64`                     |
+| <code>int8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzpq_s8" target="_blank">vuzpq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b)</code>            | `a -> Vn.16B`<br>`b -> Vm.16B` | `UZP1 Vd1.16B,Vn.16B,Vm.16B`<br>`UZP2 Vd2.16B,Vn.16B,Vm.16B` | `Vd1.16B -> result.val[0]`<br>`Vd2.16B -> result.val[1]` | `v7/A32/A64`              |
+| <code>int16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzpq_s16" target="_blank">vuzpq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b)</code>          | `a -> Vn.8H`<br>`b -> Vm.8H`   | `UZP1 Vd1.8H,Vn.8H,Vm.8H`<br>`UZP2 Vd2.8H,Vn.8H,Vm.8H`       | `Vd1.8H -> result.val[0]`<br>`Vd2.8H -> result.val[1]`   | `v7/A32/A64`              |
+| <code>int32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzpq_s32" target="_blank">vuzpq_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b)</code>          | `a -> Vn.4S`<br>`b -> Vm.4S`   | `UZP1 Vd1.4S,Vn.4S,Vm.4S`<br>`UZP2 Vd2.4S,Vn.4S,Vm.4S`       | `Vd1.4S -> result.val[0]`<br>`Vd2.4S -> result.val[1]`   | `v7/A32/A64`              |
+| <code>float32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzpq_f32" target="_blank">vuzpq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b)</code>    | `a -> Vn.4S`<br>`b -> Vm.4S`   | `UZP1 Vd1.4S,Vn.4S,Vm.4S`<br>`UZP2 Vd2.4S,Vn.4S,Vm.4S`       | `Vd1.4S -> result.val[0]`<br>`Vd2.4S -> result.val[1]`   | `v7/A32/A64`              |
+| <code>uint8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzpq_u8" target="_blank">vuzpq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `UZP1 Vd1.16B,Vn.16B,Vm.16B`<br>`UZP2 Vd2.16B,Vn.16B,Vm.16B` | `Vd1.16B -> result.val[0]`<br>`Vd2.16B -> result.val[1]` | `v7/A32/A64`              |
+| <code>uint32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzpq_u32" target="_blank">vuzpq_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b)</code>       | `a -> Vn.4S`<br>`b -> Vm.4S`   | `UZP1 Vd1.4S,Vn.4S,Vm.4S`<br>`UZP2 Vd2.4S,Vn.4S,Vm.4S`       | `Vd1.4S -> result.val[0]`<br>`Vd2.4S -> result.val[1]`   | `v7/A32/A64`              |
+| <code>poly8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzpq_p8" target="_blank">vuzpq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `UZP1 Vd1.16B,Vn.16B,Vm.16B`<br>`UZP2 Vd2.16B,Vn.16B,Vm.16B` | `Vd1.16B -> result.val[0]`<br>`Vd2.16B -> result.val[1]` | `v7/A32/A64`              |
+| <code>poly16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzpq_p16" target="_blank">vuzpq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `UZP1 Vd1.8H,Vn.8H,Vm.8H`<br>`UZP2 Vd2.8H,Vn.8H,Vm.8H`       | `Vd1.8H -> result.val[0]`<br>`Vd2.8H -> result.val[1]`   | `v7/A32/A64`              |
+| <code>mfloat8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzpq_mf8" target="_blank">vuzpq_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t b)</code> | `a -> Vn.16B`<br>`b -> Vm.16B` | `UZP1 Vd1.16B,Vn.16B,Vm.16B`<br>`UZP2 Vd2.16B,Vn.16B,Vm.16B` | `Vd1.16B -> result.val[0]`<br>`Vd2.16B -> result.val[1]` | `A64`                     |
 
 #### Transpose elements
 
-| Intrinsic                                                                                                                                                                                                                               | Argument preparation           | AArch64 Instruction                                          | Result                                                   | Supported architectures   |
-|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------|--------------------------------------------------------------|----------------------------------------------------------|---------------------------|
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1_s8" target="_blank">vtrn1_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `TRN1 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_s8" target="_blank">vtrn1q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `TRN1 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1_s16" target="_blank">vtrn1_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `TRN1 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_s16" target="_blank">vtrn1q_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `TRN1 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1_s32" target="_blank">vtrn1_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b)</code>         | `a -> Vn.2S`<br>`b -> Vm.2S`   | `TRN1 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_s32" target="_blank">vtrn1q_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b)</code>       | `a -> Vn.4S`<br>`b -> Vm.4S`   | `TRN1 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_s64" target="_blank">vtrn1q_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t b)</code>       | `a -> Vn.2D`<br>`b -> Vm.2D`   | `TRN1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1_u8" target="_blank">vtrn1_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b)</code>           | `a -> Vn.8B`<br>`b -> Vm.8B`   | `TRN1 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_u8" target="_blank">vtrn1q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b)</code>      | `a -> Vn.16B`<br>`b -> Vm.16B` | `TRN1 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1_u16" target="_blank">vtrn1_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b)</code>      | `a -> Vn.4H`<br>`b -> Vm.4H`   | `TRN1 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_u16" target="_blank">vtrn1q_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b)</code>    | `a -> Vn.8H`<br>`b -> Vm.8H`   | `TRN1 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1_u32" target="_blank">vtrn1_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b)</code>      | `a -> Vn.2S`<br>`b -> Vm.2S`   | `TRN1 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_u32" target="_blank">vtrn1q_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b)</code>    | `a -> Vn.4S`<br>`b -> Vm.4S`   | `TRN1 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_u64" target="_blank">vtrn1q_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t b)</code>    | `a -> Vn.2D`<br>`b -> Vm.2D`   | `TRN1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_p64" target="_blank">vtrn1q_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t b)</code>    | `a -> Vn.2D`<br>`b -> Vm.2D`   | `TRN1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1_f32" target="_blank">vtrn1_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b)</code>   | `a -> Vn.2S`<br>`b -> Vm.2S`   | `TRN1 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_f32" target="_blank">vtrn1q_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b)</code> | `a -> Vn.4S`<br>`b -> Vm.4S`   | `TRN1 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_f64" target="_blank">vtrn1q_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t b)</code> | `a -> Vn.2D`<br>`b -> Vm.2D`   | `TRN1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1_p8" target="_blank">vtrn1_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b)</code>           | `a -> Vn.8B`<br>`b -> Vm.8B`   | `TRN1 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_p8" target="_blank">vtrn1q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b)</code>      | `a -> Vn.16B`<br>`b -> Vm.16B` | `TRN1 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1_p16" target="_blank">vtrn1_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b)</code>      | `a -> Vn.4H`<br>`b -> Vm.4H`   | `TRN1 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_p16" target="_blank">vtrn1q_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b)</code>    | `a -> Vn.8H`<br>`b -> Vm.8H`   | `TRN1 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2_s8" target="_blank">vtrn2_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `TRN2 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_s8" target="_blank">vtrn2q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `TRN2 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2_s16" target="_blank">vtrn2_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `TRN2 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_s16" target="_blank">vtrn2q_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `TRN2 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2_s32" target="_blank">vtrn2_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b)</code>         | `a -> Vn.2S`<br>`b -> Vm.2S`   | `TRN2 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_s32" target="_blank">vtrn2q_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b)</code>       | `a -> Vn.4S`<br>`b -> Vm.4S`   | `TRN2 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_s64" target="_blank">vtrn2q_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t b)</code>       | `a -> Vn.2D`<br>`b -> Vm.2D`   | `TRN2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2_u8" target="_blank">vtrn2_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b)</code>           | `a -> Vn.8B`<br>`b -> Vm.8B`   | `TRN2 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_u8" target="_blank">vtrn2q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b)</code>      | `a -> Vn.16B`<br>`b -> Vm.16B` | `TRN2 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2_u16" target="_blank">vtrn2_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b)</code>      | `a -> Vn.4H`<br>`b -> Vm.4H`   | `TRN2 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_u16" target="_blank">vtrn2q_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b)</code>    | `a -> Vn.8H`<br>`b -> Vm.8H`   | `TRN2 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2_u32" target="_blank">vtrn2_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b)</code>      | `a -> Vn.2S`<br>`b -> Vm.2S`   | `TRN2 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_u32" target="_blank">vtrn2q_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b)</code>    | `a -> Vn.4S`<br>`b -> Vm.4S`   | `TRN2 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_u64" target="_blank">vtrn2q_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t b)</code>    | `a -> Vn.2D`<br>`b -> Vm.2D`   | `TRN2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_p64" target="_blank">vtrn2q_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t b)</code>    | `a -> Vn.2D`<br>`b -> Vm.2D`   | `TRN2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2_f32" target="_blank">vtrn2_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b)</code>   | `a -> Vn.2S`<br>`b -> Vm.2S`   | `TRN2 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_f32" target="_blank">vtrn2q_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b)</code> | `a -> Vn.4S`<br>`b -> Vm.4S`   | `TRN2 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_f64" target="_blank">vtrn2q_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t b)</code> | `a -> Vn.2D`<br>`b -> Vm.2D`   | `TRN2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2_p8" target="_blank">vtrn2_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b)</code>           | `a -> Vn.8B`<br>`b -> Vm.8B`   | `TRN2 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_p8" target="_blank">vtrn2q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b)</code>      | `a -> Vn.16B`<br>`b -> Vm.16B` | `TRN2 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2_p16" target="_blank">vtrn2_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b)</code>      | `a -> Vn.4H`<br>`b -> Vm.4H`   | `TRN2 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_p16" target="_blank">vtrn2q_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b)</code>    | `a -> Vn.8H`<br>`b -> Vm.8H`   | `TRN2 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
-| <code>int8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn_s8" target="_blank">vtrn_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `TRN1 Vd1.8B,Vn.8B,Vm.8B`<br>`TRN2 Vd2.8B,Vn.8B,Vm.8B`       | `Vd1.8B -> result.val[0]`<br>`Vd2.8B -> result.val[1]`   | `v7/A32/A64`              |
-| <code>int16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn_s16" target="_blank">vtrn_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `TRN1 Vd1.4H,Vn.4H,Vm.4H`<br>`TRN2 Vd2.4H,Vn.4H,Vm.4H`       | `Vd1.4H -> result.val[0]`<br>`Vd2.4H -> result.val[1]`   | `v7/A32/A64`              |
-| <code>uint8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn_u8" target="_blank">vtrn_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b)</code>           | `a -> Vn.8B`<br>`b -> Vm.8B`   | `TRN1 Vd1.8B,Vn.8B,Vm.8B`<br>`TRN2 Vd2.8B,Vn.8B,Vm.8B`       | `Vd1.8B -> result.val[0]`<br>`Vd2.8B -> result.val[1]`   | `v7/A32/A64`              |
-| <code>uint16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn_u16" target="_blank">vtrn_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b)</code>      | `a -> Vn.4H`<br>`b -> Vm.4H`   | `TRN1 Vd1.4H,Vn.4H,Vm.4H`<br>`TRN2 Vd2.4H,Vn.4H,Vm.4H`       | `Vd1.4H -> result.val[0]`<br>`Vd2.4H -> result.val[1]`   | `v7/A32/A64`              |
-| <code>poly8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn_p8" target="_blank">vtrn_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b)</code>           | `a -> Vn.8B`<br>`b -> Vm.8B`   | `TRN1 Vd1.8B,Vn.8B,Vm.8B`<br>`TRN2 Vd2.8B,Vn.8B,Vm.8B`       | `Vd1.8B -> result.val[0]`<br>`Vd2.8B -> result.val[1]`   | `v7/A32/A64`              |
-| <code>poly16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn_p16" target="_blank">vtrn_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b)</code>      | `a -> Vn.4H`<br>`b -> Vm.4H`   | `TRN1 Vd1.4H,Vn.4H,Vm.4H`<br>`TRN2 Vd2.4H,Vn.4H,Vm.4H`       | `Vd1.4H -> result.val[0]`<br>`Vd2.4H -> result.val[1]`   | `v7/A32/A64`              |
-| <code>int32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn_s32" target="_blank">vtrn_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b)</code>         | `a -> Vn.2S`<br>`b -> Vm.2S`   | `TRN1 Vd1.2S,Vn.2S,Vm.2S`<br>`TRN2 Vd2.2S,Vn.2S,Vm.2S`       | `Vd1.2S -> result.val[0]`<br>`Vd2.2S -> result.val[1]`   | `v7/A32/A64`              |
-| <code>float32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn_f32" target="_blank">vtrn_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b)</code>   | `a -> Vn.2S`<br>`b -> Vm.2S`   | `TRN1 Vd1.2S,Vn.2S,Vm.2S`<br>`TRN2 Vd2.2S,Vn.2S,Vm.2S`       | `Vd1.2S -> result.val[0]`<br>`Vd2.2S -> result.val[1]`   | `v7/A32/A64`              |
-| <code>uint32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn_u32" target="_blank">vtrn_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b)</code>      | `a -> Vn.2S`<br>`b -> Vm.2S`   | `TRN1 Vd1.2S,Vn.2S,Vm.2S`<br>`TRN2 Vd2.2S,Vn.2S,Vm.2S`       | `Vd1.2S -> result.val[0]`<br>`Vd2.2S -> result.val[1]`   | `v7/A32/A64`              |
-| <code>int8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrnq_s8" target="_blank">vtrnq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `TRN1 Vd1.16B,Vn.16B,Vm.16B`<br>`TRN2 Vd2.16B,Vn.16B,Vm.16B` | `Vd1.16B -> result.val[0]`<br>`Vd2.16B -> result.val[1]` | `v7/A32/A64`              |
-| <code>int16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrnq_s16" target="_blank">vtrnq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `TRN1 Vd1.8H,Vn.8H,Vm.8H`<br>`TRN2 Vd2.8H,Vn.8H,Vm.8H`       | `Vd1.8H -> result.val[0]`<br>`Vd2.8H -> result.val[1]`   | `v7/A32/A64`              |
-| <code>int32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrnq_s32" target="_blank">vtrnq_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b)</code>       | `a -> Vn.4S`<br>`b -> Vm.4S`   | `TRN1 Vd1.4S,Vn.4S,Vm.4S`<br>`TRN2 Vd2.4S,Vn.4S,Vm.4S`       | `Vd1.4S -> result.val[0]`<br>`Vd2.4S -> result.val[1]`   | `v7/A32/A64`              |
-| <code>float32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrnq_f32" target="_blank">vtrnq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b)</code> | `a -> Vn.4S`<br>`b -> Vm.4S`   | `TRN1 Vd1.4S,Vn.4S,Vm.4S`<br>`TRN2 Vd2.4S,Vn.4S,Vm.4S`       | `Vd1.4S -> result.val[0]`<br>`Vd2.4S -> result.val[1]`   | `v7/A32/A64`              |
-| <code>uint8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrnq_u8" target="_blank">vtrnq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b)</code>      | `a -> Vn.16B`<br>`b -> Vm.16B` | `TRN1 Vd1.16B,Vn.16B,Vm.16B`<br>`TRN2 Vd2.16B,Vn.16B,Vm.16B` | `Vd1.16B -> result.val[0]`<br>`Vd2.16B -> result.val[1]` | `v7/A32/A64`              |
-| <code>uint16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrnq_u16" target="_blank">vtrnq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b)</code>    | `a -> Vn.8H`<br>`b -> Vm.8H`   | `TRN1 Vd1.8H,Vn.8H,Vm.8H`<br>`TRN2 Vd2.8H,Vn.8H,Vm.8H`       | `Vd1.8H -> result.val[0]`<br>`Vd2.8H -> result.val[1]`   | `v7/A32/A64`              |
-| <code>uint32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrnq_u32" target="_blank">vtrnq_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b)</code>    | `a -> Vn.4S`<br>`b -> Vm.4S`   | `TRN1 Vd1.4S,Vn.4S,Vm.4S`<br>`TRN2 Vd2.4S,Vn.4S,Vm.4S`       | `Vd1.4S -> result.val[0]`<br>`Vd2.4S -> result.val[1]`   | `v7/A32/A64`              |
-| <code>poly8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrnq_p8" target="_blank">vtrnq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b)</code>      | `a -> Vn.16B`<br>`b -> Vm.16B` | `TRN1 Vd1.16B,Vn.16B,Vm.16B`<br>`TRN2 Vd2.16B,Vn.16B,Vm.16B` | `Vd1.16B -> result.val[0]`<br>`Vd2.16B -> result.val[1]` | `v7/A32/A64`              |
-| <code>poly16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrnq_p16" target="_blank">vtrnq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b)</code>    | `a -> Vn.8H`<br>`b -> Vm.8H`   | `TRN1 Vd1.8H,Vn.8H,Vm.8H`<br>`TRN2 Vd2.8H,Vn.8H,Vm.8H`       | `Vd1.8H -> result.val[0]`<br>`Vd2.8H -> result.val[1]`   | `v7/A32/A64`              |
+| Intrinsic                                                                                                                                                                                                                                  | Argument preparation           | AArch64 Instruction                                          | Result                                                   | Supported architectures   |
+|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------|--------------------------------------------------------------|----------------------------------------------------------|---------------------------|
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1_s8" target="_blank">vtrn1_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b)</code>                 | `a -> Vn.8B`<br>`b -> Vm.8B`   | `TRN1 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_s8" target="_blank">vtrn1q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b)</code>            | `a -> Vn.16B`<br>`b -> Vm.16B` | `TRN1 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1_s16" target="_blank">vtrn1_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b)</code>            | `a -> Vn.4H`<br>`b -> Vm.4H`   | `TRN1 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_s16" target="_blank">vtrn1q_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b)</code>          | `a -> Vn.8H`<br>`b -> Vm.8H`   | `TRN1 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1_s32" target="_blank">vtrn1_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b)</code>            | `a -> Vn.2S`<br>`b -> Vm.2S`   | `TRN1 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_s32" target="_blank">vtrn1q_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b)</code>          | `a -> Vn.4S`<br>`b -> Vm.4S`   | `TRN1 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_s64" target="_blank">vtrn1q_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t b)</code>          | `a -> Vn.2D`<br>`b -> Vm.2D`   | `TRN1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1_u8" target="_blank">vtrn1_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `TRN1 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_u8" target="_blank">vtrn1q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `TRN1 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1_u16" target="_blank">vtrn1_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `TRN1 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_u16" target="_blank">vtrn1q_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `TRN1 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1_u32" target="_blank">vtrn1_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b)</code>         | `a -> Vn.2S`<br>`b -> Vm.2S`   | `TRN1 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_u32" target="_blank">vtrn1q_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b)</code>       | `a -> Vn.4S`<br>`b -> Vm.4S`   | `TRN1 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_u64" target="_blank">vtrn1q_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t b)</code>       | `a -> Vn.2D`<br>`b -> Vm.2D`   | `TRN1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_p64" target="_blank">vtrn1q_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t b)</code>       | `a -> Vn.2D`<br>`b -> Vm.2D`   | `TRN1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1_f32" target="_blank">vtrn1_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b)</code>      | `a -> Vn.2S`<br>`b -> Vm.2S`   | `TRN1 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_f32" target="_blank">vtrn1q_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b)</code>    | `a -> Vn.4S`<br>`b -> Vm.4S`   | `TRN1 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_f64" target="_blank">vtrn1q_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t b)</code>    | `a -> Vn.2D`<br>`b -> Vm.2D`   | `TRN1 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1_p8" target="_blank">vtrn1_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `TRN1 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_p8" target="_blank">vtrn1q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `TRN1 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1_p16" target="_blank">vtrn1_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `TRN1 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_p16" target="_blank">vtrn1q_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `TRN1 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1_mf8" target="_blank">vtrn1_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t b)</code>      | `a -> Vn.8B`<br>`b -> Vm.8B`   | `TRN1 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn1q_mf8" target="_blank">vtrn1q_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t b)</code> | `a -> Vn.16B`<br>`b -> Vm.16B` | `TRN1 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2_s8" target="_blank">vtrn2_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b)</code>                 | `a -> Vn.8B`<br>`b -> Vm.8B`   | `TRN2 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_s8" target="_blank">vtrn2q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b)</code>            | `a -> Vn.16B`<br>`b -> Vm.16B` | `TRN2 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2_s16" target="_blank">vtrn2_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b)</code>            | `a -> Vn.4H`<br>`b -> Vm.4H`   | `TRN2 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_s16" target="_blank">vtrn2q_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b)</code>          | `a -> Vn.8H`<br>`b -> Vm.8H`   | `TRN2 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2_s32" target="_blank">vtrn2_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b)</code>            | `a -> Vn.2S`<br>`b -> Vm.2S`   | `TRN2 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_s32" target="_blank">vtrn2q_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b)</code>          | `a -> Vn.4S`<br>`b -> Vm.4S`   | `TRN2 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_s64" target="_blank">vtrn2q_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t b)</code>          | `a -> Vn.2D`<br>`b -> Vm.2D`   | `TRN2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2_u8" target="_blank">vtrn2_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `TRN2 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_u8" target="_blank">vtrn2q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `TRN2 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2_u16" target="_blank">vtrn2_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `TRN2 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_u16" target="_blank">vtrn2q_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `TRN2 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2_u32" target="_blank">vtrn2_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b)</code>         | `a -> Vn.2S`<br>`b -> Vm.2S`   | `TRN2 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_u32" target="_blank">vtrn2q_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b)</code>       | `a -> Vn.4S`<br>`b -> Vm.4S`   | `TRN2 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_u64" target="_blank">vtrn2q_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t b)</code>       | `a -> Vn.2D`<br>`b -> Vm.2D`   | `TRN2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_p64" target="_blank">vtrn2q_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t b)</code>       | `a -> Vn.2D`<br>`b -> Vm.2D`   | `TRN2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2_f32" target="_blank">vtrn2_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b)</code>      | `a -> Vn.2S`<br>`b -> Vm.2S`   | `TRN2 Vd.2S,Vn.2S,Vm.2S`                                     | `Vd.2S -> result`                                        | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_f32" target="_blank">vtrn2q_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b)</code>    | `a -> Vn.4S`<br>`b -> Vm.4S`   | `TRN2 Vd.4S,Vn.4S,Vm.4S`                                     | `Vd.4S -> result`                                        | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_f64" target="_blank">vtrn2q_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t b)</code>    | `a -> Vn.2D`<br>`b -> Vm.2D`   | `TRN2 Vd.2D,Vn.2D,Vm.2D`                                     | `Vd.2D -> result`                                        | `A64`                     |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2_p8" target="_blank">vtrn2_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `TRN2 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_p8" target="_blank">vtrn2q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `TRN2 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2_p16" target="_blank">vtrn2_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `TRN2 Vd.4H,Vn.4H,Vm.4H`                                     | `Vd.4H -> result`                                        | `A64`                     |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_p16" target="_blank">vtrn2q_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `TRN2 Vd.8H,Vn.8H,Vm.8H`                                     | `Vd.8H -> result`                                        | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2_mf8" target="_blank">vtrn2_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t b)</code>      | `a -> Vn.8B`<br>`b -> Vm.8B`   | `TRN2 Vd.8B,Vn.8B,Vm.8B`                                     | `Vd.8B -> result`                                        | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn2q_mf8" target="_blank">vtrn2q_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t b)</code> | `a -> Vn.16B`<br>`b -> Vm.16B` | `TRN2 Vd.16B,Vn.16B,Vm.16B`                                  | `Vd.16B -> result`                                       | `A64`                     |
+| <code>int8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn_s8" target="_blank">vtrn_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b)</code>                 | `a -> Vn.8B`<br>`b -> Vm.8B`   | `TRN1 Vd1.8B,Vn.8B,Vm.8B`<br>`TRN2 Vd2.8B,Vn.8B,Vm.8B`       | `Vd1.8B -> result.val[0]`<br>`Vd2.8B -> result.val[1]`   | `v7/A32/A64`              |
+| <code>int16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn_s16" target="_blank">vtrn_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t b)</code>            | `a -> Vn.4H`<br>`b -> Vm.4H`   | `TRN1 Vd1.4H,Vn.4H,Vm.4H`<br>`TRN2 Vd2.4H,Vn.4H,Vm.4H`       | `Vd1.4H -> result.val[0]`<br>`Vd2.4H -> result.val[1]`   | `v7/A32/A64`              |
+| <code>uint8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn_u8" target="_blank">vtrn_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `TRN1 Vd1.8B,Vn.8B,Vm.8B`<br>`TRN2 Vd2.8B,Vn.8B,Vm.8B`       | `Vd1.8B -> result.val[0]`<br>`Vd2.8B -> result.val[1]`   | `v7/A32/A64`              |
+| <code>uint16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn_u16" target="_blank">vtrn_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `TRN1 Vd1.4H,Vn.4H,Vm.4H`<br>`TRN2 Vd2.4H,Vn.4H,Vm.4H`       | `Vd1.4H -> result.val[0]`<br>`Vd2.4H -> result.val[1]`   | `v7/A32/A64`              |
+| <code>poly8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn_p8" target="_blank">vtrn_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b)</code>              | `a -> Vn.8B`<br>`b -> Vm.8B`   | `TRN1 Vd1.8B,Vn.8B,Vm.8B`<br>`TRN2 Vd2.8B,Vn.8B,Vm.8B`       | `Vd1.8B -> result.val[0]`<br>`Vd2.8B -> result.val[1]`   | `v7/A32/A64`              |
+| <code>poly16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn_p16" target="_blank">vtrn_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t b)</code>         | `a -> Vn.4H`<br>`b -> Vm.4H`   | `TRN1 Vd1.4H,Vn.4H,Vm.4H`<br>`TRN2 Vd2.4H,Vn.4H,Vm.4H`       | `Vd1.4H -> result.val[0]`<br>`Vd2.4H -> result.val[1]`   | `v7/A32/A64`              |
+| <code>int32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn_s32" target="_blank">vtrn_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t b)</code>            | `a -> Vn.2S`<br>`b -> Vm.2S`   | `TRN1 Vd1.2S,Vn.2S,Vm.2S`<br>`TRN2 Vd2.2S,Vn.2S,Vm.2S`       | `Vd1.2S -> result.val[0]`<br>`Vd2.2S -> result.val[1]`   | `v7/A32/A64`              |
+| <code>float32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn_f32" target="_blank">vtrn_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t b)</code>      | `a -> Vn.2S`<br>`b -> Vm.2S`   | `TRN1 Vd1.2S,Vn.2S,Vm.2S`<br>`TRN2 Vd2.2S,Vn.2S,Vm.2S`       | `Vd1.2S -> result.val[0]`<br>`Vd2.2S -> result.val[1]`   | `v7/A32/A64`              |
+| <code>uint32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn_u32" target="_blank">vtrn_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t b)</code>         | `a -> Vn.2S`<br>`b -> Vm.2S`   | `TRN1 Vd1.2S,Vn.2S,Vm.2S`<br>`TRN2 Vd2.2S,Vn.2S,Vm.2S`       | `Vd1.2S -> result.val[0]`<br>`Vd2.2S -> result.val[1]`   | `v7/A32/A64`              |
+| <code>mfloat8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrn_mf8" target="_blank">vtrn_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t b)</code>      | `a -> Vn.8B`<br>`b -> Vm.8B`   | `TRN1 Vd1.8B,Vn.8B,Vm.8B`<br>`TRN2 Vd2.8B,Vn.8B,Vm.8B`       | `Vd1.8B -> result.val[0]`<br>`Vd2.8B -> result.val[1]`   | `A64`                     |
+| <code>int8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrnq_s8" target="_blank">vtrnq_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t b)</code>            | `a -> Vn.16B`<br>`b -> Vm.16B` | `TRN1 Vd1.16B,Vn.16B,Vm.16B`<br>`TRN2 Vd2.16B,Vn.16B,Vm.16B` | `Vd1.16B -> result.val[0]`<br>`Vd2.16B -> result.val[1]` | `v7/A32/A64`              |
+| <code>int16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrnq_s16" target="_blank">vtrnq_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t b)</code>          | `a -> Vn.8H`<br>`b -> Vm.8H`   | `TRN1 Vd1.8H,Vn.8H,Vm.8H`<br>`TRN2 Vd2.8H,Vn.8H,Vm.8H`       | `Vd1.8H -> result.val[0]`<br>`Vd2.8H -> result.val[1]`   | `v7/A32/A64`              |
+| <code>int32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrnq_s32" target="_blank">vtrnq_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t b)</code>          | `a -> Vn.4S`<br>`b -> Vm.4S`   | `TRN1 Vd1.4S,Vn.4S,Vm.4S`<br>`TRN2 Vd2.4S,Vn.4S,Vm.4S`       | `Vd1.4S -> result.val[0]`<br>`Vd2.4S -> result.val[1]`   | `v7/A32/A64`              |
+| <code>float32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrnq_f32" target="_blank">vtrnq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t b)</code>    | `a -> Vn.4S`<br>`b -> Vm.4S`   | `TRN1 Vd1.4S,Vn.4S,Vm.4S`<br>`TRN2 Vd2.4S,Vn.4S,Vm.4S`       | `Vd1.4S -> result.val[0]`<br>`Vd2.4S -> result.val[1]`   | `v7/A32/A64`              |
+| <code>uint8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrnq_u8" target="_blank">vtrnq_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `TRN1 Vd1.16B,Vn.16B,Vm.16B`<br>`TRN2 Vd2.16B,Vn.16B,Vm.16B` | `Vd1.16B -> result.val[0]`<br>`Vd2.16B -> result.val[1]` | `v7/A32/A64`              |
+| <code>uint16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrnq_u16" target="_blank">vtrnq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `TRN1 Vd1.8H,Vn.8H,Vm.8H`<br>`TRN2 Vd2.8H,Vn.8H,Vm.8H`       | `Vd1.8H -> result.val[0]`<br>`Vd2.8H -> result.val[1]`   | `v7/A32/A64`              |
+| <code>uint32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrnq_u32" target="_blank">vtrnq_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t b)</code>       | `a -> Vn.4S`<br>`b -> Vm.4S`   | `TRN1 Vd1.4S,Vn.4S,Vm.4S`<br>`TRN2 Vd2.4S,Vn.4S,Vm.4S`       | `Vd1.4S -> result.val[0]`<br>`Vd2.4S -> result.val[1]`   | `v7/A32/A64`              |
+| <code>poly8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrnq_p8" target="_blank">vtrnq_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t b)</code>         | `a -> Vn.16B`<br>`b -> Vm.16B` | `TRN1 Vd1.16B,Vn.16B,Vm.16B`<br>`TRN2 Vd2.16B,Vn.16B,Vm.16B` | `Vd1.16B -> result.val[0]`<br>`Vd2.16B -> result.val[1]` | `v7/A32/A64`              |
+| <code>poly16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrnq_p16" target="_blank">vtrnq_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t b)</code>       | `a -> Vn.8H`<br>`b -> Vm.8H`   | `TRN1 Vd1.8H,Vn.8H,Vm.8H`<br>`TRN2 Vd2.8H,Vn.8H,Vm.8H`       | `Vd1.8H -> result.val[0]`<br>`Vd2.8H -> result.val[1]`   | `v7/A32/A64`              |
+| <code>mfloat8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtrnq_mf8" target="_blank">vtrnq_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t b)</code> | `a -> Vn.16B`<br>`b -> Vm.16B` | `TRN1 Vd1.16B,Vn.16B,Vm.16B`<br>`TRN2 Vd2.16B,Vn.16B,Vm.16B` | `Vd1.16B -> result.val[0]`<br>`Vd2.16B -> result.val[1]` | `A64`                     |
 
 #### Set vector lane
 
-| Intrinsic                                                                                                                                                                                                                                                                                 | Argument preparation                        | AArch64 Instruction      | Result             | Supported architectures   |
-|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------|--------------------------|--------------------|---------------------------|
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_u8" target="_blank">vset_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `0<=lane<=7`<br>`a -> Rn`<br>`v -> Vd.8B`   | `MOV Vd.B[lane],Rn`      | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_u16" target="_blank">vset_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `0<=lane<=3`<br>`a -> Rn`<br>`v -> Vd.4H`   | `MOV Vd.H[lane],Rn`      | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_u32" target="_blank">vset_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `0<=lane<=1`<br>`a -> Rn`<br>`v -> Vd.2S`   | `MOV Vd.S[lane],Rn`      | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_u64" target="_blank">vset_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `lane==0`<br>`a -> Rn`<br>`v -> Vd.1D`      | `MOV Vd.D[lane],Rn`      | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_p64" target="_blank">vset_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `lane==0`<br>`a -> Rn`<br>`v -> Vd.1D`      | `MOV Vd.D[lane],Rn`      | `Vd.1D -> result`  | `A32/A64`                 |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_s8" target="_blank">vset_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>              | `0<=lane<=7`<br>`a -> Rn`<br>`v -> Vd.8B`   | `MOV Vd.B[lane],Rn`      | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_s16" target="_blank">vset_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `0<=lane<=3`<br>`a -> Rn`<br>`v -> Vd.4H`   | `MOV Vd.H[lane],Rn`      | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_s32" target="_blank">vset_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `0<=lane<=1`<br>`a -> Rn`<br>`v -> Vd.2S`   | `MOV Vd.S[lane],Rn`      | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_s64" target="_blank">vset_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `lane==0`<br>`a -> Rn`<br>`v -> Vd.1D`      | `MOV Vd.D[lane],Rn`      | `Vd.1D -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_p8" target="_blank">vset_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `0<=lane<=7`<br>`a -> Rn`<br>`v -> Vd.8B`   | `MOV Vd.B[lane],Rn`      | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_p16" target="_blank">vset_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `0<=lane<=3`<br>`a -> Rn`<br>`v -> Vd.4H`   | `MOV Vd.H[lane],Rn`      | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_f16" target="_blank">vset_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `0<=lane<=3`<br>`a -> VnH`<br>`v -> Vd.4H`  | `MOV Vd.H[lane],Vn.H[0]` | `Vd.4H -> result`  | `v7/A32/A64`              |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_f16" target="_blank">vsetq_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `0<=lane<=7`<br>`a -> VnH`<br>`v -> Vd.8H`  | `MOV Vd.H[lane],Vn.H[0]` | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_f32" target="_blank">vset_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `0<=lane<=1`<br>`a -> Rn`<br>`v -> Vd.2S`   | `MOV Vd.S[lane],Rn`      | `Vd.2S -> result`  | `v7/A32/A64`              |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_f64" target="_blank">vset_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `lane==0`<br>`a -> Rn`<br>`v -> Vd.1D`      | `MOV Vd.D[lane],Rn`      | `Vd.1D -> result`  | `A64`                     |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_u8" target="_blank">vsetq_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `0<=lane<=15`<br>`a -> Rn`<br>`v -> Vd.16B` | `MOV Vd.B[lane],Rn`      | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_u16" target="_blank">vsetq_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `0<=lane<=7`<br>`a -> Rn`<br>`v -> Vd.8H`   | `MOV Vd.H[lane],Rn`      | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_u32" target="_blank">vsetq_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `0<=lane<=3`<br>`a -> Rn`<br>`v -> Vd.4S`   | `MOV Vd.S[lane],Rn`      | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_u64" target="_blank">vsetq_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `0<=lane<=1`<br>`a -> Rn`<br>`v -> Vd.2D`   | `MOV Vd.D[lane],Rn`      | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_p64" target="_blank">vsetq_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `0<=lane<=1`<br>`a -> Rn`<br>`v -> Vd.2D`   | `MOV Vd.D[lane],Rn`      | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_s8" target="_blank">vsetq_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `0<=lane<=15`<br>`a -> Rn`<br>`v -> Vd.16B` | `MOV Vd.B[lane],Rn`      | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_s16" target="_blank">vsetq_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `0<=lane<=7`<br>`a -> Rn`<br>`v -> Vd.8H`   | `MOV Vd.H[lane],Rn`      | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_s32" target="_blank">vsetq_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `0<=lane<=3`<br>`a -> Rn`<br>`v -> Vd.4S`   | `MOV Vd.S[lane],Rn`      | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_s64" target="_blank">vsetq_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `0<=lane<=1`<br>`a -> Rn`<br>`v -> Vd.2D`   | `MOV Vd.D[lane],Rn`      | `Vd.2D -> result`  | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_p8" target="_blank">vsetq_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `0<=lane<=15`<br>`a -> Rn`<br>`v -> Vd.16B` | `MOV Vd.B[lane],Rn`      | `Vd.16B -> result` | `v7/A32/A64`              |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_p16" target="_blank">vsetq_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `0<=lane<=7`<br>`a -> Rn`<br>`v -> Vd.8H`   | `MOV Vd.H[lane],Rn`      | `Vd.8H -> result`  | `v7/A32/A64`              |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_f32" target="_blank">vsetq_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `0<=lane<=3`<br>`a -> Rn`<br>`v -> Vd.4S`   | `MOV Vd.S[lane],Rn`      | `Vd.4S -> result`  | `v7/A32/A64`              |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_f64" target="_blank">vsetq_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `0<=lane<=1`<br>`a -> Rn`<br>`v -> Vd.2D`   | `MOV Vd.D[lane],Rn`      | `Vd.2D -> result`  | `A64`                     |
+| Intrinsic                                                                                                                                                                                                                                                                                   | Argument preparation                        | AArch64 Instruction      | Result             | Supported architectures   |
+|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------|--------------------------|--------------------|---------------------------|
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_u8" target="_blank">vset_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `0<=lane<=7`<br>`a -> Rn`<br>`v -> Vd.8B`   | `MOV Vd.B[lane],Rn`      | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_u16" target="_blank">vset_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `0<=lane<=3`<br>`a -> Rn`<br>`v -> Vd.4H`   | `MOV Vd.H[lane],Rn`      | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_u32" target="_blank">vset_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `0<=lane<=1`<br>`a -> Rn`<br>`v -> Vd.2S`   | `MOV Vd.S[lane],Rn`      | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_u64" target="_blank">vset_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `lane==0`<br>`a -> Rn`<br>`v -> Vd.1D`      | `MOV Vd.D[lane],Rn`      | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_p64" target="_blank">vset_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `lane==0`<br>`a -> Rn`<br>`v -> Vd.1D`      | `MOV Vd.D[lane],Rn`      | `Vd.1D -> result`  | `A32/A64`                 |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_s8" target="_blank">vset_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                | `0<=lane<=7`<br>`a -> Rn`<br>`v -> Vd.8B`   | `MOV Vd.B[lane],Rn`      | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_s16" target="_blank">vset_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `0<=lane<=3`<br>`a -> Rn`<br>`v -> Vd.4H`   | `MOV Vd.H[lane],Rn`      | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_s32" target="_blank">vset_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `0<=lane<=1`<br>`a -> Rn`<br>`v -> Vd.2S`   | `MOV Vd.S[lane],Rn`      | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_s64" target="_blank">vset_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `lane==0`<br>`a -> Rn`<br>`v -> Vd.1D`      | `MOV Vd.D[lane],Rn`      | `Vd.1D -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_p8" target="_blank">vset_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `0<=lane<=7`<br>`a -> Rn`<br>`v -> Vd.8B`   | `MOV Vd.B[lane],Rn`      | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_p16" target="_blank">vset_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `0<=lane<=3`<br>`a -> Rn`<br>`v -> Vd.4H`   | `MOV Vd.H[lane],Rn`      | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_f16" target="_blank">vset_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `0<=lane<=3`<br>`a -> VnH`<br>`v -> Vd.4H`  | `MOV Vd.H[lane],Vn.H[0]` | `Vd.4H -> result`  | `v7/A32/A64`              |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_f16" target="_blank">vsetq_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `0<=lane<=7`<br>`a -> VnH`<br>`v -> Vd.8H`  | `MOV Vd.H[lane],Vn.H[0]` | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_f32" target="_blank">vset_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `0<=lane<=1`<br>`a -> Rn`<br>`v -> Vd.2S`   | `MOV Vd.S[lane],Rn`      | `Vd.2S -> result`  | `v7/A32/A64`              |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_f64" target="_blank">vset_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `lane==0`<br>`a -> Rn`<br>`v -> Vd.1D`      | `MOV Vd.D[lane],Rn`      | `Vd.1D -> result`  | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vset_lane_mf8" target="_blank">vset_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `0<=lane<=7`<br>`a -> Rn`<br>`v -> Vd.8B`   | `MOV Vd.B[lane],Rn`      | `Vd.8B -> result`  | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_u8" target="_blank">vsetq_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `0<=lane<=15`<br>`a -> Rn`<br>`v -> Vd.16B` | `MOV Vd.B[lane],Rn`      | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_u16" target="_blank">vsetq_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `0<=lane<=7`<br>`a -> Rn`<br>`v -> Vd.8H`   | `MOV Vd.H[lane],Rn`      | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_u32" target="_blank">vsetq_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `0<=lane<=3`<br>`a -> Rn`<br>`v -> Vd.4S`   | `MOV Vd.S[lane],Rn`      | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_u64" target="_blank">vsetq_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `0<=lane<=1`<br>`a -> Rn`<br>`v -> Vd.2D`   | `MOV Vd.D[lane],Rn`      | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_p64" target="_blank">vsetq_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `0<=lane<=1`<br>`a -> Rn`<br>`v -> Vd.2D`   | `MOV Vd.D[lane],Rn`      | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_s8" target="_blank">vsetq_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>            | `0<=lane<=15`<br>`a -> Rn`<br>`v -> Vd.16B` | `MOV Vd.B[lane],Rn`      | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_s16" target="_blank">vsetq_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `0<=lane<=7`<br>`a -> Rn`<br>`v -> Vd.8H`   | `MOV Vd.H[lane],Rn`      | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_s32" target="_blank">vsetq_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `0<=lane<=3`<br>`a -> Rn`<br>`v -> Vd.4S`   | `MOV Vd.S[lane],Rn`      | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_s64" target="_blank">vsetq_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `0<=lane<=1`<br>`a -> Rn`<br>`v -> Vd.2D`   | `MOV Vd.D[lane],Rn`      | `Vd.2D -> result`  | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_p8" target="_blank">vsetq_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `0<=lane<=15`<br>`a -> Rn`<br>`v -> Vd.16B` | `MOV Vd.B[lane],Rn`      | `Vd.16B -> result` | `v7/A32/A64`              |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_p16" target="_blank">vsetq_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `0<=lane<=7`<br>`a -> Rn`<br>`v -> Vd.8H`   | `MOV Vd.H[lane],Rn`      | `Vd.8H -> result`  | `v7/A32/A64`              |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_f32" target="_blank">vsetq_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `0<=lane<=3`<br>`a -> Rn`<br>`v -> Vd.4S`   | `MOV Vd.S[lane],Rn`      | `Vd.4S -> result`  | `v7/A32/A64`              |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_f64" target="_blank">vsetq_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `0<=lane<=1`<br>`a -> Rn`<br>`v -> Vd.2D`   | `MOV Vd.D[lane],Rn`      | `Vd.2D -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vsetq_lane_mf8" target="_blank">vsetq_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t v,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `0<=lane<=15`<br>`a -> Rn`<br>`v -> Vd.16B` | `MOV Vd.B[lane],Rn`      | `Vd.16B -> result` | `A64`                     |
+
+#### Unzip elements`
+
+| Intrinsic                                                                                                                                                                                                                            | Argument preparation         | AArch64 Instruction                                    | Result                                                 | Supported architectures   |
+|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------|--------------------------------------------------------|--------------------------------------------------------|---------------------------|
+| <code>uint16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vuzpq_u16" target="_blank">vuzpq_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t b)</code> | `a -> Vn.8H`<br>`b -> Vm.8H` | `UZP1 Vd1.8H,Vn.8H,Vm.8H`<br>`UZP2 Vd2.8H,Vn.8H,Vm.8H` | `Vd1.8H -> result.val[0]`<br>`Vd2.8H -> result.val[1]` | `v7/A32/A64`              |
 
 ### Load
 
 #### Stride
 
-| Intrinsic                                                                                                                                                                                                                                                                                                | Argument preparation                                                                                                                        | AArch64 Instruction             | Result                                                                                                              | Supported architectures   |
-|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------|---------------------------------------------------------------------------------------------------------------------|---------------------------|
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s8" target="_blank">vld1_s8</a>(int8_t const *ptr)</code>                                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B},[Xn]`              | `Vt.8B -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s8" target="_blank">vld1q_s8</a>(int8_t const *ptr)</code>                                                                                                                                            | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B},[Xn]`             | `Vt.16B -> result`                                                                                                  | `v7/A32/A64`              |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s16" target="_blank">vld1_s16</a>(int16_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H},[Xn]`              | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s16" target="_blank">vld1q_s16</a>(int16_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H},[Xn]`              | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s32" target="_blank">vld1_s32</a>(int32_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S},[Xn]`              | `Vt.2S -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s32" target="_blank">vld1q_s32</a>(int32_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S},[Xn]`              | `Vt.4S -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s64" target="_blank">vld1_s64</a>(int64_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D},[Xn]`              | `Vt.1D -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s64" target="_blank">vld1q_s64</a>(int64_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D},[Xn]`              | `Vt.2D -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u8" target="_blank">vld1_u8</a>(uint8_t const *ptr)</code>                                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B},[Xn]`              | `Vt.8B -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u8" target="_blank">vld1q_u8</a>(uint8_t const *ptr)</code>                                                                                                                                          | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B},[Xn]`             | `Vt.16B -> result`                                                                                                  | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u16" target="_blank">vld1_u16</a>(uint16_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H},[Xn]`              | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u16" target="_blank">vld1q_u16</a>(uint16_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H},[Xn]`              | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u32" target="_blank">vld1_u32</a>(uint32_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S},[Xn]`              | `Vt.2S -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u32" target="_blank">vld1q_u32</a>(uint32_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S},[Xn]`              | `Vt.4S -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u64" target="_blank">vld1_u64</a>(uint64_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D},[Xn]`              | `Vt.1D -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u64" target="_blank">vld1q_u64</a>(uint64_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D},[Xn]`              | `Vt.2D -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p64" target="_blank">vld1_p64</a>(poly64_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D},[Xn]`              | `Vt.1D -> result`                                                                                                   | `A32/A64`                 |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p64" target="_blank">vld1q_p64</a>(poly64_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D},[Xn]`              | `Vt.2D -> result`                                                                                                   | `A32/A64`                 |
-| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f16" target="_blank">vld1_f16</a>(float16_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H},[Xn]`              | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f16" target="_blank">vld1q_f16</a>(float16_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H},[Xn]`              | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f32" target="_blank">vld1_f32</a>(float32_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S},[Xn]`              | `Vt.2S -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f32" target="_blank">vld1q_f32</a>(float32_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S},[Xn]`              | `Vt.4S -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p8" target="_blank">vld1_p8</a>(poly8_t const *ptr)</code>                                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B},[Xn]`              | `Vt.8B -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p8" target="_blank">vld1q_p8</a>(poly8_t const *ptr)</code>                                                                                                                                          | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B},[Xn]`             | `Vt.16B -> result`                                                                                                  | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p16" target="_blank">vld1_p16</a>(poly16_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H},[Xn]`              | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p16" target="_blank">vld1q_p16</a>(poly16_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H},[Xn]`              | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f64" target="_blank">vld1_f64</a>(float64_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D},[Xn]`              | `Vt.1D -> result`                                                                                                   | `A64`                     |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f64" target="_blank">vld1q_f64</a>(float64_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D},[Xn]`              | `Vt.2D -> result`                                                                                                   | `A64`                     |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_s8" target="_blank">vld1_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                  | `ptr -> Xn`<br>`src -> Vt.8B`<br>`0 <= lane <= 7`                                                                                           | `LD1 {Vt.b}[lane],[Xn]`         | `Vt.8B -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_s8" target="_blank">vld1q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>              | `ptr -> Xn`<br>`src -> Vt.16B`<br>`0 <= lane <= 15`                                                                                         | `LD1 {Vt.b}[lane],[Xn]`         | `Vt.16B -> result`                                                                                                  | `v7/A32/A64`              |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_s16" target="_blank">vld1_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `ptr -> Xn`<br>`src -> Vt.4H`<br>`0 <= lane <= 3`                                                                                           | `LD1 {Vt.H}[lane],[Xn]`         | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_s16" target="_blank">vld1q_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `ptr -> Xn`<br>`src -> Vt.8H`<br>`0 <= lane <= 7`                                                                                           | `LD1 {Vt.H}[lane],[Xn]`         | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_s32" target="_blank">vld1_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `ptr -> Xn`<br>`src -> Vt.2S`<br>`0 <= lane <= 1`                                                                                           | `LD1 {Vt.S}[lane],[Xn]`         | `Vt.2S -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_s32" target="_blank">vld1q_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `ptr -> Xn`<br>`src -> Vt.4S`<br>`0 <= lane <= 3`                                                                                           | `LD1 {Vt.S}[lane],[Xn]`         | `Vt.4S -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_s64" target="_blank">vld1_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `ptr -> Xn`<br>`src -> Vt.1D`<br>`0 <= lane <= 0`                                                                                           | `LD1 {Vt.D}[lane],[Xn]`         | `Vt.1D -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_s64" target="_blank">vld1q_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `ptr -> Xn`<br>`src -> Vt.2D`<br>`0 <= lane <= 1`                                                                                           | `LD1 {Vt.D}[lane],[Xn]`         | `Vt.2D -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_u8" target="_blank">vld1_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>               | `ptr -> Xn`<br>`src -> Vt.8B`<br>`0 <= lane <= 7`                                                                                           | `LD1 {Vt.B}[lane],[Xn]`         | `Vt.8B -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_u8" target="_blank">vld1q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `ptr -> Xn`<br>`src -> Vt.16B`<br>`0 <= lane <= 15`                                                                                         | `LD1 {Vt.B}[lane],[Xn]`         | `Vt.16B -> result`                                                                                                  | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_u16" target="_blank">vld1_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `ptr -> Xn`<br>`src -> Vt.4H`<br>`0 <= lane <= 3`                                                                                           | `LD1 {Vt.H}[lane],[Xn]`         | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_u16" target="_blank">vld1q_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `ptr -> Xn`<br>`src -> Vt.8H`<br>`0 <= lane <= 7`                                                                                           | `LD1 {Vt.H}[lane],[Xn]`         | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_u32" target="_blank">vld1_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `ptr -> Xn`<br>`src -> Vt.2S`<br>`0 <= lane <= 1`                                                                                           | `LD1 {Vt.S}[lane],[Xn]`         | `Vt.2S -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_u32" target="_blank">vld1q_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `ptr -> Xn`<br>`src -> Vt.4S`<br>`0 <= lane <= 3`                                                                                           | `LD1 {Vt.S}[lane],[Xn]`         | `Vt.4S -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_u64" target="_blank">vld1_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `ptr -> Xn`<br>`src -> Vt.1D`<br>`0 <= lane <= 0`                                                                                           | `LD1 {Vt.D}[lane],[Xn]`         | `Vt.1D -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_u64" target="_blank">vld1q_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `ptr -> Xn`<br>`src -> Vt.2D`<br>`0 <= lane <= 1`                                                                                           | `LD1 {Vt.D}[lane],[Xn]`         | `Vt.2D -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_p64" target="_blank">vld1_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `ptr -> Xn`<br>`src -> Vt.1D`<br>`0 <= lane <= 0`                                                                                           | `LD1 {Vt.D}[lane],[Xn]`         | `Vt.1D -> result`                                                                                                   | `A32/A64`                 |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_p64" target="_blank">vld1q_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `ptr -> Xn`<br>`src -> Vt.2D`<br>`0 <= lane <= 1`                                                                                           | `LD1 {Vt.D}[lane],[Xn]`         | `Vt.2D -> result`                                                                                                   | `A32/A64`                 |
-| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_f16" target="_blank">vld1_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `ptr -> Xn`<br>`src -> Vt.4H`<br>`0 <= lane <= 3`                                                                                           | `LD1 {Vt.H}[lane],[Xn]`         | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_f16" target="_blank">vld1q_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `ptr -> Xn`<br>`src -> Vt.8H`<br>`0 <= lane <= 7`                                                                                           | `LD1 {Vt.H}[lane],[Xn]`         | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_f32" target="_blank">vld1_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `ptr -> Xn`<br>`src -> Vt.2S`<br>`0 <= lane <= 1`                                                                                           | `LD1 {Vt.S}[lane],[Xn]`         | `Vt.2S -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_f32" target="_blank">vld1q_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `ptr -> Xn`<br>`src -> Vt.4S`<br>`0 <= lane <= 3`                                                                                           | `LD1 {Vt.S}[lane],[Xn]`         | `Vt.4S -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_p8" target="_blank">vld1_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>               | `ptr -> Xn`<br>`src -> Vt.8B`<br>`0 <= lane <= 7`                                                                                           | `LD1 {Vt.B}[lane],[Xn]`         | `Vt.8B -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_p8" target="_blank">vld1q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `ptr -> Xn`<br>`src -> Vt.16B`<br>`0 <= lane <= 15`                                                                                         | `LD1 {Vt.B}[lane],[Xn]`         | `Vt.16B -> result`                                                                                                  | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_p16" target="_blank">vld1_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `ptr -> Xn`<br>`src -> Vt.4H`<br>`0 <= lane <= 3`                                                                                           | `LD1 {Vt.H}[lane],[Xn]`         | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_p16" target="_blank">vld1q_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `ptr -> Xn`<br>`src -> Vt.8H`<br>`0 <= lane <= 7`                                                                                           | `LD1 {Vt.H}[lane],[Xn]`         | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_f64" target="_blank">vld1_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `ptr -> Xn`<br>`src -> Vt.1D`<br>`0 <= lane <= 0`                                                                                           | `LD1 {Vt.D}[lane],[Xn]`         | `Vt.1D -> result`                                                                                                   | `A64`                     |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_f64" target="_blank">vld1q_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `ptr -> Xn`<br>`src -> Vt.2D`<br>`0 <= lane <= 1`                                                                                           | `LD1 {Vt.D}[lane],[Xn]`         | `Vt.2D -> result`                                                                                                   | `A64`                     |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vldap1_lane_u64" target="_blank">vldap1_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src -> Vt.1D`<br>`0 <= lane <= 0`                                                                                           | `LDAP1 {Vt.D}[lane],[Xn]`       | `Vt.1D -> result`                                                                                                   | `A64`                     |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vldap1q_lane_u64" target="_blank">vldap1q_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `ptr -> Xn`<br>`src -> Vt.2D`<br>`0 <= lane <= 1`                                                                                           | `LDAP1 {Vt.D}[lane],[Xn]`       | `Vt.2D -> result`                                                                                                   | `A64`                     |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vldap1_lane_s64" target="_blank">vldap1_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src -> Vt.1D`<br>`0 <= lane <= 0`                                                                                           | `LDAP1 {Vt.D}[lane],[Xn]`       | `Vt.1D -> result`                                                                                                   | `A64`                     |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vldap1q_lane_s64" target="_blank">vldap1q_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `ptr -> Xn`<br>`src -> Vt.2D`<br>`0 <= lane <= 1`                                                                                           | `LDAP1 {Vt.D}[lane],[Xn]`       | `Vt.2D -> result`                                                                                                   | `A64`                     |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vldap1_lane_f64" target="_blank">vldap1_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `ptr -> Xn`<br>`src -> Vt.1D`<br>`0 <= lane <= 0`                                                                                           | `LDAP1 {Vt.D}[lane],[Xn]`       | `Vt.1D -> result`                                                                                                   | `A64`                     |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vldap1q_lane_f64" target="_blank">vldap1q_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `ptr -> Xn`<br>`src -> Vt.2D`<br>`0 <= lane <= 1`                                                                                           | `LDAP1 {Vt.D}[lane],[Xn]`       | `Vt.2D -> result`                                                                                                   | `A64`                     |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vldap1_lane_p64" target="_blank">vldap1_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src -> Vt.1D`<br>`0 <= lane <= 0`                                                                                           | `LDAP1 {Vt.D}[lane],[Xn]`       | `Vt.1D -> result`                                                                                                   | `A64`                     |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vldap1q_lane_p64" target="_blank">vldap1q_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `ptr -> Xn`<br>`src -> Vt.2D`<br>`0 <= lane <= 1`                                                                                           | `LDAP1 {Vt.D}[lane],[Xn]`       | `Vt.2D -> result`                                                                                                   | `A64`                     |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_s8" target="_blank">vld1_dup_s8</a>(int8_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.8B},[Xn]`             | `Vt.8B -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_s8" target="_blank">vld1q_dup_s8</a>(int8_t const *ptr)</code>                                                                                                                                    | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.16B},[Xn]`            | `Vt.16B -> result`                                                                                                  | `v7/A32/A64`              |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_s16" target="_blank">vld1_dup_s16</a>(int16_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.4H},[Xn]`             | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_s16" target="_blank">vld1q_dup_s16</a>(int16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.8H},[Xn]`             | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_s32" target="_blank">vld1_dup_s32</a>(int32_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.2S},[Xn]`             | `Vt.2S -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_s32" target="_blank">vld1q_dup_s32</a>(int32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.4S},[Xn]`             | `Vt.4S -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_s64" target="_blank">vld1_dup_s64</a>(int64_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D},[Xn]`              | `Vt.1D -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_s64" target="_blank">vld1q_dup_s64</a>(int64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.2D},[Xn]`             | `Vt.2D -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_u8" target="_blank">vld1_dup_u8</a>(uint8_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.8B},[Xn]`             | `Vt.8B -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_u8" target="_blank">vld1q_dup_u8</a>(uint8_t const *ptr)</code>                                                                                                                                  | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.16B},[Xn]`            | `Vt.16B -> result`                                                                                                  | `v7/A32/A64`              |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_u16" target="_blank">vld1_dup_u16</a>(uint16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.4H},[Xn]`             | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_u16" target="_blank">vld1q_dup_u16</a>(uint16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.8H},[Xn]`             | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_u32" target="_blank">vld1_dup_u32</a>(uint32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.2S},[Xn]`             | `Vt.2S -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_u32" target="_blank">vld1q_dup_u32</a>(uint32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.4S},[Xn]`             | `Vt.4S -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_u64" target="_blank">vld1_dup_u64</a>(uint64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D},[Xn]`              | `Vt.1D -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_u64" target="_blank">vld1q_dup_u64</a>(uint64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.2D},[Xn]`             | `Vt.2D -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_p64" target="_blank">vld1_dup_p64</a>(poly64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D},[Xn]`              | `Vt.1D -> result`                                                                                                   | `A32/A64`                 |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_p64" target="_blank">vld1q_dup_p64</a>(poly64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.2D},[Xn]`             | `Vt.2D -> result`                                                                                                   | `A32/A64`                 |
-| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_f16" target="_blank">vld1_dup_f16</a>(float16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.4H},[Xn]`             | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_f16" target="_blank">vld1q_dup_f16</a>(float16_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.8H},[Xn]`             | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_f32" target="_blank">vld1_dup_f32</a>(float32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.2S},[Xn]`             | `Vt.2S -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_f32" target="_blank">vld1q_dup_f32</a>(float32_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.4S},[Xn]`             | `Vt.4S -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_p8" target="_blank">vld1_dup_p8</a>(poly8_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.8B},[Xn]`             | `Vt.8B -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_p8" target="_blank">vld1q_dup_p8</a>(poly8_t const *ptr)</code>                                                                                                                                  | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.16B},[Xn]`            | `Vt.16B -> result`                                                                                                  | `v7/A32/A64`              |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_p16" target="_blank">vld1_dup_p16</a>(poly16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.4H},[Xn]`             | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_p16" target="_blank">vld1q_dup_p16</a>(poly16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.8H},[Xn]`             | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_f64" target="_blank">vld1_dup_f64</a>(float64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D},[Xn]`              | `Vt.1D -> result`                                                                                                   | `A64`                     |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_f64" target="_blank">vld1q_dup_f64</a>(float64_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.2D},[Xn]`             | `Vt.2D -> result`                                                                                                   | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vstl1_lane_u64" target="_blank">vstl1_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                    | `val -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                                                           | `STL1 {Vt.d}[lane],[Xn]`        |                                                                                                                     | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vstl1q_lane_u64" target="_blank">vstl1q_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                  | `val -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                                                           | `STL1 {Vt.d}[lane],[Xn]`        |                                                                                                                     | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vstl1_lane_s64" target="_blank">vstl1_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                      | `val -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                                                           | `STL1 {Vt.d}[lane],[Xn]`        |                                                                                                                     | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vstl1q_lane_s64" target="_blank">vstl1q_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                    | `val -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                                                           | `STL1 {Vt.d}[lane],[Xn]`        |                                                                                                                     | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vstl1_lane_f64" target="_blank">vstl1_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                  | `val -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                                                           | `STL1 {Vt.d}[lane],[Xn]`        |                                                                                                                     | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vstl1q_lane_f64" target="_blank">vstl1q_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                | `val -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                                                           | `STL1 {Vt.d}[lane],[Xn]`        |                                                                                                                     | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vstl1_lane_p64" target="_blank">vstl1_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                    | `val -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                                                           | `STL1 {Vt.d}[lane],[Xn]`        |                                                                                                                     | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vstl1q_lane_p64" target="_blank">vstl1q_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                  | `val -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                                                           | `STL1 {Vt.d}[lane],[Xn]`        |                                                                                                                     | `A64`                     |
-| <code>int8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_s8" target="_blank">vld2_s8</a>(int8_t const *ptr)</code>                                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.8B - Vt2.8B},[Xn]`     | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>int8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_s8" target="_blank">vld2q_s8</a>(int8_t const *ptr)</code>                                                                                                                                          | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.16B - Vt2.16B},[Xn]`   | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `v7/A32/A64`              |
-| <code>int16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_s16" target="_blank">vld2_s16</a>(int16_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.4H - Vt2.4H},[Xn]`     | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>int16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_s16" target="_blank">vld2q_s16</a>(int16_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.8H - Vt2.8H},[Xn]`     | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>int32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_s32" target="_blank">vld2_s32</a>(int32_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.2S - Vt2.2S},[Xn]`     | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>int32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_s32" target="_blank">vld2q_s32</a>(int32_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.4S - Vt2.4S},[Xn]`     | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_u8" target="_blank">vld2_u8</a>(uint8_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.8B - Vt2.8B},[Xn]`     | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_u8" target="_blank">vld2q_u8</a>(uint8_t const *ptr)</code>                                                                                                                                        | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.16B - Vt2.16B},[Xn]`   | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `v7/A32/A64`              |
-| <code>uint16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_u16" target="_blank">vld2_u16</a>(uint16_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.4H - Vt2.4H},[Xn]`     | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_u16" target="_blank">vld2q_u16</a>(uint16_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.8H - Vt2.8H},[Xn]`     | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_u32" target="_blank">vld2_u32</a>(uint32_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.2S - Vt2.2S},[Xn]`     | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_u32" target="_blank">vld2q_u32</a>(uint32_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.4S - Vt2.4S},[Xn]`     | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>float16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_f16" target="_blank">vld2_f16</a>(float16_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.4H - Vt2.4H},[Xn]`     | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>float16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_f16" target="_blank">vld2q_f16</a>(float16_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.8H - Vt2.8H},[Xn]`     | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>float32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_f32" target="_blank">vld2_f32</a>(float32_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.2S - Vt2.2S},[Xn]`     | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>float32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_f32" target="_blank">vld2q_f32</a>(float32_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.4S - Vt2.4S},[Xn]`     | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>poly8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_p8" target="_blank">vld2_p8</a>(poly8_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.8B - Vt2.8B},[Xn]`     | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>poly8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_p8" target="_blank">vld2q_p8</a>(poly8_t const *ptr)</code>                                                                                                                                        | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.16B - Vt2.16B},[Xn]`   | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `v7/A32/A64`              |
-| <code>poly16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_p16" target="_blank">vld2_p16</a>(poly16_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.4H - Vt2.4H},[Xn]`     | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>poly16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_p16" target="_blank">vld2q_p16</a>(poly16_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.8H - Vt2.8H},[Xn]`     | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>int64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_s64" target="_blank">vld2_s64</a>(int64_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt2.1D},[Xn]`     | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_u64" target="_blank">vld2_u64</a>(uint64_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt2.1D},[Xn]`     | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>poly64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_p64" target="_blank">vld2_p64</a>(poly64_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt2.1D},[Xn]`     | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `A32/A64`                 |
-| <code>int64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_s64" target="_blank">vld2q_s64</a>(int64_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.2D - Vt2.2D},[Xn]`     | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
-| <code>uint64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_u64" target="_blank">vld2q_u64</a>(uint64_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.2D - Vt2.2D},[Xn]`     | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
-| <code>poly64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_p64" target="_blank">vld2q_p64</a>(poly64_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.2D - Vt2.2D},[Xn]`     | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
-| <code>float64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_f64" target="_blank">vld2_f64</a>(float64_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt2.1D},[Xn]`     | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `A64`                     |
-| <code>float64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_f64" target="_blank">vld2q_f64</a>(float64_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.2D - Vt2.2D},[Xn]`     | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
-| <code>int8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_s8" target="_blank">vld3_s8</a>(int8_t const *ptr)</code>                                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.8B - Vt3.8B},[Xn]`     | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>int8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_s8" target="_blank">vld3q_s8</a>(int8_t const *ptr)</code>                                                                                                                                          | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.16B - Vt3.16B},[Xn]`   | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `v7/A32/A64`              |
-| <code>int16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_s16" target="_blank">vld3_s16</a>(int16_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.4H - Vt3.4H},[Xn]`     | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>int16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_s16" target="_blank">vld3q_s16</a>(int16_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.8H - Vt3.8H},[Xn]`     | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>int32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_s32" target="_blank">vld3_s32</a>(int32_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.2S - Vt3.2S},[Xn]`     | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>int32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_s32" target="_blank">vld3q_s32</a>(int32_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.4S - Vt3.4S},[Xn]`     | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_u8" target="_blank">vld3_u8</a>(uint8_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.8B - Vt3.8B},[Xn]`     | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_u8" target="_blank">vld3q_u8</a>(uint8_t const *ptr)</code>                                                                                                                                        | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.16B - Vt3.16B},[Xn]`   | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `v7/A32/A64`              |
-| <code>uint16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_u16" target="_blank">vld3_u16</a>(uint16_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.4H - Vt3.4H},[Xn]`     | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_u16" target="_blank">vld3q_u16</a>(uint16_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.8H - Vt3.8H},[Xn]`     | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_u32" target="_blank">vld3_u32</a>(uint32_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.2S - Vt3.2S},[Xn]`     | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_u32" target="_blank">vld3q_u32</a>(uint32_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.4S - Vt3.4S},[Xn]`     | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>float16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_f16" target="_blank">vld3_f16</a>(float16_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.4H - Vt3.4H},[Xn]`     | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>float16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_f16" target="_blank">vld3q_f16</a>(float16_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.8H - Vt3.8H},[Xn]`     | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>float32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_f32" target="_blank">vld3_f32</a>(float32_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.2S - Vt3.2S},[Xn]`     | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>float32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_f32" target="_blank">vld3q_f32</a>(float32_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.4S - Vt3.4S},[Xn]`     | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>poly8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_p8" target="_blank">vld3_p8</a>(poly8_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.8B - Vt3.8B},[Xn]`     | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>poly8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_p8" target="_blank">vld3q_p8</a>(poly8_t const *ptr)</code>                                                                                                                                        | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.16B - Vt3.16B},[Xn]`   | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `v7/A32/A64`              |
-| <code>poly16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_p16" target="_blank">vld3_p16</a>(poly16_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.4H - Vt3.4H},[Xn]`     | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>poly16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_p16" target="_blank">vld3q_p16</a>(poly16_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.8H - Vt3.8H},[Xn]`     | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>int64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_s64" target="_blank">vld3_s64</a>(int64_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt3.1D},[Xn]`     | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_u64" target="_blank">vld3_u64</a>(uint64_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt3.1D},[Xn]`     | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>poly64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_p64" target="_blank">vld3_p64</a>(poly64_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt3.1D},[Xn]`     | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `A32/A64`                 |
-| <code>int64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_s64" target="_blank">vld3q_s64</a>(int64_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.2D - Vt3.2D},[Xn]`     | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
-| <code>uint64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_u64" target="_blank">vld3q_u64</a>(uint64_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.2D - Vt3.2D},[Xn]`     | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
-| <code>poly64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_p64" target="_blank">vld3q_p64</a>(poly64_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.2D - Vt3.2D},[Xn]`     | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
-| <code>float64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_f64" target="_blank">vld3_f64</a>(float64_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt3.1D},[Xn]`     | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `A64`                     |
-| <code>float64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_f64" target="_blank">vld3q_f64</a>(float64_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.2D - Vt3.2D},[Xn]`     | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
-| <code>int8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_s8" target="_blank">vld4_s8</a>(int8_t const *ptr)</code>                                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.8B - Vt4.8B},[Xn]`     | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
-| <code>int8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_s8" target="_blank">vld4q_s8</a>(int8_t const *ptr)</code>                                                                                                                                          | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.16B - Vt4.16B},[Xn]`   | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `v7/A32/A64`              |
-| <code>int16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_s16" target="_blank">vld4_s16</a>(int16_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.4H - Vt4.4H},[Xn]`     | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>int16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_s16" target="_blank">vld4q_s16</a>(int16_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.8H - Vt4.8H},[Xn]`     | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>int32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_s32" target="_blank">vld4_s32</a>(int32_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.2S - Vt4.2S},[Xn]`     | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>int32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_s32" target="_blank">vld4q_s32</a>(int32_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.4S - Vt4.4S},[Xn]`     | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_u8" target="_blank">vld4_u8</a>(uint8_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.8B - Vt4.8B},[Xn]`     | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_u8" target="_blank">vld4q_u8</a>(uint8_t const *ptr)</code>                                                                                                                                        | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.16B - Vt4.16B},[Xn]`   | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `v7/A32/A64`              |
-| <code>uint16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_u16" target="_blank">vld4_u16</a>(uint16_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.4H - Vt4.4H},[Xn]`     | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_u16" target="_blank">vld4q_u16</a>(uint16_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.8H - Vt4.8H},[Xn]`     | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_u32" target="_blank">vld4_u32</a>(uint32_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.2S - Vt4.2S},[Xn]`     | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_u32" target="_blank">vld4q_u32</a>(uint32_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.4S - Vt4.4S},[Xn]`     | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>float16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_f16" target="_blank">vld4_f16</a>(float16_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.4H - Vt4.4H},[Xn]`     | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>float16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_f16" target="_blank">vld4q_f16</a>(float16_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.8H - Vt4.8H},[Xn]`     | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>float32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_f32" target="_blank">vld4_f32</a>(float32_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.2S - Vt4.2S},[Xn]`     | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>float32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_f32" target="_blank">vld4q_f32</a>(float32_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.4S - Vt4.4S},[Xn]`     | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>poly8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_p8" target="_blank">vld4_p8</a>(poly8_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.8B - Vt4.8B},[Xn]`     | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
-| <code>poly8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_p8" target="_blank">vld4q_p8</a>(poly8_t const *ptr)</code>                                                                                                                                        | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.16B - Vt4.16B},[Xn]`   | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `v7/A32/A64`              |
-| <code>poly16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_p16" target="_blank">vld4_p16</a>(poly16_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.4H - Vt4.4H},[Xn]`     | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>poly16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_p16" target="_blank">vld4q_p16</a>(poly16_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.8H - Vt4.8H},[Xn]`     | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>int64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_s64" target="_blank">vld4_s64</a>(int64_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt4.1D},[Xn]`     | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_u64" target="_blank">vld4_u64</a>(uint64_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt4.1D},[Xn]`     | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `v7/A32/A64`              |
-| <code>poly64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_p64" target="_blank">vld4_p64</a>(poly64_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt4.1D},[Xn]`     | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `A32/A64`                 |
-| <code>int64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_s64" target="_blank">vld4q_s64</a>(int64_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.2D - Vt4.2D},[Xn]`     | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
-| <code>uint64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_u64" target="_blank">vld4q_u64</a>(uint64_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.2D - Vt4.2D},[Xn]`     | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
-| <code>poly64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_p64" target="_blank">vld4q_p64</a>(poly64_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.2D - Vt4.2D},[Xn]`     | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
-| <code>float64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_f64" target="_blank">vld4_f64</a>(float64_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt4.1D},[Xn]`     | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `A64`                     |
-| <code>float64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_f64" target="_blank">vld4q_f64</a>(float64_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.2D - Vt4.2D},[Xn]`     | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
-| <code>int8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_s8" target="_blank">vld2_dup_s8</a>(int8_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.8B - Vt2.8B},[Xn]`    | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>int8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_s8" target="_blank">vld2q_dup_s8</a>(int8_t const *ptr)</code>                                                                                                                                  | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.16B - Vt2.16B},[Xn]`  | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `v7/A32/A64`              |
-| <code>int16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_s16" target="_blank">vld2_dup_s16</a>(int16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.4H - Vt2.4H},[Xn]`    | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>int16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_s16" target="_blank">vld2q_dup_s16</a>(int16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.8H - Vt2.8H},[Xn]`    | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>int32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_s32" target="_blank">vld2_dup_s32</a>(int32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.2S - Vt2.2S},[Xn]`    | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>int32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_s32" target="_blank">vld2q_dup_s32</a>(int32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.4S - Vt2.4S},[Xn]`    | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_u8" target="_blank">vld2_dup_u8</a>(uint8_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.8B - Vt2.8B},[Xn]`    | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_u8" target="_blank">vld2q_dup_u8</a>(uint8_t const *ptr)</code>                                                                                                                                | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.16B - Vt2.16B},[Xn]`  | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `v7/A32/A64`              |
-| <code>uint16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_u16" target="_blank">vld2_dup_u16</a>(uint16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.4H - Vt2.4H},[Xn]`    | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_u16" target="_blank">vld2q_dup_u16</a>(uint16_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.8H - Vt2.8H},[Xn]`    | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_u32" target="_blank">vld2_dup_u32</a>(uint32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.2S - Vt2.2S},[Xn]`    | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_u32" target="_blank">vld2q_dup_u32</a>(uint32_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.4S - Vt2.4S},[Xn]`    | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>float16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_f16" target="_blank">vld2_dup_f16</a>(float16_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.4H - Vt2.4H},[Xn]`    | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>float16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_f16" target="_blank">vld2q_dup_f16</a>(float16_t const *ptr)</code>                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.8H - Vt2.8H},[Xn]`    | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>float32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_f32" target="_blank">vld2_dup_f32</a>(float32_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.2S - Vt2.2S},[Xn]`    | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>float32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_f32" target="_blank">vld2q_dup_f32</a>(float32_t const *ptr)</code>                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.4S - Vt2.4S},[Xn]`    | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>poly8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_p8" target="_blank">vld2_dup_p8</a>(poly8_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.8B - Vt2.8B},[Xn]`    | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>poly8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_p8" target="_blank">vld2q_dup_p8</a>(poly8_t const *ptr)</code>                                                                                                                                | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.16B - Vt2.16B},[Xn]`  | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `v7/A32/A64`              |
-| <code>poly16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_p16" target="_blank">vld2_dup_p16</a>(poly16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.4H - Vt2.4H},[Xn]`    | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>poly16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_p16" target="_blank">vld2q_dup_p16</a>(poly16_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.8H - Vt2.8H},[Xn]`    | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>int64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_s64" target="_blank">vld2_dup_s64</a>(int64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.1D - Vt2.1D},[Xn]`    | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_u64" target="_blank">vld2_dup_u64</a>(uint64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.1D - Vt2.1D},[Xn]`    | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>poly64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_p64" target="_blank">vld2_dup_p64</a>(poly64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.1D - Vt2.1D},[Xn]`    | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `A32/A64`                 |
-| <code>int64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_s64" target="_blank">vld2q_dup_s64</a>(int64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.2D - Vt2.2D},[Xn]`    | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
-| <code>uint64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_u64" target="_blank">vld2q_dup_u64</a>(uint64_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.2D - Vt2.2D},[Xn]`    | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
-| <code>poly64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_p64" target="_blank">vld2q_dup_p64</a>(poly64_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.2D - Vt2.2D},[Xn]`    | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
-| <code>float64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_f64" target="_blank">vld2_dup_f64</a>(float64_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.1D - Vt2.1D},[Xn]`    | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `A64`                     |
-| <code>float64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_f64" target="_blank">vld2q_dup_f64</a>(float64_t const *ptr)</code>                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.2D - Vt2.2D},[Xn]`    | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
-| <code>int8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_s8" target="_blank">vld3_dup_s8</a>(int8_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.8B - Vt3.8B},[Xn]`    | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>int8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_s8" target="_blank">vld3q_dup_s8</a>(int8_t const *ptr)</code>                                                                                                                                  | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.16B - Vt3.16B},[Xn]`  | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `v7/A32/A64`              |
-| <code>int16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_s16" target="_blank">vld3_dup_s16</a>(int16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.4H - Vt3.4H},[Xn]`    | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>int16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_s16" target="_blank">vld3q_dup_s16</a>(int16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.8H - Vt3.8H},[Xn]`    | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>int32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_s32" target="_blank">vld3_dup_s32</a>(int32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.2S - Vt3.2S},[Xn]`    | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>int32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_s32" target="_blank">vld3q_dup_s32</a>(int32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.4S - Vt3.4S},[Xn]`    | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_u8" target="_blank">vld3_dup_u8</a>(uint8_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.8B - Vt3.8B},[Xn]`    | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_u8" target="_blank">vld3q_dup_u8</a>(uint8_t const *ptr)</code>                                                                                                                                | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.16B - Vt3.16B},[Xn]`  | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `v7/A32/A64`              |
-| <code>uint16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_u16" target="_blank">vld3_dup_u16</a>(uint16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.4H - Vt3.4H},[Xn]`    | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_u16" target="_blank">vld3q_dup_u16</a>(uint16_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.8H - Vt3.8H},[Xn]`    | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_u32" target="_blank">vld3_dup_u32</a>(uint32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.2S - Vt3.2S},[Xn]`    | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_u32" target="_blank">vld3q_dup_u32</a>(uint32_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.4S - Vt3.4S},[Xn]`    | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>float16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_f16" target="_blank">vld3_dup_f16</a>(float16_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.4H - Vt3.4H},[Xn]`    | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>float16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_f16" target="_blank">vld3q_dup_f16</a>(float16_t const *ptr)</code>                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.8H - Vt3.8H},[Xn]`    | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>float32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_f32" target="_blank">vld3_dup_f32</a>(float32_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.2S - Vt3.2S},[Xn]`    | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>float32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_f32" target="_blank">vld3q_dup_f32</a>(float32_t const *ptr)</code>                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.4S - Vt3.4S},[Xn]`    | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>poly8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_p8" target="_blank">vld3_dup_p8</a>(poly8_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.8B - Vt3.8B},[Xn]`    | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>poly8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_p8" target="_blank">vld3q_dup_p8</a>(poly8_t const *ptr)</code>                                                                                                                                | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.16B - Vt3.16B},[Xn]`  | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `v7/A32/A64`              |
-| <code>poly16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_p16" target="_blank">vld3_dup_p16</a>(poly16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.4H - Vt3.4H},[Xn]`    | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>poly16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_p16" target="_blank">vld3q_dup_p16</a>(poly16_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.8H - Vt3.8H},[Xn]`    | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>int64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_s64" target="_blank">vld3_dup_s64</a>(int64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.1D - Vt3.1D},[Xn]`    | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_u64" target="_blank">vld3_dup_u64</a>(uint64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.1D - Vt3.1D},[Xn]`    | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>poly64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_p64" target="_blank">vld3_dup_p64</a>(poly64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.1D - Vt3.1D},[Xn]`    | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `A32/A64`                 |
-| <code>int64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_s64" target="_blank">vld3q_dup_s64</a>(int64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.2D - Vt3.2D},[Xn]`    | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
-| <code>uint64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_u64" target="_blank">vld3q_dup_u64</a>(uint64_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.2D - Vt3.2D},[Xn]`    | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
-| <code>poly64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_p64" target="_blank">vld3q_dup_p64</a>(poly64_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.2D - Vt3.2D},[Xn]`    | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
-| <code>float64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_f64" target="_blank">vld3_dup_f64</a>(float64_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.1D - Vt3.1D},[Xn]`    | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `A64`                     |
-| <code>float64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_f64" target="_blank">vld3q_dup_f64</a>(float64_t const *ptr)</code>                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.2D - Vt3.2D},[Xn]`    | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
-| <code>int8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_s8" target="_blank">vld4_dup_s8</a>(int8_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.8B - Vt4.8B},[Xn]`    | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
-| <code>int8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_s8" target="_blank">vld4q_dup_s8</a>(int8_t const *ptr)</code>                                                                                                                                  | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.16B - Vt4.16B},[Xn]`  | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `v7/A32/A64`              |
-| <code>int16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_s16" target="_blank">vld4_dup_s16</a>(int16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.4H - Vt4.4H},[Xn]`    | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>int16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_s16" target="_blank">vld4q_dup_s16</a>(int16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.8H - Vt4.8H},[Xn]`    | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>int32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_s32" target="_blank">vld4_dup_s32</a>(int32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.2S - Vt4.2S},[Xn]`    | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>int32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_s32" target="_blank">vld4q_dup_s32</a>(int32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.4S - Vt4.4S},[Xn]`    | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_u8" target="_blank">vld4_dup_u8</a>(uint8_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.8B - Vt4.8B},[Xn]`    | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_u8" target="_blank">vld4q_dup_u8</a>(uint8_t const *ptr)</code>                                                                                                                                | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.16B - Vt4.16B},[Xn]`  | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `v7/A32/A64`              |
-| <code>uint16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_u16" target="_blank">vld4_dup_u16</a>(uint16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.4H - Vt4.4H},[Xn]`    | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_u16" target="_blank">vld4q_dup_u16</a>(uint16_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.8H - Vt4.8H},[Xn]`    | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_u32" target="_blank">vld4_dup_u32</a>(uint32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.2S - Vt4.2S},[Xn]`    | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_u32" target="_blank">vld4q_dup_u32</a>(uint32_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.4S - Vt4.4S},[Xn]`    | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>float16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_f16" target="_blank">vld4_dup_f16</a>(float16_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.4H - Vt4.4H},[Xn]`    | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>float16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_f16" target="_blank">vld4q_dup_f16</a>(float16_t const *ptr)</code>                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.8H - Vt4.8H},[Xn]`    | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>float32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_f32" target="_blank">vld4_dup_f32</a>(float32_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.2S - Vt4.2S},[Xn]`    | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>float32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_f32" target="_blank">vld4q_dup_f32</a>(float32_t const *ptr)</code>                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.4S - Vt4.4S},[Xn]`    | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>poly8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_p8" target="_blank">vld4_dup_p8</a>(poly8_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.8B - Vt4.8B},[Xn]`    | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
-| <code>poly8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_p8" target="_blank">vld4q_dup_p8</a>(poly8_t const *ptr)</code>                                                                                                                                | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.16B - Vt4.16B},[Xn]`  | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `v7/A32/A64`              |
-| <code>poly16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_p16" target="_blank">vld4_dup_p16</a>(poly16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.4H - Vt4.4H},[Xn]`    | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>poly16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_p16" target="_blank">vld4q_dup_p16</a>(poly16_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.8H - Vt4.8H},[Xn]`    | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>int64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_s64" target="_blank">vld4_dup_s64</a>(int64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.1D - Vt4.1D},[Xn]`    | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_u64" target="_blank">vld4_dup_u64</a>(uint64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.1D - Vt4.1D},[Xn]`    | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `v7/A32/A64`              |
-| <code>poly64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_p64" target="_blank">vld4_dup_p64</a>(poly64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.1D - Vt4.1D},[Xn]`    | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `A32/A64`                 |
-| <code>int64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_s64" target="_blank">vld4q_dup_s64</a>(int64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.2D - Vt4.2D},[Xn]`    | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
-| <code>uint64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_u64" target="_blank">vld4q_dup_u64</a>(uint64_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.2D - Vt4.2D},[Xn]`    | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
-| <code>poly64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_p64" target="_blank">vld4q_dup_p64</a>(poly64_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.2D - Vt4.2D},[Xn]`    | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
-| <code>float64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_f64" target="_blank">vld4_dup_f64</a>(float64_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.1D - Vt4.1D},[Xn]`    | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `A64`                     |
-| <code>float64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_f64" target="_blank">vld4q_dup_f64</a>(float64_t const *ptr)</code>                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.2D - Vt4.2D},[Xn]`    | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
-| <code>int16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_s16" target="_blank">vld2_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`                                                          | `LD2 {Vt.h - Vt2.h}[lane],[Xn]` | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>int16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_s16" target="_blank">vld2q_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `ptr -> Xn`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`                                                          | `LD2 {Vt.h - Vt2.h}[lane],[Xn]` | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>int32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_s32" target="_blank">vld2_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[1] -> Vt2.2S`<br>`src.val[0] -> Vt.2S`<br>`0 <= lane <= 1`                                                          | `LD2 {Vt.s - Vt2.s}[lane],[Xn]` | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>int32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_s32" target="_blank">vld2q_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `ptr -> Xn`<br>`src.val[1] -> Vt2.4S`<br>`src.val[0] -> Vt.4S`<br>`0 <= lane <= 3`                                                          | `LD2 {Vt.s - Vt2.s}[lane],[Xn]` | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_u16" target="_blank">vld2_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`                                                          | `LD2 {Vt.h - Vt2.h}[lane],[Xn]` | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_u16" target="_blank">vld2q_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `ptr -> Xn`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`                                                          | `LD2 {Vt.h - Vt2.h}[lane],[Xn]` | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_u32" target="_blank">vld2_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[1] -> Vt2.2S`<br>`src.val[0] -> Vt.2S`<br>`0 <= lane <= 1`                                                          | `LD2 {Vt.s - Vt2.s}[lane],[Xn]` | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_u32" target="_blank">vld2q_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `ptr -> Xn`<br>`src.val[1] -> Vt2.4S`<br>`src.val[0] -> Vt.4S`<br>`0 <= lane <= 3`                                                          | `LD2 {Vt.s - Vt2.s}[lane],[Xn]` | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>float16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_f16" target="_blank">vld2_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `ptr -> Xn`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`                                                          | `LD2 {Vt.h - Vt2.h}[lane],[Xn]` | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>float16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_f16" target="_blank">vld2q_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `ptr -> Xn`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`                                                          | `LD2 {Vt.h - Vt2.h}[lane],[Xn]` | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>float32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_f32" target="_blank">vld2_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `ptr -> Xn`<br>`src.val[1] -> Vt2.2S`<br>`src.val[0] -> Vt.2S`<br>`0 <= lane <= 1`                                                          | `LD2 {Vt.s - Vt2.s}[lane],[Xn]` | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>float32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_f32" target="_blank">vld2q_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `ptr -> Xn`<br>`src.val[1] -> Vt2.4S`<br>`src.val[0] -> Vt.4S`<br>`0 <= lane <= 3`                                                          | `LD2 {Vt.s - Vt2.s}[lane],[Xn]` | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>poly16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_p16" target="_blank">vld2_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`                                                          | `LD2 {Vt.h - Vt2.h}[lane],[Xn]` | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>poly16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_p16" target="_blank">vld2q_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `ptr -> Xn`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`                                                          | `LD2 {Vt.h - Vt2.h}[lane],[Xn]` | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>int8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_s8" target="_blank">vld2_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>              | `ptr -> Xn`<br>`src.val[1] -> Vt2.8B`<br>`src.val[0] -> Vt.8B`<br>`0 <= lane <= 7`                                                          | `LD2 {Vt.b - Vt2.b}[lane],[Xn]` | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_u8" target="_blank">vld2_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `ptr -> Xn`<br>`src.val[1] -> Vt2.8B`<br>`src.val[0] -> Vt.8B`<br>`0 <= lane <= 7`                                                          | `LD2 {Vt.b - Vt2.b}[lane],[Xn]` | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>poly8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_p8" target="_blank">vld2_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `ptr -> Xn`<br>`src.val[1] -> Vt2.8B`<br>`src.val[0] -> Vt.8B`<br>`0 <= lane <= 7`                                                          | `LD2 {Vt.b - Vt2.b}[lane],[Xn]` | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>int8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_s8" target="_blank">vld2q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `ptr -> Xn`<br>`src.val[1] -> Vt2.16B`<br>`src.val[0] -> Vt.16B`<br>`0 <= lane <= 15`                                                       | `LD2 {Vt.b - Vt2.b}[lane],[Xn]` | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `A64`                     |
-| <code>uint8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_u8" target="_blank">vld2q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `ptr -> Xn`<br>`src.val[1] -> Vt2.16B`<br>`src.val[0] -> Vt.16B`<br>`0 <= lane <= 15`                                                       | `LD2 {Vt.b - Vt2.b}[lane],[Xn]` | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `A64`                     |
-| <code>poly8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_p8" target="_blank">vld2q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `ptr -> Xn`<br>`src.val[1] -> Vt2.16B`<br>`src.val[0] -> Vt.16B`<br>`0 <= lane <= 15`                                                       | `LD2 {Vt.b - Vt2.b}[lane],[Xn]` | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `A64`                     |
-| <code>int64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_s64" target="_blank">vld2_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`                                                          | `LD2 {Vt.d - Vt2.d}[lane],[Xn]` | `ptr -> Xn`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                | `A64`                     |
-| <code>int64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_s64" target="_blank">vld2q_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `ptr -> Xn`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`                                                          | `LD2 {Vt.d - Vt2.d}[lane],[Xn]` | `ptr -> Xn`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                | `A64`                     |
-| <code>uint64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_u64" target="_blank">vld2_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`                                                          | `LD2 {Vt.d - Vt2.d}[lane],[Xn]` | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `A64`                     |
-| <code>uint64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_u64" target="_blank">vld2q_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `ptr -> Xn`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`                                                          | `LD2 {Vt.d - Vt2.d}[lane],[Xn]` | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
-| <code>poly64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_p64" target="_blank">vld2_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`                                                          | `LD2 {Vt.d - Vt2.d}[lane],[Xn]` | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `A64`                     |
-| <code>poly64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_p64" target="_blank">vld2q_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `ptr -> Xn`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`                                                          | `LD2 {Vt.d - Vt2.d}[lane],[Xn]` | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
-| <code>float64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_f64" target="_blank">vld2_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `ptr -> Xn`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`                                                          | `LD2 {Vt.d - Vt2.d}[lane],[Xn]` | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `A64`                     |
-| <code>float64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_f64" target="_blank">vld2q_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `ptr -> Xn`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`                                                          | `LD2 {Vt.d - Vt2.d}[lane],[Xn]` | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
-| <code>int16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_s16" target="_blank">vld3_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[2] -> Vt3.4H`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`                                | `LD3 {Vt.h - Vt3.h}[lane],[Xn]` | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>int16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_s16" target="_blank">vld3q_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `ptr -> Xn`<br>`src.val[2] -> Vt3.8H`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`                                | `LD3 {Vt.h - Vt3.h}[lane],[Xn]` | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>int32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_s32" target="_blank">vld3_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[2] -> Vt3.2S`<br>`src.val[1] -> Vt2.2S`<br>`src.val[0] -> Vt.2S`<br>`0 <= lane <= 1`                                | `LD3 {Vt.s - Vt3.s}[lane],[Xn]` | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>int32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_s32" target="_blank">vld3q_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `ptr -> Xn`<br>`src.val[2] -> Vt3.4S`<br>`src.val[1] -> Vt2.4S`<br>`src.val[0] -> Vt.4S`<br>`0 <= lane <= 3`                                | `LD3 {Vt.s - Vt3.s}[lane],[Xn]` | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_u16" target="_blank">vld3_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[2] -> Vt3.4H`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`                                | `LD3 {Vt.h - Vt3.h}[lane],[Xn]` | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_u16" target="_blank">vld3q_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `ptr -> Xn`<br>`src.val[2] -> Vt3.8H`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`                                | `LD3 {Vt.h - Vt3.h}[lane],[Xn]` | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_u32" target="_blank">vld3_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[2] -> Vt3.2S`<br>`src.val[1] -> Vt2.2S`<br>`src.val[0] -> Vt.2S`<br>`0 <= lane <= 1`                                | `LD3 {Vt.s - Vt3.s}[lane],[Xn]` | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_u32" target="_blank">vld3q_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `ptr -> Xn`<br>`src.val[2] -> Vt3.4S`<br>`src.val[1] -> Vt2.4S`<br>`src.val[0] -> Vt.4S`<br>`0 <= lane <= 3`                                | `LD3 {Vt.s - Vt3.s}[lane],[Xn]` | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>float16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_f16" target="_blank">vld3_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `ptr -> Xn`<br>`src.val[2] -> Vt3.4H`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`                                | `LD3 {Vt.h - Vt3.h}[lane],[Xn]` | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>float16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_f16" target="_blank">vld3q_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `ptr -> Xn`<br>`src.val[2] -> Vt3.8H`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`                                | `LD3 {Vt.h - Vt3.h}[lane],[Xn]` | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>float32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_f32" target="_blank">vld3_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `ptr -> Xn`<br>`src.val[2] -> Vt3.2S`<br>`src.val[1] -> Vt2.2S`<br>`src.val[0] -> Vt.2S`<br>`0 <= lane <= 1`                                | `LD3 {Vt.s - Vt3.s}[lane],[Xn]` | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>float32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_f32" target="_blank">vld3q_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `ptr -> Xn`<br>`src.val[2] -> Vt3.4S`<br>`src.val[1] -> Vt2.4S`<br>`src.val[0] -> Vt.4S`<br>`0 <= lane <= 3`                                | `LD3 {Vt.s - Vt3.s}[lane],[Xn]` | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>poly16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_p16" target="_blank">vld3_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[2] -> Vt3.4H`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`                                | `LD3 {Vt.h - Vt3.h}[lane],[Xn]` | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>poly16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_p16" target="_blank">vld3q_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `ptr -> Xn`<br>`src.val[2] -> Vt3.8H`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`                                | `LD3 {Vt.h - Vt3.h}[lane],[Xn]` | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>int8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_s8" target="_blank">vld3_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>              | `ptr -> Xn`<br>`src.val[2] -> Vt3.8B`<br>`src.val[1] -> Vt2.8B`<br>`src.val[0] -> Vt.8B`<br>`0 <= lane <= 7`                                | `LD3 {Vt.b - Vt3.b}[lane],[Xn]` | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_u8" target="_blank">vld3_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `ptr -> Xn`<br>`src.val[2] -> Vt3.8B`<br>`src.val[1] -> Vt2.8B`<br>`src.val[0] -> Vt.8B`<br>`0 <= lane <= 7`                                | `LD3 {Vt.b - Vt3.b}[lane],[Xn]` | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>poly8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_p8" target="_blank">vld3_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `ptr -> Xn`<br>`src.val[2] -> Vt3.8B`<br>`src.val[1] -> Vt2.8B`<br>`src.val[0] -> Vt.8B`<br>`0 <= lane <= 7`                                | `LD3 {Vt.b - Vt3.b}[lane],[Xn]` | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>int8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_s8" target="_blank">vld3q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `ptr -> Xn`<br>`src.val[2] -> Vt3.16B`<br>`src.val[1] -> Vt2.16B`<br>`src.val[0] -> Vt.16B`<br>`0 <= lane <= 15`                            | `LD3 {Vt.b - Vt3.b}[lane],[Xn]` | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `A64`                     |
-| <code>uint8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_u8" target="_blank">vld3q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `ptr -> Xn`<br>`src.val[2] -> Vt3.16B`<br>`src.val[1] -> Vt2.16B`<br>`src.val[0] -> Vt.16B`<br>`0 <= lane <= 15`                            | `LD3 {Vt.b - Vt3.b}[lane],[Xn]` | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `A64`                     |
-| <code>poly8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_p8" target="_blank">vld3q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `ptr -> Xn`<br>`src.val[2] -> Vt3.16B`<br>`src.val[1] -> Vt2.16B`<br>`src.val[0] -> Vt.16B`<br>`0 <= lane <= 15`                            | `LD3 {Vt.b - Vt3.b}[lane],[Xn]` | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `A64`                     |
-| <code>int64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_s64" target="_blank">vld3_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[2] -> Vt3.1D`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`                                | `LD3 {Vt.d - Vt3.d}[lane],[Xn]` | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `A64`                     |
-| <code>int64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_s64" target="_blank">vld3q_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `ptr -> Xn`<br>`src.val[2] -> Vt3.2D`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`                                | `LD3 {Vt.d - Vt3.d}[lane],[Xn]` | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
-| <code>uint64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_u64" target="_blank">vld3_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[2] -> Vt3.1D`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`                                | `LD3 {Vt.d - Vt3.d}[lane],[Xn]` | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `A64`                     |
-| <code>uint64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_u64" target="_blank">vld3q_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `ptr -> Xn`<br>`src.val[2] -> Vt3.2D`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`                                | `LD3 {Vt.d - Vt3.d}[lane],[Xn]` | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
-| <code>poly64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_p64" target="_blank">vld3_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[2] -> Vt3.1D`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`                                | `LD3 {Vt.d - Vt3.d}[lane],[Xn]` | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `A64`                     |
-| <code>poly64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_p64" target="_blank">vld3q_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `ptr -> Xn`<br>`src.val[2] -> Vt3.2D`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`                                | `LD3 {Vt.d - Vt3.d}[lane],[Xn]` | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
-| <code>float64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_f64" target="_blank">vld3_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `ptr -> Xn`<br>`src.val[2] -> Vt3.1D`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`                                | `LD3 {Vt.d - Vt3.d}[lane],[Xn]` | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `A64`                     |
-| <code>float64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_f64" target="_blank">vld3q_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `ptr -> Xn`<br>`src.val[2] -> Vt3.2D`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`                                | `LD3 {Vt.d - Vt3.d}[lane],[Xn]` | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
-| <code>int16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_s16" target="_blank">vld4_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[3] -> Vt4.4H`<br>`src.val[2] -> Vt3.4H`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`      | `LD4 {Vt.h - Vt4.h}[lane],[Xn]` | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>int16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_s16" target="_blank">vld4q_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `ptr -> Xn`<br>`src.val[3] -> Vt4.8H`<br>`src.val[2] -> Vt3.8H`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`      | `LD4 {Vt.h - Vt4.h}[lane],[Xn]` | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>int32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_s32" target="_blank">vld4_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[3] -> Vt4.2S`<br>`src.val[2] -> Vt3.2S`<br>`src.val[1] -> Vt2.2S`<br>`src.val[0] -> Vt.2S`<br>`0 <= lane <= 1`      | `LD4 {Vt.s - Vt4.s}[lane],[Xn]` | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>int32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_s32" target="_blank">vld4q_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `ptr -> Xn`<br>`src.val[3] -> Vt4.4S`<br>`src.val[2] -> Vt3.4S`<br>`src.val[1] -> Vt2.4S`<br>`src.val[0] -> Vt.4S`<br>`0 <= lane <= 3`      | `LD4 {Vt.s - Vt4.s}[lane],[Xn]` | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_u16" target="_blank">vld4_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[3] -> Vt4.4H`<br>`src.val[2] -> Vt3.4H`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`      | `LD4 {Vt.h - Vt4.h}[lane],[Xn]` | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_u16" target="_blank">vld4q_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `ptr -> Xn`<br>`src.val[3] -> Vt4.8H`<br>`src.val[2] -> Vt3.8H`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`      | `LD4 {Vt.h - Vt4.h}[lane],[Xn]` | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_u32" target="_blank">vld4_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[3] -> Vt4.2S`<br>`src.val[2] -> Vt3.2S`<br>`src.val[1] -> Vt2.2S`<br>`src.val[0] -> Vt.2S`<br>`0 <= lane <= 1`      | `LD4 {Vt.s - Vt4.s}[lane],[Xn]` | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_u32" target="_blank">vld4q_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `ptr -> Xn`<br>`src.val[3] -> Vt4.4S`<br>`src.val[2] -> Vt3.4S`<br>`src.val[1] -> Vt2.4S`<br>`src.val[0] -> Vt.4S`<br>`0 <= lane <= 3`      | `LD4 {Vt.s - Vt4.s}[lane],[Xn]` | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>float16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_f16" target="_blank">vld4_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `ptr -> Xn`<br>`src.val[3] -> Vt4.4H`<br>`src.val[2] -> Vt3.4H`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`      | `LD4 {Vt.h - Vt4.h}[lane],[Xn]` | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>float16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_f16" target="_blank">vld4q_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `ptr -> Xn`<br>`src.val[3] -> Vt4.8H`<br>`src.val[2] -> Vt3.8H`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`      | `LD4 {Vt.h - Vt4.h}[lane],[Xn]` | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>float32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_f32" target="_blank">vld4_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `ptr -> Xn`<br>`src.val[3] -> Vt4.2S`<br>`src.val[2] -> Vt3.2S`<br>`src.val[1] -> Vt2.2S`<br>`src.val[0] -> Vt.2S`<br>`0 <= lane <= 1`      | `LD4 {Vt.s - Vt4.s}[lane],[Xn]` | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>float32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_f32" target="_blank">vld4q_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `ptr -> Xn`<br>`src.val[3] -> Vt4.4S`<br>`src.val[2] -> Vt3.4S`<br>`src.val[1] -> Vt2.4S`<br>`src.val[0] -> Vt.4S`<br>`0 <= lane <= 3`      | `LD4 {Vt.s - Vt4.s}[lane],[Xn]` | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>poly16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_p16" target="_blank">vld4_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[3] -> Vt4.4H`<br>`src.val[2] -> Vt3.4H`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`      | `LD4 {Vt.h - Vt4.h}[lane],[Xn]` | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>poly16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_p16" target="_blank">vld4q_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `ptr -> Xn`<br>`src.val[3] -> Vt4.8H`<br>`src.val[2] -> Vt3.8H`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`      | `LD4 {Vt.h - Vt4.h}[lane],[Xn]` | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>int8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_s8" target="_blank">vld4_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>              | `ptr -> Xn`<br>`src.val[3] -> Vt4.8B`<br>`src.val[2] -> Vt3.8B`<br>`src.val[1] -> Vt2.8B`<br>`src.val[0] -> Vt.8B`<br>`0 <= lane <= 7`      | `LD4 {Vt.b - Vt4.b}[lane],[Xn]` | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_u8" target="_blank">vld4_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `ptr -> Xn`<br>`src.val[3] -> Vt4.8B`<br>`src.val[2] -> Vt3.8B`<br>`src.val[1] -> Vt2.8B`<br>`src.val[0] -> Vt.8B`<br>`0 <= lane <= 7`      | `LD4 {Vt.b - Vt4.b}[lane],[Xn]` | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
-| <code>poly8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_p8" target="_blank">vld4_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `ptr -> Xn`<br>`src.val[3] -> Vt4.8B`<br>`src.val[2] -> Vt3.8B`<br>`src.val[1] -> Vt2.8B`<br>`src.val[0] -> Vt.8B`<br>`0 <= lane <= 7`      | `LD4 {Vt.b - Vt4.b}[lane],[Xn]` | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
-| <code>int8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_s8" target="_blank">vld4q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `ptr -> Xn`<br>`src.val[3] -> Vt4.16B`<br>`src.val[2] -> Vt3.16B`<br>`src.val[1] -> Vt2.16B`<br>`src.val[0] -> Vt.16B`<br>`0 <= lane <= 15` | `LD4 {Vt.b - Vt4.b}[lane],[Xn]` | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `A64`                     |
-| <code>uint8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_u8" target="_blank">vld4q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `ptr -> Xn`<br>`src.val[3] -> Vt4.16B`<br>`src.val[2] -> Vt3.16B`<br>`src.val[1] -> Vt2.16B`<br>`src.val[0] -> Vt.16B`<br>`0 <= lane <= 15` | `LD4 {Vt.b - Vt4.b}[lane],[Xn]` | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `A64`                     |
-| <code>poly8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_p8" target="_blank">vld4q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `ptr -> Xn`<br>`src.val[3] -> Vt4.16B`<br>`src.val[2] -> Vt3.16B`<br>`src.val[1] -> Vt2.16B`<br>`src.val[0] -> Vt.16B`<br>`0 <= lane <= 15` | `LD4 {Vt.b - Vt4.b}[lane],[Xn]` | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `A64`                     |
-| <code>int64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_s64" target="_blank">vld4_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[3] -> Vt4.1D`<br>`src.val[2] -> Vt3.1D`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`      | `LD4 {Vt.d - Vt4.d}[lane],[Xn]` | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `A64`                     |
-| <code>int64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_s64" target="_blank">vld4q_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `ptr -> Xn`<br>`src.val[3] -> Vt4.2D`<br>`src.val[2] -> Vt3.2D`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`      | `LD4 {Vt.d - Vt4.d}[lane],[Xn]` | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
-| <code>uint64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_u64" target="_blank">vld4_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[3] -> Vt4.1D`<br>`src.val[2] -> Vt3.1D`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`      | `LD4 {Vt.d - Vt4.d}[lane],[Xn]` | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `A64`                     |
-| <code>uint64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_u64" target="_blank">vld4q_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `ptr -> Xn`<br>`src.val[3] -> Vt4.2D`<br>`src.val[2] -> Vt3.2D`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`      | `LD4 {Vt.d - Vt4.d}[lane],[Xn]` | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
-| <code>poly64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_p64" target="_blank">vld4_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[3] -> Vt4.1D`<br>`src.val[2] -> Vt3.1D`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`      | `LD4 {Vt.d - Vt4.d}[lane],[Xn]` | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `A64`                     |
-| <code>poly64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_p64" target="_blank">vld4q_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `ptr -> Xn`<br>`src.val[3] -> Vt4.2D`<br>`src.val[2] -> Vt3.2D`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`      | `LD4 {Vt.d - Vt4.d}[lane],[Xn]` | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
-| <code>float64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_f64" target="_blank">vld4_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `ptr -> Xn`<br>`src.val[3] -> Vt4.1D`<br>`src.val[2] -> Vt3.1D`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`      | `LD4 {Vt.d - Vt4.d}[lane],[Xn]` | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `A64`                     |
-| <code>float64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_f64" target="_blank">vld4q_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `ptr -> Xn`<br>`src.val[3] -> Vt4.2D`<br>`src.val[2] -> Vt3.2D`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`      | `LD4 {Vt.d - Vt4.d}[lane],[Xn]` | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
-| <code>int8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s8_x2" target="_blank">vld1_s8_x2</a>(int8_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B - Vt2.8B},[Xn]`     | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>int8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s8_x2" target="_blank">vld1q_s8_x2</a>(int8_t const *ptr)</code>                                                                                                                                    | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B - Vt2.16B},[Xn]`   | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `v7/A32/A64`              |
-| <code>int16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s16_x2" target="_blank">vld1_s16_x2</a>(int16_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt2.4H},[Xn]`     | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>int16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s16_x2" target="_blank">vld1q_s16_x2</a>(int16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt2.8H},[Xn]`     | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>int32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s32_x2" target="_blank">vld1_s32_x2</a>(int32_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S - Vt2.2S},[Xn]`     | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>int32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s32_x2" target="_blank">vld1q_s32_x2</a>(int32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S - Vt2.4S},[Xn]`     | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u8_x2" target="_blank">vld1_u8_x2</a>(uint8_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B - Vt2.8B},[Xn]`     | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u8_x2" target="_blank">vld1q_u8_x2</a>(uint8_t const *ptr)</code>                                                                                                                                  | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B - Vt2.16B},[Xn]`   | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `v7/A32/A64`              |
-| <code>uint16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u16_x2" target="_blank">vld1_u16_x2</a>(uint16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt2.4H},[Xn]`     | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u16_x2" target="_blank">vld1q_u16_x2</a>(uint16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt2.8H},[Xn]`     | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u32_x2" target="_blank">vld1_u32_x2</a>(uint32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S - Vt2.2S},[Xn]`     | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u32_x2" target="_blank">vld1q_u32_x2</a>(uint32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S - Vt2.4S},[Xn]`     | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>float16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f16_x2" target="_blank">vld1_f16_x2</a>(float16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt2.4H},[Xn]`     | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>float16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f16_x2" target="_blank">vld1q_f16_x2</a>(float16_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt2.8H},[Xn]`     | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>float32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f32_x2" target="_blank">vld1_f32_x2</a>(float32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S - Vt2.2S},[Xn]`     | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>float32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f32_x2" target="_blank">vld1q_f32_x2</a>(float32_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S - Vt2.4S},[Xn]`     | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>poly8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p8_x2" target="_blank">vld1_p8_x2</a>(poly8_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B - Vt2.8B},[Xn]`     | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>poly8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p8_x2" target="_blank">vld1q_p8_x2</a>(poly8_t const *ptr)</code>                                                                                                                                  | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B - Vt2.16B},[Xn]`   | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `v7/A32/A64`              |
-| <code>poly16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p16_x2" target="_blank">vld1_p16_x2</a>(poly16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt2.4H},[Xn]`     | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>poly16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p16_x2" target="_blank">vld1q_p16_x2</a>(poly16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt2.8H},[Xn]`     | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>int64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s64_x2" target="_blank">vld1_s64_x2</a>(int64_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt2.1D},[Xn]`     | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u64_x2" target="_blank">vld1_u64_x2</a>(uint64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt2.1D},[Xn]`     | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>poly64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p64_x2" target="_blank">vld1_p64_x2</a>(poly64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt2.1D},[Xn]`     | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `A32/A64`                 |
-| <code>int64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s64_x2" target="_blank">vld1q_s64_x2</a>(int64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt2.2D},[Xn]`     | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>uint64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u64_x2" target="_blank">vld1q_u64_x2</a>(uint64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt2.2D},[Xn]`     | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `v7/A32/A64`              |
-| <code>poly64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p64_x2" target="_blank">vld1q_p64_x2</a>(poly64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt2.2D},[Xn]`     | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A32/A64`                 |
-| <code>float64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f64_x2" target="_blank">vld1_f64_x2</a>(float64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt2.1D},[Xn]`     | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `A64`                     |
-| <code>float64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f64_x2" target="_blank">vld1q_f64_x2</a>(float64_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt2.2D},[Xn]`     | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
-| <code>int8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s8_x3" target="_blank">vld1_s8_x3</a>(int8_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B - Vt3.8B},[Xn]`     | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>int8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s8_x3" target="_blank">vld1q_s8_x3</a>(int8_t const *ptr)</code>                                                                                                                                    | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B - Vt3.16B},[Xn]`   | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `v7/A32/A64`              |
-| <code>int16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s16_x3" target="_blank">vld1_s16_x3</a>(int16_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt3.4H},[Xn]`     | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>int16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s16_x3" target="_blank">vld1q_s16_x3</a>(int16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt3.8H},[Xn]`     | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>int32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s32_x3" target="_blank">vld1_s32_x3</a>(int32_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S - Vt3.2S},[Xn]`     | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>int32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s32_x3" target="_blank">vld1q_s32_x3</a>(int32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S - Vt3.4S},[Xn]`     | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u8_x3" target="_blank">vld1_u8_x3</a>(uint8_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B - Vt3.8B},[Xn]`     | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u8_x3" target="_blank">vld1q_u8_x3</a>(uint8_t const *ptr)</code>                                                                                                                                  | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B - Vt3.16B},[Xn]`   | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `v7/A32/A64`              |
-| <code>uint16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u16_x3" target="_blank">vld1_u16_x3</a>(uint16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt3.4H},[Xn]`     | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u16_x3" target="_blank">vld1q_u16_x3</a>(uint16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt3.8H},[Xn]`     | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u32_x3" target="_blank">vld1_u32_x3</a>(uint32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S - Vt3.2S},[Xn]`     | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u32_x3" target="_blank">vld1q_u32_x3</a>(uint32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S - Vt3.4S},[Xn]`     | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>float16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f16_x3" target="_blank">vld1_f16_x3</a>(float16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt3.4H},[Xn]`     | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>float16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f16_x3" target="_blank">vld1q_f16_x3</a>(float16_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt3.8H},[Xn]`     | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>float32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f32_x3" target="_blank">vld1_f32_x3</a>(float32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S - Vt3.2S},[Xn]`     | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>float32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f32_x3" target="_blank">vld1q_f32_x3</a>(float32_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S - Vt3.4S},[Xn]`     | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>poly8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p8_x3" target="_blank">vld1_p8_x3</a>(poly8_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B - Vt3.8B},[Xn]`     | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>poly8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p8_x3" target="_blank">vld1q_p8_x3</a>(poly8_t const *ptr)</code>                                                                                                                                  | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B - Vt3.16B},[Xn]`   | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `v7/A32/A64`              |
-| <code>poly16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p16_x3" target="_blank">vld1_p16_x3</a>(poly16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt3.4H},[Xn]`     | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>poly16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p16_x3" target="_blank">vld1q_p16_x3</a>(poly16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt3.8H},[Xn]`     | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>int64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s64_x3" target="_blank">vld1_s64_x3</a>(int64_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt3.1D},[Xn]`     | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u64_x3" target="_blank">vld1_u64_x3</a>(uint64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt3.1D},[Xn]`     | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>poly64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p64_x3" target="_blank">vld1_p64_x3</a>(poly64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt3.1D},[Xn]`     | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `A32/A64`                 |
-| <code>int64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s64_x3" target="_blank">vld1q_s64_x3</a>(int64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt3.2D},[Xn]`     | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>uint64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u64_x3" target="_blank">vld1q_u64_x3</a>(uint64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt3.2D},[Xn]`     | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `v7/A32/A64`              |
-| <code>poly64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p64_x3" target="_blank">vld1q_p64_x3</a>(poly64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt3.2D},[Xn]`     | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A32/A64`                 |
-| <code>float64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f64_x3" target="_blank">vld1_f64_x3</a>(float64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt3.1D},[Xn]`     | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `A64`                     |
-| <code>float64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f64_x3" target="_blank">vld1q_f64_x3</a>(float64_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt3.2D},[Xn]`     | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
-| <code>int8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s8_x4" target="_blank">vld1_s8_x4</a>(int8_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B - Vt4.8B},[Xn]`     | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
-| <code>int8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s8_x4" target="_blank">vld1q_s8_x4</a>(int8_t const *ptr)</code>                                                                                                                                    | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B - Vt4.16B},[Xn]`   | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `v7/A32/A64`              |
-| <code>int16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s16_x4" target="_blank">vld1_s16_x4</a>(int16_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt4.4H},[Xn]`     | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>int16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s16_x4" target="_blank">vld1q_s16_x4</a>(int16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt4.8H},[Xn]`     | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>int32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s32_x4" target="_blank">vld1_s32_x4</a>(int32_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S - Vt4.2S},[Xn]`     | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>int32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s32_x4" target="_blank">vld1q_s32_x4</a>(int32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S - Vt4.4S},[Xn]`     | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u8_x4" target="_blank">vld1_u8_x4</a>(uint8_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B - Vt4.8B},[Xn]`     | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u8_x4" target="_blank">vld1q_u8_x4</a>(uint8_t const *ptr)</code>                                                                                                                                  | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B - Vt4.16B},[Xn]`   | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `v7/A32/A64`              |
-| <code>uint16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u16_x4" target="_blank">vld1_u16_x4</a>(uint16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt4.4H},[Xn]`     | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u16_x4" target="_blank">vld1q_u16_x4</a>(uint16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt4.8H},[Xn]`     | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u32_x4" target="_blank">vld1_u32_x4</a>(uint32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S - Vt4.2S},[Xn]`     | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u32_x4" target="_blank">vld1q_u32_x4</a>(uint32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S - Vt4.4S},[Xn]`     | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>float16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f16_x4" target="_blank">vld1_f16_x4</a>(float16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt4.4H},[Xn]`     | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>float16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f16_x4" target="_blank">vld1q_f16_x4</a>(float16_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt4.8H},[Xn]`     | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>float32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f32_x4" target="_blank">vld1_f32_x4</a>(float32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S - Vt4.2S},[Xn]`     | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>float32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f32_x4" target="_blank">vld1q_f32_x4</a>(float32_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S - Vt4.4S},[Xn]`     | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
-| <code>poly8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p8_x4" target="_blank">vld1_p8_x4</a>(poly8_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B - Vt4.8B},[Xn]`     | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
-| <code>poly8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p8_x4" target="_blank">vld1q_p8_x4</a>(poly8_t const *ptr)</code>                                                                                                                                  | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B - Vt4.16B},[Xn]`   | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `v7/A32/A64`              |
-| <code>poly16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p16_x4" target="_blank">vld1_p16_x4</a>(poly16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt4.4H},[Xn]`     | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>poly16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p16_x4" target="_blank">vld1q_p16_x4</a>(poly16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt4.8H},[Xn]`     | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
-| <code>int64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s64_x4" target="_blank">vld1_s64_x4</a>(int64_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt4.1D},[Xn]`     | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u64_x4" target="_blank">vld1_u64_x4</a>(uint64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt4.1D},[Xn]`     | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `v7/A32/A64`              |
-| <code>poly64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p64_x4" target="_blank">vld1_p64_x4</a>(poly64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt4.1D},[Xn]`     | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `A32/A64`                 |
-| <code>int64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s64_x4" target="_blank">vld1q_s64_x4</a>(int64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt4.2D},[Xn]`     | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `v7/A32/A64`              |
-| <code>uint64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u64_x4" target="_blank">vld1q_u64_x4</a>(uint64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt4.2D},[Xn]`     | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `v7/A32/A64`              |
-| <code>poly64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p64_x4" target="_blank">vld1q_p64_x4</a>(poly64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt4.2D},[Xn]`     | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A32/A64`                 |
-| <code>float64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f64_x4" target="_blank">vld1_f64_x4</a>(float64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt4.1D},[Xn]`     | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `A64`                     |
-| <code>float64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f64_x4" target="_blank">vld1q_f64_x4</a>(float64_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt4.2D},[Xn]`     | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
+| Intrinsic                                                                                                                                                                                                                                                                                                  | Argument preparation                                                                                                                        | AArch64 Instruction             | Result                                                                                                              | Supported architectures   |
+|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------|---------------------------------------------------------------------------------------------------------------------|---------------------------|
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s8" target="_blank">vld1_s8</a>(int8_t const *ptr)</code>                                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B},[Xn]`              | `Vt.8B -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s8" target="_blank">vld1q_s8</a>(int8_t const *ptr)</code>                                                                                                                                              | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B},[Xn]`             | `Vt.16B -> result`                                                                                                  | `v7/A32/A64`              |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s16" target="_blank">vld1_s16</a>(int16_t const *ptr)</code>                                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H},[Xn]`              | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s16" target="_blank">vld1q_s16</a>(int16_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H},[Xn]`              | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s32" target="_blank">vld1_s32</a>(int32_t const *ptr)</code>                                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S},[Xn]`              | `Vt.2S -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s32" target="_blank">vld1q_s32</a>(int32_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S},[Xn]`              | `Vt.4S -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s64" target="_blank">vld1_s64</a>(int64_t const *ptr)</code>                                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D},[Xn]`              | `Vt.1D -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s64" target="_blank">vld1q_s64</a>(int64_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D},[Xn]`              | `Vt.2D -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u8" target="_blank">vld1_u8</a>(uint8_t const *ptr)</code>                                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B},[Xn]`              | `Vt.8B -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u8" target="_blank">vld1q_u8</a>(uint8_t const *ptr)</code>                                                                                                                                            | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B},[Xn]`             | `Vt.16B -> result`                                                                                                  | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u16" target="_blank">vld1_u16</a>(uint16_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H},[Xn]`              | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u16" target="_blank">vld1q_u16</a>(uint16_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H},[Xn]`              | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u32" target="_blank">vld1_u32</a>(uint32_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S},[Xn]`              | `Vt.2S -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u32" target="_blank">vld1q_u32</a>(uint32_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S},[Xn]`              | `Vt.4S -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u64" target="_blank">vld1_u64</a>(uint64_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D},[Xn]`              | `Vt.1D -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u64" target="_blank">vld1q_u64</a>(uint64_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D},[Xn]`              | `Vt.2D -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p64" target="_blank">vld1_p64</a>(poly64_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D},[Xn]`              | `Vt.1D -> result`                                                                                                   | `A32/A64`                 |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p64" target="_blank">vld1q_p64</a>(poly64_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D},[Xn]`              | `Vt.2D -> result`                                                                                                   | `A32/A64`                 |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f16" target="_blank">vld1_f16</a>(float16_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H},[Xn]`              | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f16" target="_blank">vld1q_f16</a>(float16_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H},[Xn]`              | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f32" target="_blank">vld1_f32</a>(float32_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S},[Xn]`              | `Vt.2S -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f32" target="_blank">vld1q_f32</a>(float32_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S},[Xn]`              | `Vt.4S -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p8" target="_blank">vld1_p8</a>(poly8_t const *ptr)</code>                                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B},[Xn]`              | `Vt.8B -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p8" target="_blank">vld1q_p8</a>(poly8_t const *ptr)</code>                                                                                                                                            | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B},[Xn]`             | `Vt.16B -> result`                                                                                                  | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p16" target="_blank">vld1_p16</a>(poly16_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H},[Xn]`              | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p16" target="_blank">vld1q_p16</a>(poly16_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H},[Xn]`              | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f64" target="_blank">vld1_f64</a>(float64_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D},[Xn]`              | `Vt.1D -> result`                                                                                                   | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f64" target="_blank">vld1q_f64</a>(float64_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D},[Xn]`              | `Vt.2D -> result`                                                                                                   | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_mf8" target="_blank">vld1_mf8</a>(mfloat8_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B},[Xn]`              | `Vt.8B -> result`                                                                                                   | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_mf8" target="_blank">vld1q_mf8</a>(mfloat8_t const *ptr)</code>                                                                                                                                      | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B},[Xn]`             | `Vt.16B -> result`                                                                                                  | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_s8" target="_blank">vld1_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                    | `ptr -> Xn`<br>`src -> Vt.8B`<br>`0 <= lane <= 7`                                                                                           | `LD1 {Vt.b}[lane],[Xn]`         | `Vt.8B -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_s8" target="_blank">vld1q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                | `ptr -> Xn`<br>`src -> Vt.16B`<br>`0 <= lane <= 15`                                                                                         | `LD1 {Vt.b}[lane],[Xn]`         | `Vt.16B -> result`                                                                                                  | `v7/A32/A64`              |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_s16" target="_blank">vld1_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>               | `ptr -> Xn`<br>`src -> Vt.4H`<br>`0 <= lane <= 3`                                                                                           | `LD1 {Vt.H}[lane],[Xn]`         | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_s16" target="_blank">vld1q_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `ptr -> Xn`<br>`src -> Vt.8H`<br>`0 <= lane <= 7`                                                                                           | `LD1 {Vt.H}[lane],[Xn]`         | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_s32" target="_blank">vld1_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>               | `ptr -> Xn`<br>`src -> Vt.2S`<br>`0 <= lane <= 1`                                                                                           | `LD1 {Vt.S}[lane],[Xn]`         | `Vt.2S -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_s32" target="_blank">vld1q_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `ptr -> Xn`<br>`src -> Vt.4S`<br>`0 <= lane <= 3`                                                                                           | `LD1 {Vt.S}[lane],[Xn]`         | `Vt.4S -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_s64" target="_blank">vld1_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>               | `ptr -> Xn`<br>`src -> Vt.1D`<br>`0 <= lane <= 0`                                                                                           | `LD1 {Vt.D}[lane],[Xn]`         | `Vt.1D -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_s64" target="_blank">vld1q_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `ptr -> Xn`<br>`src -> Vt.2D`<br>`0 <= lane <= 1`                                                                                           | `LD1 {Vt.D}[lane],[Xn]`         | `Vt.2D -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_u8" target="_blank">vld1_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                 | `ptr -> Xn`<br>`src -> Vt.8B`<br>`0 <= lane <= 7`                                                                                           | `LD1 {Vt.B}[lane],[Xn]`         | `Vt.8B -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_u8" target="_blank">vld1q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `ptr -> Xn`<br>`src -> Vt.16B`<br>`0 <= lane <= 15`                                                                                         | `LD1 {Vt.B}[lane],[Xn]`         | `Vt.16B -> result`                                                                                                  | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_u16" target="_blank">vld1_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>            | `ptr -> Xn`<br>`src -> Vt.4H`<br>`0 <= lane <= 3`                                                                                           | `LD1 {Vt.H}[lane],[Xn]`         | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_u16" target="_blank">vld1q_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `ptr -> Xn`<br>`src -> Vt.8H`<br>`0 <= lane <= 7`                                                                                           | `LD1 {Vt.H}[lane],[Xn]`         | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_u32" target="_blank">vld1_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>            | `ptr -> Xn`<br>`src -> Vt.2S`<br>`0 <= lane <= 1`                                                                                           | `LD1 {Vt.S}[lane],[Xn]`         | `Vt.2S -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_u32" target="_blank">vld1q_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `ptr -> Xn`<br>`src -> Vt.4S`<br>`0 <= lane <= 3`                                                                                           | `LD1 {Vt.S}[lane],[Xn]`         | `Vt.4S -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_u64" target="_blank">vld1_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>            | `ptr -> Xn`<br>`src -> Vt.1D`<br>`0 <= lane <= 0`                                                                                           | `LD1 {Vt.D}[lane],[Xn]`         | `Vt.1D -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_u64" target="_blank">vld1q_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `ptr -> Xn`<br>`src -> Vt.2D`<br>`0 <= lane <= 1`                                                                                           | `LD1 {Vt.D}[lane],[Xn]`         | `Vt.2D -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_p64" target="_blank">vld1_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>            | `ptr -> Xn`<br>`src -> Vt.1D`<br>`0 <= lane <= 0`                                                                                           | `LD1 {Vt.D}[lane],[Xn]`         | `Vt.1D -> result`                                                                                                   | `A32/A64`                 |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_p64" target="_blank">vld1q_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `ptr -> Xn`<br>`src -> Vt.2D`<br>`0 <= lane <= 1`                                                                                           | `LD1 {Vt.D}[lane],[Xn]`         | `Vt.2D -> result`                                                                                                   | `A32/A64`                 |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_f16" target="_blank">vld1_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src -> Vt.4H`<br>`0 <= lane <= 3`                                                                                           | `LD1 {Vt.H}[lane],[Xn]`         | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_f16" target="_blank">vld1q_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `ptr -> Xn`<br>`src -> Vt.8H`<br>`0 <= lane <= 7`                                                                                           | `LD1 {Vt.H}[lane],[Xn]`         | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_f32" target="_blank">vld1_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src -> Vt.2S`<br>`0 <= lane <= 1`                                                                                           | `LD1 {Vt.S}[lane],[Xn]`         | `Vt.2S -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_f32" target="_blank">vld1q_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `ptr -> Xn`<br>`src -> Vt.4S`<br>`0 <= lane <= 3`                                                                                           | `LD1 {Vt.S}[lane],[Xn]`         | `Vt.4S -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_p8" target="_blank">vld1_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                 | `ptr -> Xn`<br>`src -> Vt.8B`<br>`0 <= lane <= 7`                                                                                           | `LD1 {Vt.B}[lane],[Xn]`         | `Vt.8B -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_p8" target="_blank">vld1q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `ptr -> Xn`<br>`src -> Vt.16B`<br>`0 <= lane <= 15`                                                                                         | `LD1 {Vt.B}[lane],[Xn]`         | `Vt.16B -> result`                                                                                                  | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_p16" target="_blank">vld1_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>            | `ptr -> Xn`<br>`src -> Vt.4H`<br>`0 <= lane <= 3`                                                                                           | `LD1 {Vt.H}[lane],[Xn]`         | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_p16" target="_blank">vld1q_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `ptr -> Xn`<br>`src -> Vt.8H`<br>`0 <= lane <= 7`                                                                                           | `LD1 {Vt.H}[lane],[Xn]`         | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_f64" target="_blank">vld1_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src -> Vt.1D`<br>`0 <= lane <= 0`                                                                                           | `LD1 {Vt.D}[lane],[Xn]`         | `Vt.1D -> result`                                                                                                   | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_f64" target="_blank">vld1q_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `ptr -> Xn`<br>`src -> Vt.2D`<br>`0 <= lane <= 1`                                                                                           | `LD1 {Vt.D}[lane],[Xn]`         | `Vt.2D -> result`                                                                                                   | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_lane_mf8" target="_blank">vld1_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src -> Vt.8B`<br>`0 <= lane <= 7`                                                                                           | `LD1 {Vt.b}[lane],[Xn]`         | `Vt.8B -> result`                                                                                                   | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_lane_mf8" target="_blank">vld1q_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `ptr -> Xn`<br>`src -> Vt.16B`<br>`0 <= lane <= 15`                                                                                         | `LD1 {Vt.b}[lane],[Xn]`         | `Vt.16B -> result`                                                                                                  | `A64`                     |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vldap1_lane_u64" target="_blank">vldap1_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `ptr -> Xn`<br>`src -> Vt.1D`<br>`0 <= lane <= 0`                                                                                           | `LDAP1 {Vt.D}[lane],[Xn]`       | `Vt.1D -> result`                                                                                                   | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vldap1q_lane_u64" target="_blank">vldap1q_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src -> Vt.2D`<br>`0 <= lane <= 1`                                                                                           | `LDAP1 {Vt.D}[lane],[Xn]`       | `Vt.2D -> result`                                                                                                   | `A64`                     |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vldap1_lane_s64" target="_blank">vldap1_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `ptr -> Xn`<br>`src -> Vt.1D`<br>`0 <= lane <= 0`                                                                                           | `LDAP1 {Vt.D}[lane],[Xn]`       | `Vt.1D -> result`                                                                                                   | `A64`                     |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vldap1q_lane_s64" target="_blank">vldap1q_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src -> Vt.2D`<br>`0 <= lane <= 1`                                                                                           | `LDAP1 {Vt.D}[lane],[Xn]`       | `Vt.2D -> result`                                                                                                   | `A64`                     |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vldap1_lane_f64" target="_blank">vldap1_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `ptr -> Xn`<br>`src -> Vt.1D`<br>`0 <= lane <= 0`                                                                                           | `LDAP1 {Vt.D}[lane],[Xn]`       | `Vt.1D -> result`                                                                                                   | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vldap1q_lane_f64" target="_blank">vldap1q_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `ptr -> Xn`<br>`src -> Vt.2D`<br>`0 <= lane <= 1`                                                                                           | `LDAP1 {Vt.D}[lane],[Xn]`       | `Vt.2D -> result`                                                                                                   | `A64`                     |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vldap1_lane_p64" target="_blank">vldap1_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `ptr -> Xn`<br>`src -> Vt.1D`<br>`0 <= lane <= 0`                                                                                           | `LDAP1 {Vt.D}[lane],[Xn]`       | `Vt.1D -> result`                                                                                                   | `A64`                     |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vldap1q_lane_p64" target="_blank">vldap1q_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src -> Vt.2D`<br>`0 <= lane <= 1`                                                                                           | `LDAP1 {Vt.D}[lane],[Xn]`       | `Vt.2D -> result`                                                                                                   | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_s8" target="_blank">vld1_dup_s8</a>(int8_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.8B},[Xn]`             | `Vt.8B -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_s8" target="_blank">vld1q_dup_s8</a>(int8_t const *ptr)</code>                                                                                                                                      | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.16B},[Xn]`            | `Vt.16B -> result`                                                                                                  | `v7/A32/A64`              |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_s16" target="_blank">vld1_dup_s16</a>(int16_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.4H},[Xn]`             | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_s16" target="_blank">vld1q_dup_s16</a>(int16_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.8H},[Xn]`             | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_s32" target="_blank">vld1_dup_s32</a>(int32_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.2S},[Xn]`             | `Vt.2S -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_s32" target="_blank">vld1q_dup_s32</a>(int32_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.4S},[Xn]`             | `Vt.4S -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_s64" target="_blank">vld1_dup_s64</a>(int64_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D},[Xn]`              | `Vt.1D -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_s64" target="_blank">vld1q_dup_s64</a>(int64_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.2D},[Xn]`             | `Vt.2D -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_u8" target="_blank">vld1_dup_u8</a>(uint8_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.8B},[Xn]`             | `Vt.8B -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_u8" target="_blank">vld1q_dup_u8</a>(uint8_t const *ptr)</code>                                                                                                                                    | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.16B},[Xn]`            | `Vt.16B -> result`                                                                                                  | `v7/A32/A64`              |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_u16" target="_blank">vld1_dup_u16</a>(uint16_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.4H},[Xn]`             | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_u16" target="_blank">vld1q_dup_u16</a>(uint16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.8H},[Xn]`             | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_u32" target="_blank">vld1_dup_u32</a>(uint32_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.2S},[Xn]`             | `Vt.2S -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_u32" target="_blank">vld1q_dup_u32</a>(uint32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.4S},[Xn]`             | `Vt.4S -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_u64" target="_blank">vld1_dup_u64</a>(uint64_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D},[Xn]`              | `Vt.1D -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_u64" target="_blank">vld1q_dup_u64</a>(uint64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.2D},[Xn]`             | `Vt.2D -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_p64" target="_blank">vld1_dup_p64</a>(poly64_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D},[Xn]`              | `Vt.1D -> result`                                                                                                   | `A32/A64`                 |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_p64" target="_blank">vld1q_dup_p64</a>(poly64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.2D},[Xn]`             | `Vt.2D -> result`                                                                                                   | `A32/A64`                 |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_f16" target="_blank">vld1_dup_f16</a>(float16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.4H},[Xn]`             | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_f16" target="_blank">vld1q_dup_f16</a>(float16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.8H},[Xn]`             | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_f32" target="_blank">vld1_dup_f32</a>(float32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.2S},[Xn]`             | `Vt.2S -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_f32" target="_blank">vld1q_dup_f32</a>(float32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.4S},[Xn]`             | `Vt.4S -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_p8" target="_blank">vld1_dup_p8</a>(poly8_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.8B},[Xn]`             | `Vt.8B -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_p8" target="_blank">vld1q_dup_p8</a>(poly8_t const *ptr)</code>                                                                                                                                    | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.16B},[Xn]`            | `Vt.16B -> result`                                                                                                  | `v7/A32/A64`              |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_p16" target="_blank">vld1_dup_p16</a>(poly16_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.4H},[Xn]`             | `Vt.4H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_p16" target="_blank">vld1q_dup_p16</a>(poly16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.8H},[Xn]`             | `Vt.8H -> result`                                                                                                   | `v7/A32/A64`              |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_f64" target="_blank">vld1_dup_f64</a>(float64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D},[Xn]`              | `Vt.1D -> result`                                                                                                   | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_f64" target="_blank">vld1q_dup_f64</a>(float64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.2D},[Xn]`             | `Vt.2D -> result`                                                                                                   | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_dup_mf8" target="_blank">vld1_dup_mf8</a>(mfloat8_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.8B},[Xn]`             | `Vt.8B -> result`                                                                                                   | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_dup_mf8" target="_blank">vld1q_dup_mf8</a>(mfloat8_t const *ptr)</code>                                                                                                                              | `ptr -> Xn`                                                                                                                                 | `LD1R {Vt.16B},[Xn]`            | `Vt.16B -> result`                                                                                                  | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vstl1_lane_u64" target="_blank">vstl1_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                      | `val -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                                                           | `STL1 {Vt.d}[lane],[Xn]`        |                                                                                                                     | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vstl1q_lane_u64" target="_blank">vstl1q_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                    | `val -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                                                           | `STL1 {Vt.d}[lane],[Xn]`        |                                                                                                                     | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vstl1_lane_s64" target="_blank">vstl1_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                        | `val -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                                                           | `STL1 {Vt.d}[lane],[Xn]`        |                                                                                                                     | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vstl1q_lane_s64" target="_blank">vstl1q_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                      | `val -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                                                           | `STL1 {Vt.d}[lane],[Xn]`        |                                                                                                                     | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vstl1_lane_f64" target="_blank">vstl1_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                    | `val -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                                                           | `STL1 {Vt.d}[lane],[Xn]`        |                                                                                                                     | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vstl1q_lane_f64" target="_blank">vstl1q_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                  | `val -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                                                           | `STL1 {Vt.d}[lane],[Xn]`        |                                                                                                                     | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vstl1_lane_p64" target="_blank">vstl1_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                      | `val -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                                                           | `STL1 {Vt.d}[lane],[Xn]`        |                                                                                                                     | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vstl1q_lane_p64" target="_blank">vstl1q_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                    | `val -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                                                           | `STL1 {Vt.d}[lane],[Xn]`        |                                                                                                                     | `A64`                     |
+| <code>int8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_s8" target="_blank">vld2_s8</a>(int8_t const *ptr)</code>                                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.8B - Vt2.8B},[Xn]`     | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>int8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_s8" target="_blank">vld2q_s8</a>(int8_t const *ptr)</code>                                                                                                                                            | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.16B - Vt2.16B},[Xn]`   | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `v7/A32/A64`              |
+| <code>int16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_s16" target="_blank">vld2_s16</a>(int16_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.4H - Vt2.4H},[Xn]`     | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>int16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_s16" target="_blank">vld2q_s16</a>(int16_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.8H - Vt2.8H},[Xn]`     | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>int32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_s32" target="_blank">vld2_s32</a>(int32_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.2S - Vt2.2S},[Xn]`     | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>int32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_s32" target="_blank">vld2q_s32</a>(int32_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.4S - Vt2.4S},[Xn]`     | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_u8" target="_blank">vld2_u8</a>(uint8_t const *ptr)</code>                                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.8B - Vt2.8B},[Xn]`     | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_u8" target="_blank">vld2q_u8</a>(uint8_t const *ptr)</code>                                                                                                                                          | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.16B - Vt2.16B},[Xn]`   | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `v7/A32/A64`              |
+| <code>uint16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_u16" target="_blank">vld2_u16</a>(uint16_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.4H - Vt2.4H},[Xn]`     | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_u16" target="_blank">vld2q_u16</a>(uint16_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.8H - Vt2.8H},[Xn]`     | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_u32" target="_blank">vld2_u32</a>(uint32_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.2S - Vt2.2S},[Xn]`     | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_u32" target="_blank">vld2q_u32</a>(uint32_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.4S - Vt2.4S},[Xn]`     | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>float16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_f16" target="_blank">vld2_f16</a>(float16_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.4H - Vt2.4H},[Xn]`     | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>float16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_f16" target="_blank">vld2q_f16</a>(float16_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.8H - Vt2.8H},[Xn]`     | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>float32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_f32" target="_blank">vld2_f32</a>(float32_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.2S - Vt2.2S},[Xn]`     | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>float32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_f32" target="_blank">vld2q_f32</a>(float32_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.4S - Vt2.4S},[Xn]`     | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>poly8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_p8" target="_blank">vld2_p8</a>(poly8_t const *ptr)</code>                                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.8B - Vt2.8B},[Xn]`     | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>poly8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_p8" target="_blank">vld2q_p8</a>(poly8_t const *ptr)</code>                                                                                                                                          | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.16B - Vt2.16B},[Xn]`   | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `v7/A32/A64`              |
+| <code>poly16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_p16" target="_blank">vld2_p16</a>(poly16_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.4H - Vt2.4H},[Xn]`     | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>poly16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_p16" target="_blank">vld2q_p16</a>(poly16_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.8H - Vt2.8H},[Xn]`     | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>int64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_s64" target="_blank">vld2_s64</a>(int64_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt2.1D},[Xn]`     | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_u64" target="_blank">vld2_u64</a>(uint64_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt2.1D},[Xn]`     | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>poly64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_p64" target="_blank">vld2_p64</a>(poly64_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt2.1D},[Xn]`     | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `A32/A64`                 |
+| <code>int64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_s64" target="_blank">vld2q_s64</a>(int64_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.2D - Vt2.2D},[Xn]`     | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
+| <code>uint64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_u64" target="_blank">vld2q_u64</a>(uint64_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.2D - Vt2.2D},[Xn]`     | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
+| <code>poly64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_p64" target="_blank">vld2q_p64</a>(poly64_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.2D - Vt2.2D},[Xn]`     | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
+| <code>float64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_f64" target="_blank">vld2_f64</a>(float64_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt2.1D},[Xn]`     | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `A64`                     |
+| <code>float64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_f64" target="_blank">vld2q_f64</a>(float64_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.2D - Vt2.2D},[Xn]`     | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
+| <code>mfloat8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_mf8" target="_blank">vld2_mf8</a>(mfloat8_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.8B - Vt2.8B},[Xn]`     | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `A64`                     |
+| <code>mfloat8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_mf8" target="_blank">vld2q_mf8</a>(mfloat8_t const *ptr)</code>                                                                                                                                    | `ptr -> Xn`                                                                                                                                 | `LD2 {Vt.16B - Vt2.16B},[Xn]`   | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `A64`                     |
+| <code>int8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_s8" target="_blank">vld3_s8</a>(int8_t const *ptr)</code>                                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.8B - Vt3.8B},[Xn]`     | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>int8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_s8" target="_blank">vld3q_s8</a>(int8_t const *ptr)</code>                                                                                                                                            | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.16B - Vt3.16B},[Xn]`   | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `v7/A32/A64`              |
+| <code>int16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_s16" target="_blank">vld3_s16</a>(int16_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.4H - Vt3.4H},[Xn]`     | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>int16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_s16" target="_blank">vld3q_s16</a>(int16_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.8H - Vt3.8H},[Xn]`     | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>int32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_s32" target="_blank">vld3_s32</a>(int32_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.2S - Vt3.2S},[Xn]`     | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>int32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_s32" target="_blank">vld3q_s32</a>(int32_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.4S - Vt3.4S},[Xn]`     | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_u8" target="_blank">vld3_u8</a>(uint8_t const *ptr)</code>                                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.8B - Vt3.8B},[Xn]`     | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_u8" target="_blank">vld3q_u8</a>(uint8_t const *ptr)</code>                                                                                                                                          | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.16B - Vt3.16B},[Xn]`   | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `v7/A32/A64`              |
+| <code>uint16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_u16" target="_blank">vld3_u16</a>(uint16_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.4H - Vt3.4H},[Xn]`     | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_u16" target="_blank">vld3q_u16</a>(uint16_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.8H - Vt3.8H},[Xn]`     | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_u32" target="_blank">vld3_u32</a>(uint32_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.2S - Vt3.2S},[Xn]`     | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_u32" target="_blank">vld3q_u32</a>(uint32_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.4S - Vt3.4S},[Xn]`     | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>float16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_f16" target="_blank">vld3_f16</a>(float16_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.4H - Vt3.4H},[Xn]`     | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>float16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_f16" target="_blank">vld3q_f16</a>(float16_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.8H - Vt3.8H},[Xn]`     | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>float32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_f32" target="_blank">vld3_f32</a>(float32_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.2S - Vt3.2S},[Xn]`     | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>float32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_f32" target="_blank">vld3q_f32</a>(float32_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.4S - Vt3.4S},[Xn]`     | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>poly8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_p8" target="_blank">vld3_p8</a>(poly8_t const *ptr)</code>                                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.8B - Vt3.8B},[Xn]`     | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>poly8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_p8" target="_blank">vld3q_p8</a>(poly8_t const *ptr)</code>                                                                                                                                          | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.16B - Vt3.16B},[Xn]`   | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `v7/A32/A64`              |
+| <code>poly16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_p16" target="_blank">vld3_p16</a>(poly16_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.4H - Vt3.4H},[Xn]`     | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>poly16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_p16" target="_blank">vld3q_p16</a>(poly16_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.8H - Vt3.8H},[Xn]`     | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>int64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_s64" target="_blank">vld3_s64</a>(int64_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt3.1D},[Xn]`     | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_u64" target="_blank">vld3_u64</a>(uint64_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt3.1D},[Xn]`     | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>poly64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_p64" target="_blank">vld3_p64</a>(poly64_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt3.1D},[Xn]`     | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `A32/A64`                 |
+| <code>int64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_s64" target="_blank">vld3q_s64</a>(int64_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.2D - Vt3.2D},[Xn]`     | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
+| <code>uint64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_u64" target="_blank">vld3q_u64</a>(uint64_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.2D - Vt3.2D},[Xn]`     | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
+| <code>poly64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_p64" target="_blank">vld3q_p64</a>(poly64_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.2D - Vt3.2D},[Xn]`     | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
+| <code>float64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_f64" target="_blank">vld3_f64</a>(float64_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt3.1D},[Xn]`     | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `A64`                     |
+| <code>float64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_f64" target="_blank">vld3q_f64</a>(float64_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.2D - Vt3.2D},[Xn]`     | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
+| <code>mfloat8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_mf8" target="_blank">vld3_mf8</a>(int8_t const *ptr)</code>                                                                                                                                          | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.8B - Vt3.8B},[Xn]`     | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `A64`                     |
+| <code>mfloat8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_mf8" target="_blank">vld3q_mf8</a>(int8_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD3 {Vt.16B - Vt3.16B},[Xn]`   | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `A64`                     |
+| <code>int8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_s8" target="_blank">vld4_s8</a>(int8_t const *ptr)</code>                                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.8B - Vt4.8B},[Xn]`     | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
+| <code>int8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_s8" target="_blank">vld4q_s8</a>(int8_t const *ptr)</code>                                                                                                                                            | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.16B - Vt4.16B},[Xn]`   | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `v7/A32/A64`              |
+| <code>int16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_s16" target="_blank">vld4_s16</a>(int16_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.4H - Vt4.4H},[Xn]`     | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>int16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_s16" target="_blank">vld4q_s16</a>(int16_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.8H - Vt4.8H},[Xn]`     | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>int32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_s32" target="_blank">vld4_s32</a>(int32_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.2S - Vt4.2S},[Xn]`     | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>int32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_s32" target="_blank">vld4q_s32</a>(int32_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.4S - Vt4.4S},[Xn]`     | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_u8" target="_blank">vld4_u8</a>(uint8_t const *ptr)</code>                                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.8B - Vt4.8B},[Xn]`     | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_u8" target="_blank">vld4q_u8</a>(uint8_t const *ptr)</code>                                                                                                                                          | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.16B - Vt4.16B},[Xn]`   | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `v7/A32/A64`              |
+| <code>uint16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_u16" target="_blank">vld4_u16</a>(uint16_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.4H - Vt4.4H},[Xn]`     | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_u16" target="_blank">vld4q_u16</a>(uint16_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.8H - Vt4.8H},[Xn]`     | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_u32" target="_blank">vld4_u32</a>(uint32_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.2S - Vt4.2S},[Xn]`     | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_u32" target="_blank">vld4q_u32</a>(uint32_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.4S - Vt4.4S},[Xn]`     | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>float16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_f16" target="_blank">vld4_f16</a>(float16_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.4H - Vt4.4H},[Xn]`     | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>float16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_f16" target="_blank">vld4q_f16</a>(float16_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.8H - Vt4.8H},[Xn]`     | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>float32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_f32" target="_blank">vld4_f32</a>(float32_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.2S - Vt4.2S},[Xn]`     | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>float32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_f32" target="_blank">vld4q_f32</a>(float32_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.4S - Vt4.4S},[Xn]`     | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>poly8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_p8" target="_blank">vld4_p8</a>(poly8_t const *ptr)</code>                                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.8B - Vt4.8B},[Xn]`     | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
+| <code>poly8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_p8" target="_blank">vld4q_p8</a>(poly8_t const *ptr)</code>                                                                                                                                          | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.16B - Vt4.16B},[Xn]`   | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `v7/A32/A64`              |
+| <code>poly16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_p16" target="_blank">vld4_p16</a>(poly16_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.4H - Vt4.4H},[Xn]`     | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>poly16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_p16" target="_blank">vld4q_p16</a>(poly16_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.8H - Vt4.8H},[Xn]`     | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>int64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_s64" target="_blank">vld4_s64</a>(int64_t const *ptr)</code>                                                                                                                                           | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt4.1D},[Xn]`     | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_u64" target="_blank">vld4_u64</a>(uint64_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt4.1D},[Xn]`     | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `v7/A32/A64`              |
+| <code>poly64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_p64" target="_blank">vld4_p64</a>(poly64_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt4.1D},[Xn]`     | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `A32/A64`                 |
+| <code>int64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_s64" target="_blank">vld4q_s64</a>(int64_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.2D - Vt4.2D},[Xn]`     | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
+| <code>uint64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_u64" target="_blank">vld4q_u64</a>(uint64_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.2D - Vt4.2D},[Xn]`     | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
+| <code>poly64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_p64" target="_blank">vld4q_p64</a>(poly64_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.2D - Vt4.2D},[Xn]`     | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
+| <code>float64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_f64" target="_blank">vld4_f64</a>(float64_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt4.1D},[Xn]`     | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `A64`                     |
+| <code>float64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_f64" target="_blank">vld4q_f64</a>(float64_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.2D - Vt4.2D},[Xn]`     | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
+| <code>mfloat8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_mf8" target="_blank">vld4_mf8</a>(mfloat8_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.8B - Vt4.8B},[Xn]`     | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `A64`                     |
+| <code>mfloat8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_mf8" target="_blank">vld4q_mf8</a>(mfloat8_t const *ptr)</code>                                                                                                                                    | `ptr -> Xn`                                                                                                                                 | `LD4 {Vt.16B - Vt4.16B},[Xn]`   | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `A64`                     |
+| <code>int8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_s8" target="_blank">vld2_dup_s8</a>(int8_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.8B - Vt2.8B},[Xn]`    | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>int8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_s8" target="_blank">vld2q_dup_s8</a>(int8_t const *ptr)</code>                                                                                                                                    | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.16B - Vt2.16B},[Xn]`  | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `v7/A32/A64`              |
+| <code>int16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_s16" target="_blank">vld2_dup_s16</a>(int16_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.4H - Vt2.4H},[Xn]`    | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>int16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_s16" target="_blank">vld2q_dup_s16</a>(int16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.8H - Vt2.8H},[Xn]`    | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>int32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_s32" target="_blank">vld2_dup_s32</a>(int32_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.2S - Vt2.2S},[Xn]`    | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>int32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_s32" target="_blank">vld2q_dup_s32</a>(int32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.4S - Vt2.4S},[Xn]`    | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_u8" target="_blank">vld2_dup_u8</a>(uint8_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.8B - Vt2.8B},[Xn]`    | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_u8" target="_blank">vld2q_dup_u8</a>(uint8_t const *ptr)</code>                                                                                                                                  | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.16B - Vt2.16B},[Xn]`  | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `v7/A32/A64`              |
+| <code>uint16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_u16" target="_blank">vld2_dup_u16</a>(uint16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.4H - Vt2.4H},[Xn]`    | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_u16" target="_blank">vld2q_dup_u16</a>(uint16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.8H - Vt2.8H},[Xn]`    | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_u32" target="_blank">vld2_dup_u32</a>(uint32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.2S - Vt2.2S},[Xn]`    | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_u32" target="_blank">vld2q_dup_u32</a>(uint32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.4S - Vt2.4S},[Xn]`    | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>float16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_f16" target="_blank">vld2_dup_f16</a>(float16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.4H - Vt2.4H},[Xn]`    | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>float16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_f16" target="_blank">vld2q_dup_f16</a>(float16_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.8H - Vt2.8H},[Xn]`    | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>float32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_f32" target="_blank">vld2_dup_f32</a>(float32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.2S - Vt2.2S},[Xn]`    | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>float32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_f32" target="_blank">vld2q_dup_f32</a>(float32_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.4S - Vt2.4S},[Xn]`    | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>poly8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_p8" target="_blank">vld2_dup_p8</a>(poly8_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.8B - Vt2.8B},[Xn]`    | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>poly8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_p8" target="_blank">vld2q_dup_p8</a>(poly8_t const *ptr)</code>                                                                                                                                  | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.16B - Vt2.16B},[Xn]`  | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `v7/A32/A64`              |
+| <code>poly16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_p16" target="_blank">vld2_dup_p16</a>(poly16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.4H - Vt2.4H},[Xn]`    | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>poly16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_p16" target="_blank">vld2q_dup_p16</a>(poly16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.8H - Vt2.8H},[Xn]`    | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>int64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_s64" target="_blank">vld2_dup_s64</a>(int64_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.1D - Vt2.1D},[Xn]`    | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_u64" target="_blank">vld2_dup_u64</a>(uint64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.1D - Vt2.1D},[Xn]`    | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>poly64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_p64" target="_blank">vld2_dup_p64</a>(poly64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.1D - Vt2.1D},[Xn]`    | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `A32/A64`                 |
+| <code>int64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_s64" target="_blank">vld2q_dup_s64</a>(int64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.2D - Vt2.2D},[Xn]`    | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
+| <code>uint64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_u64" target="_blank">vld2q_dup_u64</a>(uint64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.2D - Vt2.2D},[Xn]`    | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
+| <code>poly64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_p64" target="_blank">vld2q_dup_p64</a>(poly64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.2D - Vt2.2D},[Xn]`    | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
+| <code>float64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_f64" target="_blank">vld2_dup_f64</a>(float64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.1D - Vt2.1D},[Xn]`    | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `A64`                     |
+| <code>float64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_f64" target="_blank">vld2q_dup_f64</a>(float64_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.2D - Vt2.2D},[Xn]`    | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
+| <code>mfloat8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_dup_mf8" target="_blank">vld2_dup_mf8</a>(mfloat8_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.8B - Vt2.8B},[Xn]`    | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `A64`                     |
+| <code>mfloat8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_dup_mf8" target="_blank">vld2q_dup_mf8</a>(mfloat8_t const *ptr)</code>                                                                                                                            | `ptr -> Xn`                                                                                                                                 | `LD2R {Vt.16B - Vt2.16B},[Xn]`  | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `A64`                     |
+| <code>int8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_s8" target="_blank">vld3_dup_s8</a>(int8_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.8B - Vt3.8B},[Xn]`    | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>int8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_s8" target="_blank">vld3q_dup_s8</a>(int8_t const *ptr)</code>                                                                                                                                    | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.16B - Vt3.16B},[Xn]`  | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `v7/A32/A64`              |
+| <code>int16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_s16" target="_blank">vld3_dup_s16</a>(int16_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.4H - Vt3.4H},[Xn]`    | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>int16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_s16" target="_blank">vld3q_dup_s16</a>(int16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.8H - Vt3.8H},[Xn]`    | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>int32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_s32" target="_blank">vld3_dup_s32</a>(int32_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.2S - Vt3.2S},[Xn]`    | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>int32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_s32" target="_blank">vld3q_dup_s32</a>(int32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.4S - Vt3.4S},[Xn]`    | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_u8" target="_blank">vld3_dup_u8</a>(uint8_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.8B - Vt3.8B},[Xn]`    | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_u8" target="_blank">vld3q_dup_u8</a>(uint8_t const *ptr)</code>                                                                                                                                  | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.16B - Vt3.16B},[Xn]`  | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `v7/A32/A64`              |
+| <code>uint16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_u16" target="_blank">vld3_dup_u16</a>(uint16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.4H - Vt3.4H},[Xn]`    | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_u16" target="_blank">vld3q_dup_u16</a>(uint16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.8H - Vt3.8H},[Xn]`    | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_u32" target="_blank">vld3_dup_u32</a>(uint32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.2S - Vt3.2S},[Xn]`    | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_u32" target="_blank">vld3q_dup_u32</a>(uint32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.4S - Vt3.4S},[Xn]`    | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>float16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_f16" target="_blank">vld3_dup_f16</a>(float16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.4H - Vt3.4H},[Xn]`    | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>float16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_f16" target="_blank">vld3q_dup_f16</a>(float16_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.8H - Vt3.8H},[Xn]`    | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>float32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_f32" target="_blank">vld3_dup_f32</a>(float32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.2S - Vt3.2S},[Xn]`    | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>float32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_f32" target="_blank">vld3q_dup_f32</a>(float32_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.4S - Vt3.4S},[Xn]`    | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>poly8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_p8" target="_blank">vld3_dup_p8</a>(poly8_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.8B - Vt3.8B},[Xn]`    | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>poly8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_p8" target="_blank">vld3q_dup_p8</a>(poly8_t const *ptr)</code>                                                                                                                                  | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.16B - Vt3.16B},[Xn]`  | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `v7/A32/A64`              |
+| <code>poly16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_p16" target="_blank">vld3_dup_p16</a>(poly16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.4H - Vt3.4H},[Xn]`    | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>poly16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_p16" target="_blank">vld3q_dup_p16</a>(poly16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.8H - Vt3.8H},[Xn]`    | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>int64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_s64" target="_blank">vld3_dup_s64</a>(int64_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.1D - Vt3.1D},[Xn]`    | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_u64" target="_blank">vld3_dup_u64</a>(uint64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.1D - Vt3.1D},[Xn]`    | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>poly64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_p64" target="_blank">vld3_dup_p64</a>(poly64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.1D - Vt3.1D},[Xn]`    | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `A32/A64`                 |
+| <code>int64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_s64" target="_blank">vld3q_dup_s64</a>(int64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.2D - Vt3.2D},[Xn]`    | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
+| <code>uint64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_u64" target="_blank">vld3q_dup_u64</a>(uint64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.2D - Vt3.2D},[Xn]`    | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
+| <code>poly64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_p64" target="_blank">vld3q_dup_p64</a>(poly64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.2D - Vt3.2D},[Xn]`    | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
+| <code>float64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_f64" target="_blank">vld3_dup_f64</a>(float64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.1D - Vt3.1D},[Xn]`    | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `A64`                     |
+| <code>float64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_f64" target="_blank">vld3q_dup_f64</a>(float64_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.2D - Vt3.2D},[Xn]`    | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
+| <code>mfloat8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_dup_mf8" target="_blank">vld3_dup_mf8</a>(mfloat8_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.8B - Vt3.8B},[Xn]`    | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `A64`                     |
+| <code>mfloat8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_dup_mf8" target="_blank">vld3q_dup_mf8</a>(mfloat8_t const *ptr)</code>                                                                                                                            | `ptr -> Xn`                                                                                                                                 | `LD3R {Vt.16B - Vt3.16B},[Xn]`  | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `A64`                     |
+| <code>int8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_s8" target="_blank">vld4_dup_s8</a>(int8_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.8B - Vt4.8B},[Xn]`    | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
+| <code>int8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_s8" target="_blank">vld4q_dup_s8</a>(int8_t const *ptr)</code>                                                                                                                                    | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.16B - Vt4.16B},[Xn]`  | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `v7/A32/A64`              |
+| <code>int16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_s16" target="_blank">vld4_dup_s16</a>(int16_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.4H - Vt4.4H},[Xn]`    | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>int16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_s16" target="_blank">vld4q_dup_s16</a>(int16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.8H - Vt4.8H},[Xn]`    | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>int32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_s32" target="_blank">vld4_dup_s32</a>(int32_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.2S - Vt4.2S},[Xn]`    | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>int32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_s32" target="_blank">vld4q_dup_s32</a>(int32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.4S - Vt4.4S},[Xn]`    | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_u8" target="_blank">vld4_dup_u8</a>(uint8_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.8B - Vt4.8B},[Xn]`    | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_u8" target="_blank">vld4q_dup_u8</a>(uint8_t const *ptr)</code>                                                                                                                                  | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.16B - Vt4.16B},[Xn]`  | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `v7/A32/A64`              |
+| <code>uint16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_u16" target="_blank">vld4_dup_u16</a>(uint16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.4H - Vt4.4H},[Xn]`    | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_u16" target="_blank">vld4q_dup_u16</a>(uint16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.8H - Vt4.8H},[Xn]`    | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_u32" target="_blank">vld4_dup_u32</a>(uint32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.2S - Vt4.2S},[Xn]`    | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_u32" target="_blank">vld4q_dup_u32</a>(uint32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.4S - Vt4.4S},[Xn]`    | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>float16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_f16" target="_blank">vld4_dup_f16</a>(float16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.4H - Vt4.4H},[Xn]`    | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>float16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_f16" target="_blank">vld4q_dup_f16</a>(float16_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.8H - Vt4.8H},[Xn]`    | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>float32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_f32" target="_blank">vld4_dup_f32</a>(float32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.2S - Vt4.2S},[Xn]`    | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>float32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_f32" target="_blank">vld4q_dup_f32</a>(float32_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.4S - Vt4.4S},[Xn]`    | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>poly8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_p8" target="_blank">vld4_dup_p8</a>(poly8_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.8B - Vt4.8B},[Xn]`    | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
+| <code>poly8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_p8" target="_blank">vld4q_dup_p8</a>(poly8_t const *ptr)</code>                                                                                                                                  | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.16B - Vt4.16B},[Xn]`  | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `v7/A32/A64`              |
+| <code>poly16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_p16" target="_blank">vld4_dup_p16</a>(poly16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.4H - Vt4.4H},[Xn]`    | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>poly16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_p16" target="_blank">vld4q_dup_p16</a>(poly16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.8H - Vt4.8H},[Xn]`    | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>int64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_s64" target="_blank">vld4_dup_s64</a>(int64_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.1D - Vt4.1D},[Xn]`    | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_u64" target="_blank">vld4_dup_u64</a>(uint64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.1D - Vt4.1D},[Xn]`    | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `v7/A32/A64`              |
+| <code>poly64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_p64" target="_blank">vld4_dup_p64</a>(poly64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.1D - Vt4.1D},[Xn]`    | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `A32/A64`                 |
+| <code>int64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_s64" target="_blank">vld4q_dup_s64</a>(int64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.2D - Vt4.2D},[Xn]`    | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
+| <code>uint64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_u64" target="_blank">vld4q_dup_u64</a>(uint64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.2D - Vt4.2D},[Xn]`    | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
+| <code>poly64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_p64" target="_blank">vld4q_dup_p64</a>(poly64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.2D - Vt4.2D},[Xn]`    | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
+| <code>float64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_f64" target="_blank">vld4_dup_f64</a>(float64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.1D - Vt4.1D},[Xn]`    | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `A64`                     |
+| <code>float64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_f64" target="_blank">vld4q_dup_f64</a>(float64_t const *ptr)</code>                                                                                                                             | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.2D - Vt4.2D},[Xn]`    | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
+| <code>mfloat8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_dup_mf8" target="_blank">vld4_dup_mf8</a>(mfloat8_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.8B - Vt4.8B},[Xn]`    | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `A64`                     |
+| <code>mfloat8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_dup_mf8" target="_blank">vld4q_dup_mf8</a>(mfloat8_t const *ptr)</code>                                                                                                                            | `ptr -> Xn`                                                                                                                                 | `LD4R {Vt.16B - Vt4.16B},[Xn]`  | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `A64`                     |
+| <code>int16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_s16" target="_blank">vld2_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `ptr -> Xn`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`                                                          | `LD2 {Vt.h - Vt2.h}[lane],[Xn]` | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>int16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_s16" target="_blank">vld2q_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`                                                          | `LD2 {Vt.h - Vt2.h}[lane],[Xn]` | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>int32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_s32" target="_blank">vld2_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `ptr -> Xn`<br>`src.val[1] -> Vt2.2S`<br>`src.val[0] -> Vt.2S`<br>`0 <= lane <= 1`                                                          | `LD2 {Vt.s - Vt2.s}[lane],[Xn]` | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>int32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_s32" target="_blank">vld2q_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[1] -> Vt2.4S`<br>`src.val[0] -> Vt.4S`<br>`0 <= lane <= 3`                                                          | `LD2 {Vt.s - Vt2.s}[lane],[Xn]` | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_u16" target="_blank">vld2_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `ptr -> Xn`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`                                                          | `LD2 {Vt.h - Vt2.h}[lane],[Xn]` | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_u16" target="_blank">vld2q_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`                                                          | `LD2 {Vt.h - Vt2.h}[lane],[Xn]` | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_u32" target="_blank">vld2_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `ptr -> Xn`<br>`src.val[1] -> Vt2.2S`<br>`src.val[0] -> Vt.2S`<br>`0 <= lane <= 1`                                                          | `LD2 {Vt.s - Vt2.s}[lane],[Xn]` | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_u32" target="_blank">vld2q_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[1] -> Vt2.4S`<br>`src.val[0] -> Vt.4S`<br>`0 <= lane <= 3`                                                          | `LD2 {Vt.s - Vt2.s}[lane],[Xn]` | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>float16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_f16" target="_blank">vld2_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `ptr -> Xn`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`                                                          | `LD2 {Vt.h - Vt2.h}[lane],[Xn]` | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>float16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_f16" target="_blank">vld2q_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `ptr -> Xn`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`                                                          | `LD2 {Vt.h - Vt2.h}[lane],[Xn]` | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>float32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_f32" target="_blank">vld2_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `ptr -> Xn`<br>`src.val[1] -> Vt2.2S`<br>`src.val[0] -> Vt.2S`<br>`0 <= lane <= 1`                                                          | `LD2 {Vt.s - Vt2.s}[lane],[Xn]` | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>float32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_f32" target="_blank">vld2q_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `ptr -> Xn`<br>`src.val[1] -> Vt2.4S`<br>`src.val[0] -> Vt.4S`<br>`0 <= lane <= 3`                                                          | `LD2 {Vt.s - Vt2.s}[lane],[Xn]` | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>poly16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_p16" target="_blank">vld2_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `ptr -> Xn`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`                                                          | `LD2 {Vt.h - Vt2.h}[lane],[Xn]` | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>poly16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_p16" target="_blank">vld2q_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`                                                          | `LD2 {Vt.h - Vt2.h}[lane],[Xn]` | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>int8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_s8" target="_blank">vld2_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                | `ptr -> Xn`<br>`src.val[1] -> Vt2.8B`<br>`src.val[0] -> Vt.8B`<br>`0 <= lane <= 7`                                                          | `LD2 {Vt.b - Vt2.b}[lane],[Xn]` | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_u8" target="_blank">vld2_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `ptr -> Xn`<br>`src.val[1] -> Vt2.8B`<br>`src.val[0] -> Vt.8B`<br>`0 <= lane <= 7`                                                          | `LD2 {Vt.b - Vt2.b}[lane],[Xn]` | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>poly8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_p8" target="_blank">vld2_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `ptr -> Xn`<br>`src.val[1] -> Vt2.8B`<br>`src.val[0] -> Vt.8B`<br>`0 <= lane <= 7`                                                          | `LD2 {Vt.b - Vt2.b}[lane],[Xn]` | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>int8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_s8" target="_blank">vld2q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>            | `ptr -> Xn`<br>`src.val[1] -> Vt2.16B`<br>`src.val[0] -> Vt.16B`<br>`0 <= lane <= 15`                                                       | `LD2 {Vt.b - Vt2.b}[lane],[Xn]` | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `A64`                     |
+| <code>uint8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_u8" target="_blank">vld2q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[1] -> Vt2.16B`<br>`src.val[0] -> Vt.16B`<br>`0 <= lane <= 15`                                                       | `LD2 {Vt.b - Vt2.b}[lane],[Xn]` | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `A64`                     |
+| <code>poly8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_p8" target="_blank">vld2q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[1] -> Vt2.16B`<br>`src.val[0] -> Vt.16B`<br>`0 <= lane <= 15`                                                       | `LD2 {Vt.b - Vt2.b}[lane],[Xn]` | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `A64`                     |
+| <code>int64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_s64" target="_blank">vld2_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `ptr -> Xn`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`                                                          | `LD2 {Vt.d - Vt2.d}[lane],[Xn]` | `ptr -> Xn`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                | `A64`                     |
+| <code>int64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_s64" target="_blank">vld2q_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`                                                          | `LD2 {Vt.d - Vt2.d}[lane],[Xn]` | `ptr -> Xn`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                | `A64`                     |
+| <code>uint64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_u64" target="_blank">vld2_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `ptr -> Xn`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`                                                          | `LD2 {Vt.d - Vt2.d}[lane],[Xn]` | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `A64`                     |
+| <code>uint64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_u64" target="_blank">vld2q_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`                                                          | `LD2 {Vt.d - Vt2.d}[lane],[Xn]` | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
+| <code>poly64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_p64" target="_blank">vld2_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `ptr -> Xn`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`                                                          | `LD2 {Vt.d - Vt2.d}[lane],[Xn]` | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `A64`                     |
+| <code>poly64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_p64" target="_blank">vld2q_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`                                                          | `LD2 {Vt.d - Vt2.d}[lane],[Xn]` | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
+| <code>float64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_f64" target="_blank">vld2_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `ptr -> Xn`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`                                                          | `LD2 {Vt.d - Vt2.d}[lane],[Xn]` | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `A64`                     |
+| <code>float64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_f64" target="_blank">vld2q_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `ptr -> Xn`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`                                                          | `LD2 {Vt.d - Vt2.d}[lane],[Xn]` | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
+| <code>mfloat8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2_lane_mf8" target="_blank">vld2_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `ptr -> Xn`<br>`src.val[1] -> Vt2.8B`<br>`src.val[0] -> Vt.8B`<br>`0 <= lane <= 7`                                                          | `LD2 {Vt.b - Vt2.b}[lane],[Xn]` | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `A64`                     |
+| <code>mfloat8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld2q_lane_mf8" target="_blank">vld2q_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x2_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `ptr -> Xn`<br>`src.val[1] -> Vt2.16B`<br>`src.val[0] -> Vt.16B`<br>`0 <= lane <= 15`                                                       | `LD2 {Vt.b - Vt2.b}[lane],[Xn]` | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `A64`                     |
+| <code>int16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_s16" target="_blank">vld3_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `ptr -> Xn`<br>`src.val[2] -> Vt3.4H`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`                                | `LD3 {Vt.h - Vt3.h}[lane],[Xn]` | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>int16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_s16" target="_blank">vld3q_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[2] -> Vt3.8H`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`                                | `LD3 {Vt.h - Vt3.h}[lane],[Xn]` | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>int32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_s32" target="_blank">vld3_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `ptr -> Xn`<br>`src.val[2] -> Vt3.2S`<br>`src.val[1] -> Vt2.2S`<br>`src.val[0] -> Vt.2S`<br>`0 <= lane <= 1`                                | `LD3 {Vt.s - Vt3.s}[lane],[Xn]` | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>int32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_s32" target="_blank">vld3q_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[2] -> Vt3.4S`<br>`src.val[1] -> Vt2.4S`<br>`src.val[0] -> Vt.4S`<br>`0 <= lane <= 3`                                | `LD3 {Vt.s - Vt3.s}[lane],[Xn]` | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_u16" target="_blank">vld3_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `ptr -> Xn`<br>`src.val[2] -> Vt3.4H`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`                                | `LD3 {Vt.h - Vt3.h}[lane],[Xn]` | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_u16" target="_blank">vld3q_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[2] -> Vt3.8H`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`                                | `LD3 {Vt.h - Vt3.h}[lane],[Xn]` | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_u32" target="_blank">vld3_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `ptr -> Xn`<br>`src.val[2] -> Vt3.2S`<br>`src.val[1] -> Vt2.2S`<br>`src.val[0] -> Vt.2S`<br>`0 <= lane <= 1`                                | `LD3 {Vt.s - Vt3.s}[lane],[Xn]` | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_u32" target="_blank">vld3q_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[2] -> Vt3.4S`<br>`src.val[1] -> Vt2.4S`<br>`src.val[0] -> Vt.4S`<br>`0 <= lane <= 3`                                | `LD3 {Vt.s - Vt3.s}[lane],[Xn]` | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>float16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_f16" target="_blank">vld3_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `ptr -> Xn`<br>`src.val[2] -> Vt3.4H`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`                                | `LD3 {Vt.h - Vt3.h}[lane],[Xn]` | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>float16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_f16" target="_blank">vld3q_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `ptr -> Xn`<br>`src.val[2] -> Vt3.8H`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`                                | `LD3 {Vt.h - Vt3.h}[lane],[Xn]` | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>float32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_f32" target="_blank">vld3_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `ptr -> Xn`<br>`src.val[2] -> Vt3.2S`<br>`src.val[1] -> Vt2.2S`<br>`src.val[0] -> Vt.2S`<br>`0 <= lane <= 1`                                | `LD3 {Vt.s - Vt3.s}[lane],[Xn]` | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>float32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_f32" target="_blank">vld3q_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `ptr -> Xn`<br>`src.val[2] -> Vt3.4S`<br>`src.val[1] -> Vt2.4S`<br>`src.val[0] -> Vt.4S`<br>`0 <= lane <= 3`                                | `LD3 {Vt.s - Vt3.s}[lane],[Xn]` | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>poly16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_p16" target="_blank">vld3_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `ptr -> Xn`<br>`src.val[2] -> Vt3.4H`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`                                | `LD3 {Vt.h - Vt3.h}[lane],[Xn]` | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>poly16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_p16" target="_blank">vld3q_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[2] -> Vt3.8H`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`                                | `LD3 {Vt.h - Vt3.h}[lane],[Xn]` | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>int8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_s8" target="_blank">vld3_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                | `ptr -> Xn`<br>`src.val[2] -> Vt3.8B`<br>`src.val[1] -> Vt2.8B`<br>`src.val[0] -> Vt.8B`<br>`0 <= lane <= 7`                                | `LD3 {Vt.b - Vt3.b}[lane],[Xn]` | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_u8" target="_blank">vld3_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `ptr -> Xn`<br>`src.val[2] -> Vt3.8B`<br>`src.val[1] -> Vt2.8B`<br>`src.val[0] -> Vt.8B`<br>`0 <= lane <= 7`                                | `LD3 {Vt.b - Vt3.b}[lane],[Xn]` | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>poly8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_p8" target="_blank">vld3_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `ptr -> Xn`<br>`src.val[2] -> Vt3.8B`<br>`src.val[1] -> Vt2.8B`<br>`src.val[0] -> Vt.8B`<br>`0 <= lane <= 7`                                | `LD3 {Vt.b - Vt3.b}[lane],[Xn]` | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>int8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_s8" target="_blank">vld3q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>            | `ptr -> Xn`<br>`src.val[2] -> Vt3.16B`<br>`src.val[1] -> Vt2.16B`<br>`src.val[0] -> Vt.16B`<br>`0 <= lane <= 15`                            | `LD3 {Vt.b - Vt3.b}[lane],[Xn]` | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `A64`                     |
+| <code>uint8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_u8" target="_blank">vld3q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[2] -> Vt3.16B`<br>`src.val[1] -> Vt2.16B`<br>`src.val[0] -> Vt.16B`<br>`0 <= lane <= 15`                            | `LD3 {Vt.b - Vt3.b}[lane],[Xn]` | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `A64`                     |
+| <code>poly8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_p8" target="_blank">vld3q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[2] -> Vt3.16B`<br>`src.val[1] -> Vt2.16B`<br>`src.val[0] -> Vt.16B`<br>`0 <= lane <= 15`                            | `LD3 {Vt.b - Vt3.b}[lane],[Xn]` | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `A64`                     |
+| <code>int64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_s64" target="_blank">vld3_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `ptr -> Xn`<br>`src.val[2] -> Vt3.1D`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`                                | `LD3 {Vt.d - Vt3.d}[lane],[Xn]` | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `A64`                     |
+| <code>int64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_s64" target="_blank">vld3q_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[2] -> Vt3.2D`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`                                | `LD3 {Vt.d - Vt3.d}[lane],[Xn]` | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
+| <code>uint64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_u64" target="_blank">vld3_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `ptr -> Xn`<br>`src.val[2] -> Vt3.1D`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`                                | `LD3 {Vt.d - Vt3.d}[lane],[Xn]` | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `A64`                     |
+| <code>uint64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_u64" target="_blank">vld3q_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[2] -> Vt3.2D`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`                                | `LD3 {Vt.d - Vt3.d}[lane],[Xn]` | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
+| <code>poly64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_p64" target="_blank">vld3_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `ptr -> Xn`<br>`src.val[2] -> Vt3.1D`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`                                | `LD3 {Vt.d - Vt3.d}[lane],[Xn]` | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `A64`                     |
+| <code>poly64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_p64" target="_blank">vld3q_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[2] -> Vt3.2D`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`                                | `LD3 {Vt.d - Vt3.d}[lane],[Xn]` | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
+| <code>float64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_f64" target="_blank">vld3_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `ptr -> Xn`<br>`src.val[2] -> Vt3.1D`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`                                | `LD3 {Vt.d - Vt3.d}[lane],[Xn]` | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `A64`                     |
+| <code>float64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_f64" target="_blank">vld3q_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `ptr -> Xn`<br>`src.val[2] -> Vt3.2D`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`                                | `LD3 {Vt.d - Vt3.d}[lane],[Xn]` | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
+| <code>mfloat8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3_lane_mf8" target="_blank">vld3_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `ptr -> Xn`<br>`src.val[2] -> Vt3.8B`<br>`src.val[1] -> Vt2.8B`<br>`src.val[0] -> Vt.8B`<br>`0 <= lane <= 7`                                | `LD3 {Vt.b - Vt3.b}[lane],[Xn]` | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `A64`                     |
+| <code>mfloat8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld3q_lane_mf8" target="_blank">vld3q_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x3_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `ptr -> Xn`<br>`src.val[2] -> Vt3.16B`<br>`src.val[1] -> Vt2.16B`<br>`src.val[0] -> Vt.16B`<br>`0 <= lane <= 15`                            | `LD3 {Vt.b - Vt3.b}[lane],[Xn]` | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `A64`                     |
+| <code>int16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_s16" target="_blank">vld4_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `ptr -> Xn`<br>`src.val[3] -> Vt4.4H`<br>`src.val[2] -> Vt3.4H`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`      | `LD4 {Vt.h - Vt4.h}[lane],[Xn]` | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>int16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_s16" target="_blank">vld4q_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[3] -> Vt4.8H`<br>`src.val[2] -> Vt3.8H`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`      | `LD4 {Vt.h - Vt4.h}[lane],[Xn]` | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>int32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_s32" target="_blank">vld4_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `ptr -> Xn`<br>`src.val[3] -> Vt4.2S`<br>`src.val[2] -> Vt3.2S`<br>`src.val[1] -> Vt2.2S`<br>`src.val[0] -> Vt.2S`<br>`0 <= lane <= 1`      | `LD4 {Vt.s - Vt4.s}[lane],[Xn]` | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>int32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_s32" target="_blank">vld4q_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[3] -> Vt4.4S`<br>`src.val[2] -> Vt3.4S`<br>`src.val[1] -> Vt2.4S`<br>`src.val[0] -> Vt.4S`<br>`0 <= lane <= 3`      | `LD4 {Vt.s - Vt4.s}[lane],[Xn]` | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_u16" target="_blank">vld4_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `ptr -> Xn`<br>`src.val[3] -> Vt4.4H`<br>`src.val[2] -> Vt3.4H`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`      | `LD4 {Vt.h - Vt4.h}[lane],[Xn]` | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_u16" target="_blank">vld4q_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[3] -> Vt4.8H`<br>`src.val[2] -> Vt3.8H`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`      | `LD4 {Vt.h - Vt4.h}[lane],[Xn]` | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_u32" target="_blank">vld4_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `ptr -> Xn`<br>`src.val[3] -> Vt4.2S`<br>`src.val[2] -> Vt3.2S`<br>`src.val[1] -> Vt2.2S`<br>`src.val[0] -> Vt.2S`<br>`0 <= lane <= 1`      | `LD4 {Vt.s - Vt4.s}[lane],[Xn]` | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_u32" target="_blank">vld4q_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[3] -> Vt4.4S`<br>`src.val[2] -> Vt3.4S`<br>`src.val[1] -> Vt2.4S`<br>`src.val[0] -> Vt.4S`<br>`0 <= lane <= 3`      | `LD4 {Vt.s - Vt4.s}[lane],[Xn]` | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>float16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_f16" target="_blank">vld4_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `ptr -> Xn`<br>`src.val[3] -> Vt4.4H`<br>`src.val[2] -> Vt3.4H`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`      | `LD4 {Vt.h - Vt4.h}[lane],[Xn]` | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>float16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_f16" target="_blank">vld4q_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `ptr -> Xn`<br>`src.val[3] -> Vt4.8H`<br>`src.val[2] -> Vt3.8H`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`      | `LD4 {Vt.h - Vt4.h}[lane],[Xn]` | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>float32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_f32" target="_blank">vld4_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `ptr -> Xn`<br>`src.val[3] -> Vt4.2S`<br>`src.val[2] -> Vt3.2S`<br>`src.val[1] -> Vt2.2S`<br>`src.val[0] -> Vt.2S`<br>`0 <= lane <= 1`      | `LD4 {Vt.s - Vt4.s}[lane],[Xn]` | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>float32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_f32" target="_blank">vld4q_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `ptr -> Xn`<br>`src.val[3] -> Vt4.4S`<br>`src.val[2] -> Vt3.4S`<br>`src.val[1] -> Vt2.4S`<br>`src.val[0] -> Vt.4S`<br>`0 <= lane <= 3`      | `LD4 {Vt.s - Vt4.s}[lane],[Xn]` | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>poly16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_p16" target="_blank">vld4_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `ptr -> Xn`<br>`src.val[3] -> Vt4.4H`<br>`src.val[2] -> Vt3.4H`<br>`src.val[1] -> Vt2.4H`<br>`src.val[0] -> Vt.4H`<br>`0 <= lane <= 3`      | `LD4 {Vt.h - Vt4.h}[lane],[Xn]` | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>poly16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_p16" target="_blank">vld4q_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[3] -> Vt4.8H`<br>`src.val[2] -> Vt3.8H`<br>`src.val[1] -> Vt2.8H`<br>`src.val[0] -> Vt.8H`<br>`0 <= lane <= 7`      | `LD4 {Vt.h - Vt4.h}[lane],[Xn]` | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>int8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_s8" target="_blank">vld4_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>                | `ptr -> Xn`<br>`src.val[3] -> Vt4.8B`<br>`src.val[2] -> Vt3.8B`<br>`src.val[1] -> Vt2.8B`<br>`src.val[0] -> Vt.8B`<br>`0 <= lane <= 7`      | `LD4 {Vt.b - Vt4.b}[lane],[Xn]` | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_u8" target="_blank">vld4_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `ptr -> Xn`<br>`src.val[3] -> Vt4.8B`<br>`src.val[2] -> Vt3.8B`<br>`src.val[1] -> Vt2.8B`<br>`src.val[0] -> Vt.8B`<br>`0 <= lane <= 7`      | `LD4 {Vt.b - Vt4.b}[lane],[Xn]` | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
+| <code>poly8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_p8" target="_blank">vld4_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `ptr -> Xn`<br>`src.val[3] -> Vt4.8B`<br>`src.val[2] -> Vt3.8B`<br>`src.val[1] -> Vt2.8B`<br>`src.val[0] -> Vt.8B`<br>`0 <= lane <= 7`      | `LD4 {Vt.b - Vt4.b}[lane],[Xn]` | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
+| <code>int8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_s8" target="_blank">vld4q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>            | `ptr -> Xn`<br>`src.val[3] -> Vt4.16B`<br>`src.val[2] -> Vt3.16B`<br>`src.val[1] -> Vt2.16B`<br>`src.val[0] -> Vt.16B`<br>`0 <= lane <= 15` | `LD4 {Vt.b - Vt4.b}[lane],[Xn]` | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `A64`                     |
+| <code>uint8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_u8" target="_blank">vld4q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[3] -> Vt4.16B`<br>`src.val[2] -> Vt3.16B`<br>`src.val[1] -> Vt2.16B`<br>`src.val[0] -> Vt.16B`<br>`0 <= lane <= 15` | `LD4 {Vt.b - Vt4.b}[lane],[Xn]` | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `A64`                     |
+| <code>poly8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_p8" target="_blank">vld4q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[3] -> Vt4.16B`<br>`src.val[2] -> Vt3.16B`<br>`src.val[1] -> Vt2.16B`<br>`src.val[0] -> Vt.16B`<br>`0 <= lane <= 15` | `LD4 {Vt.b - Vt4.b}[lane],[Xn]` | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `A64`                     |
+| <code>int64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_s64" target="_blank">vld4_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `ptr -> Xn`<br>`src.val[3] -> Vt4.1D`<br>`src.val[2] -> Vt3.1D`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`      | `LD4 {Vt.d - Vt4.d}[lane],[Xn]` | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `A64`                     |
+| <code>int64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_s64" target="_blank">vld4q_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `ptr -> Xn`<br>`src.val[3] -> Vt4.2D`<br>`src.val[2] -> Vt3.2D`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`      | `LD4 {Vt.d - Vt4.d}[lane],[Xn]` | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
+| <code>uint64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_u64" target="_blank">vld4_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `ptr -> Xn`<br>`src.val[3] -> Vt4.1D`<br>`src.val[2] -> Vt3.1D`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`      | `LD4 {Vt.d - Vt4.d}[lane],[Xn]` | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `A64`                     |
+| <code>uint64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_u64" target="_blank">vld4q_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[3] -> Vt4.2D`<br>`src.val[2] -> Vt3.2D`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`      | `LD4 {Vt.d - Vt4.d}[lane],[Xn]` | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
+| <code>poly64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_p64" target="_blank">vld4_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `ptr -> Xn`<br>`src.val[3] -> Vt4.1D`<br>`src.val[2] -> Vt3.1D`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`      | `LD4 {Vt.d - Vt4.d}[lane],[Xn]` | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `A64`                     |
+| <code>poly64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_p64" target="_blank">vld4q_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `ptr -> Xn`<br>`src.val[3] -> Vt4.2D`<br>`src.val[2] -> Vt3.2D`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`      | `LD4 {Vt.d - Vt4.d}[lane],[Xn]` | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
+| <code>float64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_f64" target="_blank">vld4_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `ptr -> Xn`<br>`src.val[3] -> Vt4.1D`<br>`src.val[2] -> Vt3.1D`<br>`src.val[1] -> Vt2.1D`<br>`src.val[0] -> Vt.1D`<br>`0 <= lane <= 0`      | `LD4 {Vt.d - Vt4.d}[lane],[Xn]` | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `A64`                     |
+| <code>float64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_f64" target="_blank">vld4q_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `ptr -> Xn`<br>`src.val[3] -> Vt4.2D`<br>`src.val[2] -> Vt3.2D`<br>`src.val[1] -> Vt2.2D`<br>`src.val[0] -> Vt.2D`<br>`0 <= lane <= 1`      | `LD4 {Vt.d - Vt4.d}[lane],[Xn]` | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
+| <code>mfloat8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4_lane_mf8" target="_blank">vld4_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `ptr -> Xn`<br>`src.val[3] -> Vt4.8B`<br>`src.val[2] -> Vt3.8B`<br>`src.val[1] -> Vt2.8B`<br>`src.val[0] -> Vt.8B`<br>`0 <= lane <= 7`      | `LD4 {Vt.b - Vt4.b}[lane],[Xn]` | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `A64`                     |
+| <code>mfloat8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld4q_lane_mf8" target="_blank">vld4q_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t const *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x4_t src,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `ptr -> Xn`<br>`src.val[3] -> Vt4.16B`<br>`src.val[2] -> Vt3.16B`<br>`src.val[1] -> Vt2.16B`<br>`src.val[0] -> Vt.16B`<br>`0 <= lane <= 15` | `LD4 {Vt.b - Vt4.b}[lane],[Xn]` | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `A64`                     |
+| <code>int8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s8_x2" target="_blank">vld1_s8_x2</a>(int8_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B - Vt2.8B},[Xn]`     | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>int8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s8_x2" target="_blank">vld1q_s8_x2</a>(int8_t const *ptr)</code>                                                                                                                                      | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B - Vt2.16B},[Xn]`   | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `v7/A32/A64`              |
+| <code>int16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s16_x2" target="_blank">vld1_s16_x2</a>(int16_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt2.4H},[Xn]`     | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>int16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s16_x2" target="_blank">vld1q_s16_x2</a>(int16_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt2.8H},[Xn]`     | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>int32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s32_x2" target="_blank">vld1_s32_x2</a>(int32_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S - Vt2.2S},[Xn]`     | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>int32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s32_x2" target="_blank">vld1q_s32_x2</a>(int32_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S - Vt2.4S},[Xn]`     | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u8_x2" target="_blank">vld1_u8_x2</a>(uint8_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B - Vt2.8B},[Xn]`     | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u8_x2" target="_blank">vld1q_u8_x2</a>(uint8_t const *ptr)</code>                                                                                                                                    | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B - Vt2.16B},[Xn]`   | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `v7/A32/A64`              |
+| <code>uint16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u16_x2" target="_blank">vld1_u16_x2</a>(uint16_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt2.4H},[Xn]`     | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u16_x2" target="_blank">vld1q_u16_x2</a>(uint16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt2.8H},[Xn]`     | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u32_x2" target="_blank">vld1_u32_x2</a>(uint32_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S - Vt2.2S},[Xn]`     | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u32_x2" target="_blank">vld1q_u32_x2</a>(uint32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S - Vt2.4S},[Xn]`     | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>float16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f16_x2" target="_blank">vld1_f16_x2</a>(float16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt2.4H},[Xn]`     | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>float16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f16_x2" target="_blank">vld1q_f16_x2</a>(float16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt2.8H},[Xn]`     | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>float32x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f32_x2" target="_blank">vld1_f32_x2</a>(float32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S - Vt2.2S},[Xn]`     | `Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>float32x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f32_x2" target="_blank">vld1q_f32_x2</a>(float32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S - Vt2.4S},[Xn]`     | `Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>poly8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p8_x2" target="_blank">vld1_p8_x2</a>(poly8_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B - Vt2.8B},[Xn]`     | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>poly8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p8_x2" target="_blank">vld1q_p8_x2</a>(poly8_t const *ptr)</code>                                                                                                                                    | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B - Vt2.16B},[Xn]`   | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `v7/A32/A64`              |
+| <code>poly16x4x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p16_x2" target="_blank">vld1_p16_x2</a>(poly16_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt2.4H},[Xn]`     | `Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>poly16x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p16_x2" target="_blank">vld1q_p16_x2</a>(poly16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt2.8H},[Xn]`     | `Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>int64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s64_x2" target="_blank">vld1_s64_x2</a>(int64_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt2.1D},[Xn]`     | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u64_x2" target="_blank">vld1_u64_x2</a>(uint64_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt2.1D},[Xn]`     | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>poly64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p64_x2" target="_blank">vld1_p64_x2</a>(poly64_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt2.1D},[Xn]`     | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `A32/A64`                 |
+| <code>int64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s64_x2" target="_blank">vld1q_s64_x2</a>(int64_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt2.2D},[Xn]`     | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>uint64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u64_x2" target="_blank">vld1q_u64_x2</a>(uint64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt2.2D},[Xn]`     | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `v7/A32/A64`              |
+| <code>poly64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p64_x2" target="_blank">vld1q_p64_x2</a>(poly64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt2.2D},[Xn]`     | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A32/A64`                 |
+| <code>float64x1x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f64_x2" target="_blank">vld1_f64_x2</a>(float64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt2.1D},[Xn]`     | `Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                                               | `A64`                     |
+| <code>float64x2x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f64_x2" target="_blank">vld1q_f64_x2</a>(float64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt2.2D},[Xn]`     | `Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                                               | `A64`                     |
+| <code>mfloat8x8x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_mf8_x2" target="_blank">vld1_mf8_x2</a>(mfloat8_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B - Vt2.8B},[Xn]`     | `Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                                               | `A64`                     |
+| <code>mfloat8x16x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_mf8_x2" target="_blank">vld1q_mf8_x2</a>(mfloat8_t const *ptr)</code>                                                                                                                              | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B - Vt2.16B},[Xn]`   | `Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                                                             | `A64`                     |
+| <code>int8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s8_x3" target="_blank">vld1_s8_x3</a>(int8_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B - Vt3.8B},[Xn]`     | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>int8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s8_x3" target="_blank">vld1q_s8_x3</a>(int8_t const *ptr)</code>                                                                                                                                      | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B - Vt3.16B},[Xn]`   | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `v7/A32/A64`              |
+| <code>int16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s16_x3" target="_blank">vld1_s16_x3</a>(int16_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt3.4H},[Xn]`     | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>int16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s16_x3" target="_blank">vld1q_s16_x3</a>(int16_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt3.8H},[Xn]`     | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>int32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s32_x3" target="_blank">vld1_s32_x3</a>(int32_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S - Vt3.2S},[Xn]`     | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>int32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s32_x3" target="_blank">vld1q_s32_x3</a>(int32_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S - Vt3.4S},[Xn]`     | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u8_x3" target="_blank">vld1_u8_x3</a>(uint8_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B - Vt3.8B},[Xn]`     | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u8_x3" target="_blank">vld1q_u8_x3</a>(uint8_t const *ptr)</code>                                                                                                                                    | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B - Vt3.16B},[Xn]`   | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `v7/A32/A64`              |
+| <code>uint16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u16_x3" target="_blank">vld1_u16_x3</a>(uint16_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt3.4H},[Xn]`     | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u16_x3" target="_blank">vld1q_u16_x3</a>(uint16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt3.8H},[Xn]`     | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u32_x3" target="_blank">vld1_u32_x3</a>(uint32_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S - Vt3.2S},[Xn]`     | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u32_x3" target="_blank">vld1q_u32_x3</a>(uint32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S - Vt3.4S},[Xn]`     | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>float16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f16_x3" target="_blank">vld1_f16_x3</a>(float16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt3.4H},[Xn]`     | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>float16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f16_x3" target="_blank">vld1q_f16_x3</a>(float16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt3.8H},[Xn]`     | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>float32x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f32_x3" target="_blank">vld1_f32_x3</a>(float32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S - Vt3.2S},[Xn]`     | `Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>float32x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f32_x3" target="_blank">vld1q_f32_x3</a>(float32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S - Vt3.4S},[Xn]`     | `Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>poly8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p8_x3" target="_blank">vld1_p8_x3</a>(poly8_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B - Vt3.8B},[Xn]`     | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>poly8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p8_x3" target="_blank">vld1q_p8_x3</a>(poly8_t const *ptr)</code>                                                                                                                                    | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B - Vt3.16B},[Xn]`   | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `v7/A32/A64`              |
+| <code>poly16x4x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p16_x3" target="_blank">vld1_p16_x3</a>(poly16_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt3.4H},[Xn]`     | `Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>poly16x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p16_x3" target="_blank">vld1q_p16_x3</a>(poly16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt3.8H},[Xn]`     | `Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>int64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s64_x3" target="_blank">vld1_s64_x3</a>(int64_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt3.1D},[Xn]`     | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u64_x3" target="_blank">vld1_u64_x3</a>(uint64_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt3.1D},[Xn]`     | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>poly64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p64_x3" target="_blank">vld1_p64_x3</a>(poly64_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt3.1D},[Xn]`     | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `A32/A64`                 |
+| <code>int64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s64_x3" target="_blank">vld1q_s64_x3</a>(int64_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt3.2D},[Xn]`     | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>uint64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u64_x3" target="_blank">vld1q_u64_x3</a>(uint64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt3.2D},[Xn]`     | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `v7/A32/A64`              |
+| <code>poly64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p64_x3" target="_blank">vld1q_p64_x3</a>(poly64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt3.2D},[Xn]`     | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A32/A64`                 |
+| <code>float64x1x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f64_x3" target="_blank">vld1_f64_x3</a>(float64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt3.1D},[Xn]`     | `Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`                                  | `A64`                     |
+| <code>float64x2x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f64_x3" target="_blank">vld1q_f64_x3</a>(float64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt3.2D},[Xn]`     | `Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`                                  | `A64`                     |
+| <code>mfloat8x8x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_mf8_x3" target="_blank">vld1_mf8_x3</a>(mfloat8_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B - Vt3.8B},[Xn]`     | `Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`                                  | `A64`                     |
+| <code>mfloat8x16x3_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_mf8_x3" target="_blank">vld1q_mf8_x3</a>(mfloat8_t const *ptr)</code>                                                                                                                              | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B - Vt3.16B},[Xn]`   | `Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]`                               | `A64`                     |
+| <code>int8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s8_x4" target="_blank">vld1_s8_x4</a>(int8_t const *ptr)</code>                                                                                                                                         | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B - Vt4.8B},[Xn]`     | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
+| <code>int8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s8_x4" target="_blank">vld1q_s8_x4</a>(int8_t const *ptr)</code>                                                                                                                                      | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B - Vt4.16B},[Xn]`   | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `v7/A32/A64`              |
+| <code>int16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s16_x4" target="_blank">vld1_s16_x4</a>(int16_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt4.4H},[Xn]`     | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>int16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s16_x4" target="_blank">vld1q_s16_x4</a>(int16_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt4.8H},[Xn]`     | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>int32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s32_x4" target="_blank">vld1_s32_x4</a>(int32_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S - Vt4.2S},[Xn]`     | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>int32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s32_x4" target="_blank">vld1q_s32_x4</a>(int32_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S - Vt4.4S},[Xn]`     | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u8_x4" target="_blank">vld1_u8_x4</a>(uint8_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B - Vt4.8B},[Xn]`     | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u8_x4" target="_blank">vld1q_u8_x4</a>(uint8_t const *ptr)</code>                                                                                                                                    | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B - Vt4.16B},[Xn]`   | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `v7/A32/A64`              |
+| <code>uint16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u16_x4" target="_blank">vld1_u16_x4</a>(uint16_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt4.4H},[Xn]`     | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u16_x4" target="_blank">vld1q_u16_x4</a>(uint16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt4.8H},[Xn]`     | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u32_x4" target="_blank">vld1_u32_x4</a>(uint32_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S - Vt4.2S},[Xn]`     | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u32_x4" target="_blank">vld1q_u32_x4</a>(uint32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S - Vt4.4S},[Xn]`     | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>float16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f16_x4" target="_blank">vld1_f16_x4</a>(float16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt4.4H},[Xn]`     | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>float16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f16_x4" target="_blank">vld1q_f16_x4</a>(float16_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt4.8H},[Xn]`     | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>float32x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f32_x4" target="_blank">vld1_f32_x4</a>(float32_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2S - Vt4.2S},[Xn]`     | `Vt4.2S -> result.val[3]`<br>`Vt3.2S -> result.val[2]`<br>`Vt2.2S -> result.val[1]`<br>`Vt.2S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>float32x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f32_x4" target="_blank">vld1q_f32_x4</a>(float32_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4S - Vt4.4S},[Xn]`     | `Vt4.4S -> result.val[3]`<br>`Vt3.4S -> result.val[2]`<br>`Vt2.4S -> result.val[1]`<br>`Vt.4S -> result.val[0]`     | `v7/A32/A64`              |
+| <code>poly8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p8_x4" target="_blank">vld1_p8_x4</a>(poly8_t const *ptr)</code>                                                                                                                                       | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B - Vt4.8B},[Xn]`     | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `v7/A32/A64`              |
+| <code>poly8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p8_x4" target="_blank">vld1q_p8_x4</a>(poly8_t const *ptr)</code>                                                                                                                                    | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B - Vt4.16B},[Xn]`   | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `v7/A32/A64`              |
+| <code>poly16x4x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p16_x4" target="_blank">vld1_p16_x4</a>(poly16_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.4H - Vt4.4H},[Xn]`     | `Vt4.4H -> result.val[3]`<br>`Vt3.4H -> result.val[2]`<br>`Vt2.4H -> result.val[1]`<br>`Vt.4H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>poly16x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p16_x4" target="_blank">vld1q_p16_x4</a>(poly16_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8H - Vt4.8H},[Xn]`     | `Vt4.8H -> result.val[3]`<br>`Vt3.8H -> result.val[2]`<br>`Vt2.8H -> result.val[1]`<br>`Vt.8H -> result.val[0]`     | `v7/A32/A64`              |
+| <code>int64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_s64_x4" target="_blank">vld1_s64_x4</a>(int64_t const *ptr)</code>                                                                                                                                     | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt4.1D},[Xn]`     | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_u64_x4" target="_blank">vld1_u64_x4</a>(uint64_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt4.1D},[Xn]`     | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `v7/A32/A64`              |
+| <code>poly64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_p64_x4" target="_blank">vld1_p64_x4</a>(poly64_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt4.1D},[Xn]`     | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `A32/A64`                 |
+| <code>int64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_s64_x4" target="_blank">vld1q_s64_x4</a>(int64_t const *ptr)</code>                                                                                                                                   | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt4.2D},[Xn]`     | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `v7/A32/A64`              |
+| <code>uint64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_u64_x4" target="_blank">vld1q_u64_x4</a>(uint64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt4.2D},[Xn]`     | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `v7/A32/A64`              |
+| <code>poly64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_p64_x4" target="_blank">vld1q_p64_x4</a>(poly64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt4.2D},[Xn]`     | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A32/A64`                 |
+| <code>float64x1x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_f64_x4" target="_blank">vld1_f64_x4</a>(float64_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.1D - Vt4.1D},[Xn]`     | `Vt4.1D -> result.val[3]`<br>`Vt3.1D -> result.val[2]`<br>`Vt2.1D -> result.val[1]`<br>`Vt.1D -> result.val[0]`     | `A64`                     |
+| <code>float64x2x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_f64_x4" target="_blank">vld1q_f64_x4</a>(float64_t const *ptr)</code>                                                                                                                               | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.2D - Vt4.2D},[Xn]`     | `Vt4.2D -> result.val[3]`<br>`Vt3.2D -> result.val[2]`<br>`Vt2.2D -> result.val[1]`<br>`Vt.2D -> result.val[0]`     | `A64`                     |
+| <code>mfloat8x8x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1_mf8_x4" target="_blank">vld1_mf8_x4</a>(mfloat8_t const *ptr)</code>                                                                                                                                 | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.8B - Vt4.8B},[Xn]`     | `Vt4.8B -> result.val[3]`<br>`Vt3.8B -> result.val[2]`<br>`Vt2.8B -> result.val[1]`<br>`Vt.8B -> result.val[0]`     | `A64`                     |
+| <code>mfloat8x16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vld1q_mf8_x4" target="_blank">vld1q_mf8_x4</a>(mfloat8_t const *ptr)</code>                                                                                                                              | `ptr -> Xn`                                                                                                                                 | `LD1 {Vt.16B - Vt4.16B},[Xn]`   | `Vt4.16B -> result.val[3]`<br>`Vt3.16B -> result.val[2]`<br>`Vt2.16B -> result.val[1]`<br>`Vt.16B -> result.val[0]` | `A64`                     |
 
 #### Load
 
@@ -4105,316 +4244,338 @@ The intrinsics in this section are guarded by the macro ``__ARM_NEON``.
 
 #### Stride
 
-| Intrinsic                                                                                                                                                                                                                                                                                 | Argument preparation                                                                                                                        | AArch64 Instruction             | Result   | Supported architectures   |
-|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------|----------|---------------------------|
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s8" target="_blank">vst1_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t val)</code>                                                                   | `val -> Vt.8B`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.8B},[Xn]`              |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s8" target="_blank">vst1q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t val)</code>                                                                | `val -> Vt.16B`<br>`ptr -> Xn`                                                                                                              | `ST1 {Vt.16B},[Xn]`             |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s16" target="_blank">vst1_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t val)</code>                                                               | `val -> Vt.4H`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.4H},[Xn]`              |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s16" target="_blank">vst1q_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t val)</code>                                                             | `val -> Vt.8H`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.8H},[Xn]`              |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s32" target="_blank">vst1_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t val)</code>                                                               | `val -> Vt.2S`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.2S},[Xn]`              |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s32" target="_blank">vst1q_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t val)</code>                                                             | `val -> Vt.4S`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.4S},[Xn]`              |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s64" target="_blank">vst1_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t val)</code>                                                               | `val -> Vt.1D`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.1D},[Xn]`              |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s64" target="_blank">vst1q_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t val)</code>                                                             | `val -> Vt.2D`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.2D},[Xn]`              |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u8" target="_blank">vst1_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t val)</code>                                                                 | `val -> Vt.8B`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.8B},[Xn]`              |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u8" target="_blank">vst1q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t val)</code>                                                              | `val -> Vt.16B`<br>`ptr -> Xn`                                                                                                              | `ST1 {Vt.16B},[Xn]`             |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u16" target="_blank">vst1_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t val)</code>                                                             | `val -> Vt.4H`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.4H},[Xn]`              |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u16" target="_blank">vst1q_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t val)</code>                                                           | `val -> Vt.8H`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.8H},[Xn]`              |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u32" target="_blank">vst1_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t val)</code>                                                             | `val -> Vt.2S`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.2S},[Xn]`              |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u32" target="_blank">vst1q_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t val)</code>                                                           | `val -> Vt.4S`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.4S},[Xn]`              |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u64" target="_blank">vst1_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t val)</code>                                                             | `val -> Vt.1D`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.1D},[Xn]`              |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u64" target="_blank">vst1q_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t val)</code>                                                           | `val -> Vt.2D`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.2D},[Xn]`              |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p64" target="_blank">vst1_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t val)</code>                                                             | `val -> Vt.1D`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.1D},[Xn]`              |          | `A32/A64`                 |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p64" target="_blank">vst1q_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t val)</code>                                                           | `val -> Vt.2D`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.2D},[Xn]`              |          | `A32/A64`                 |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f16" target="_blank">vst1_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t val)</code>                                                           | `val -> Vt.4H`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.4H},[Xn]`              |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f16" target="_blank">vst1q_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t val)</code>                                                         | `val -> Vt.8H`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.8H},[Xn]`              |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f32" target="_blank">vst1_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t val)</code>                                                           | `val -> Vt.2S`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.2S},[Xn]`              |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f32" target="_blank">vst1q_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t val)</code>                                                         | `val -> Vt.4S`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.4S},[Xn]`              |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p8" target="_blank">vst1_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t val)</code>                                                                 | `val -> Vt.8B`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.8B},[Xn]`              |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p8" target="_blank">vst1q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t val)</code>                                                              | `val -> Vt.16B`<br>`ptr -> Xn`                                                                                                              | `ST1 {Vt.16B},[Xn]`             |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p16" target="_blank">vst1_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t val)</code>                                                             | `val -> Vt.4H`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.4H},[Xn]`              |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p16" target="_blank">vst1q_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t val)</code>                                                           | `val -> Vt.8H`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.8H},[Xn]`              |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f64" target="_blank">vst1_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t val)</code>                                                           | `val -> Vt.1D`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.1D},[Xn]`              |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f64" target="_blank">vst1q_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t val)</code>                                                         | `val -> Vt.2D`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.2D},[Xn]`              |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_s8" target="_blank">vst1_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>             | `val -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                                                           | `ST1 {Vt.b}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_s8" target="_blank">vst1q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `val -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15`                                                                                         | `ST1 {Vt.b}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_s16" target="_blank">vst1_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `val -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                                                           | `ST1 {Vt.h}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_s16" target="_blank">vst1q_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                                                           | `ST1 {Vt.h}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_s32" target="_blank">vst1_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `val -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                                                           | `ST1 {Vt.s}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_s32" target="_blank">vst1q_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                                                           | `ST1 {Vt.s}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_s64" target="_blank">vst1_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `val -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                                                           | `ST1 {Vt.d}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_s64" target="_blank">vst1q_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                                                           | `ST1 {Vt.d}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_u8" target="_blank">vst1_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `val -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                                                           | `ST1 {Vt.b}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_u8" target="_blank">vst1q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `val -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15`                                                                                         | `ST1 {Vt.b}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_u16" target="_blank">vst1_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                                                           | `ST1 {Vt.h}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_u16" target="_blank">vst1q_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                                                           | `ST1 {Vt.h}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_u32" target="_blank">vst1_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                                                           | `ST1 {Vt.s}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_u32" target="_blank">vst1q_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                                                           | `ST1 {Vt.s}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_u64" target="_blank">vst1_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                                                           | `ST1 {Vt.d}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_u64" target="_blank">vst1q_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                                                           | `ST1 {Vt.d}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_p64" target="_blank">vst1_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                                                           | `ST1 {Vt.d}[lane],[Xn]`         |          | `A32/A64`                 |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_p64" target="_blank">vst1q_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                                                           | `ST1 {Vt.d}[lane],[Xn]`         |          | `A32/A64`                 |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_f16" target="_blank">vst1_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                                                           | `ST1 {Vt.h}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_f16" target="_blank">vst1q_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                                                           | `ST1 {Vt.h}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_f32" target="_blank">vst1_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                                                           | `ST1 {Vt.s}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_f32" target="_blank">vst1q_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                                                           | `ST1 {Vt.s}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_p8" target="_blank">vst1_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `val -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                                                           | `ST1 {Vt.b}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_p8" target="_blank">vst1q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `val -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15`                                                                                         | `ST1 {Vt.b}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_p16" target="_blank">vst1_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                                                           | `ST1 {Vt.h}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_p16" target="_blank">vst1q_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                                                           | `ST1 {Vt.h}[lane],[Xn]`         |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_f64" target="_blank">vst1_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                                                           | `ST1 {Vt.d}[lane],[Xn]`         |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_f64" target="_blank">vst1q_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                                                           | `ST1 {Vt.d}[lane],[Xn]`         |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_s8" target="_blank">vst2_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x2_t val)</code>                                                                 | `val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.8B - Vt2.8B},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_s8" target="_blank">vst2q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x2_t val)</code>                                                              | `val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                                            | `ST2 {Vt.16B - Vt2.16B},[Xn]`   |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_s16" target="_blank">vst2_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x2_t val)</code>                                                             | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.4H - Vt2.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_s16" target="_blank">vst2q_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x2_t val)</code>                                                           | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.8H - Vt2.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_s32" target="_blank">vst2_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x2_t val)</code>                                                             | `val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.2S - Vt2.2S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_s32" target="_blank">vst2q_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x2_t val)</code>                                                           | `val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.4S - Vt2.4S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_u8" target="_blank">vst2_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x2_t val)</code>                                                               | `val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.8B - Vt2.8B},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_u8" target="_blank">vst2q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x2_t val)</code>                                                            | `val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                                            | `ST2 {Vt.16B - Vt2.16B},[Xn]`   |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_u16" target="_blank">vst2_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x2_t val)</code>                                                           | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.4H - Vt2.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_u16" target="_blank">vst2q_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x2_t val)</code>                                                         | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.8H - Vt2.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_u32" target="_blank">vst2_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x2_t val)</code>                                                           | `val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.2S - Vt2.2S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_u32" target="_blank">vst2q_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x2_t val)</code>                                                         | `val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.4S - Vt2.4S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_f16" target="_blank">vst2_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x2_t val)</code>                                                         | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.4H - Vt2.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_f16" target="_blank">vst2q_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x2_t val)</code>                                                       | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.8H - Vt2.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_f32" target="_blank">vst2_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x2_t val)</code>                                                         | `val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.2S - Vt2.2S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_f32" target="_blank">vst2q_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x2_t val)</code>                                                       | `val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.4S - Vt2.4S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_p8" target="_blank">vst2_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x2_t val)</code>                                                               | `val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.8B - Vt2.8B},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_p8" target="_blank">vst2q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x2_t val)</code>                                                            | `val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                                            | `ST2 {Vt.16B - Vt2.16B},[Xn]`   |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_p16" target="_blank">vst2_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x2_t val)</code>                                                           | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.4H - Vt2.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_p16" target="_blank">vst2q_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x2_t val)</code>                                                         | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.8H - Vt2.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_s64" target="_blank">vst2_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x2_t val)</code>                                                             | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.1D - Vt2.1D},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_u64" target="_blank">vst2_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x2_t val)</code>                                                           | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.1D - Vt2.1D},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_p64" target="_blank">vst2_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x2_t val)</code>                                                           | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.1D - Vt2.1D},[Xn]`     |          | `A32/A64`                 |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_s64" target="_blank">vst2q_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x2_t val)</code>                                                           | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.2D - Vt2.2D},[Xn]`     |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_u64" target="_blank">vst2q_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x2_t val)</code>                                                         | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.2D - Vt2.2D},[Xn]`     |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_p64" target="_blank">vst2q_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x2_t val)</code>                                                         | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.2D - Vt2.2D},[Xn]`     |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_f64" target="_blank">vst2_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x2_t val)</code>                                                         | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.1D - Vt2.1D},[Xn]`     |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_f64" target="_blank">vst2q_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x2_t val)</code>                                                       | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.2D - Vt2.2D},[Xn]`     |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_s8" target="_blank">vst3_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x3_t val)</code>                                                                 | `val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                    | `ST3 {Vt.8B - Vt3.8B},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_s8" target="_blank">vst3q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x3_t val)</code>                                                              | `val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                 | `ST3 {Vt.16B - Vt3.16B},[Xn]`   |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_s16" target="_blank">vst3_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x3_t val)</code>                                                             | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                    | `ST3 {Vt.4H - Vt3.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_s16" target="_blank">vst3q_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x3_t val)</code>                                                           | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                    | `ST3 {Vt.8H - Vt3.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_s32" target="_blank">vst3_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x3_t val)</code>                                                             | `val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                    | `ST3 {Vt.2S - Vt3.2S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_s32" target="_blank">vst3q_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x3_t val)</code>                                                           | `val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                    | `ST3 {Vt.4S - Vt3.4S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_u8" target="_blank">vst3_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x3_t val)</code>                                                               | `val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                    | `ST3 {Vt.8B - Vt3.8B},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_u8" target="_blank">vst3q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x3_t val)</code>                                                            | `val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                 | `ST3 {Vt.16B - Vt3.16B},[Xn]`   |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_u16" target="_blank">vst3_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x3_t val)</code>                                                           | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                    | `ST3 {Vt.4H - Vt3.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_u16" target="_blank">vst3q_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x3_t val)</code>                                                         | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                    | `ST3 {Vt.8H - Vt3.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_u32" target="_blank">vst3_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x3_t val)</code>                                                           | `val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                    | `ST3 {Vt.2S - Vt3.2S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_u32" target="_blank">vst3q_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x3_t val)</code>                                                         | `val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                    | `ST3 {Vt.4S - Vt3.4S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_f16" target="_blank">vst3_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x3_t val)</code>                                                         | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                    | `ST3 {Vt.4H - Vt3.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_f16" target="_blank">vst3q_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x3_t val)</code>                                                       | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                    | `ST3 {Vt.8H - Vt3.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_f32" target="_blank">vst3_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x3_t val)</code>                                                         | `val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                    | `ST3 {Vt.2S - Vt3.2S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_f32" target="_blank">vst3q_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x3_t val)</code>                                                       | `val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                    | `ST3 {Vt.4S - Vt3.4S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_p8" target="_blank">vst3_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x3_t val)</code>                                                               | `val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                    | `ST3 {Vt.8B - Vt3.8B},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_p8" target="_blank">vst3q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x3_t val)</code>                                                            | `val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                 | `ST3 {Vt.16B - Vt3.16B},[Xn]`   |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_p16" target="_blank">vst3_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x3_t val)</code>                                                           | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                    | `ST3 {Vt.4H - Vt3.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_p16" target="_blank">vst3q_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x3_t val)</code>                                                         | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                    | `ST3 {Vt.8H - Vt3.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_s64" target="_blank">vst3_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x3_t val)</code>                                                             | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.1D - Vt3.1D},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_u64" target="_blank">vst3_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x3_t val)</code>                                                           | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.1D - Vt3.1D},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_p64" target="_blank">vst3_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x3_t val)</code>                                                           | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.1D - Vt3.1D},[Xn]`     |          | `A32/A64`                 |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_s64" target="_blank">vst3q_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x3_t val)</code>                                                           | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                    | `ST3 {Vt.2D - Vt3.2D},[Xn]`     |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_u64" target="_blank">vst3q_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x3_t val)</code>                                                         | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                    | `ST3 {Vt.2D - Vt3.2D},[Xn]`     |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_p64" target="_blank">vst3q_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x3_t val)</code>                                                         | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                    | `ST3 {Vt.2D - Vt3.2D},[Xn]`     |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_f64" target="_blank">vst3_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x3_t val)</code>                                                         | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.1D - Vt3.1D},[Xn]`     |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_f64" target="_blank">vst3q_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x3_t val)</code>                                                       | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                    | `ST3 {Vt.2D - Vt3.2D},[Xn]`     |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_s8" target="_blank">vst4_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x4_t val)</code>                                                                 | `val.val[3] -> Vt4.8B`<br>`val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                          | `ST4 {Vt.8B - Vt4.8B},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_s8" target="_blank">vst4q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x4_t val)</code>                                                              | `val.val[3] -> Vt4.16B`<br>`val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                      | `ST4 {Vt.16B - Vt4.16B},[Xn]`   |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_s16" target="_blank">vst4_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x4_t val)</code>                                                             | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                          | `ST4 {Vt.4H - Vt4.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_s16" target="_blank">vst4q_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x4_t val)</code>                                                           | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                          | `ST4 {Vt.8H - Vt4.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_s32" target="_blank">vst4_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x4_t val)</code>                                                             | `val.val[3] -> Vt4.2S`<br>`val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                          | `ST4 {Vt.2S - Vt4.2S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_s32" target="_blank">vst4q_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x4_t val)</code>                                                           | `val.val[3] -> Vt4.4S`<br>`val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                          | `ST4 {Vt.4S - Vt4.4S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_u8" target="_blank">vst4_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x4_t val)</code>                                                               | `val.val[3] -> Vt4.8B`<br>`val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                          | `ST4 {Vt.8B - Vt4.8B},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_u8" target="_blank">vst4q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x4_t val)</code>                                                            | `val.val[3] -> Vt4.16B`<br>`val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                      | `ST4 {Vt.16B - Vt4.16B},[Xn]`   |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_u16" target="_blank">vst4_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x4_t val)</code>                                                           | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                          | `ST4 {Vt.4H - Vt4.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_u16" target="_blank">vst4q_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x4_t val)</code>                                                         | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                          | `ST4 {Vt.8H - Vt4.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_u32" target="_blank">vst4_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x4_t val)</code>                                                           | `val.val[3] -> Vt4.2S`<br>`val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                          | `ST4 {Vt.2S - Vt4.2S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_u32" target="_blank">vst4q_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x4_t val)</code>                                                         | `val.val[3] -> Vt4.4S`<br>`val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                          | `ST4 {Vt.4S - Vt4.4S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_f16" target="_blank">vst4_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x4_t val)</code>                                                         | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                          | `ST4 {Vt.4H - Vt4.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_f16" target="_blank">vst4q_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x4_t val)</code>                                                       | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                          | `ST4 {Vt.8H - Vt4.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_f32" target="_blank">vst4_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x4_t val)</code>                                                         | `val.val[3] -> Vt4.2S`<br>`val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                          | `ST4 {Vt.2S - Vt4.2S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_f32" target="_blank">vst4q_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x4_t val)</code>                                                       | `val.val[3] -> Vt4.4S`<br>`val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                          | `ST4 {Vt.4S - Vt4.4S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_p8" target="_blank">vst4_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x4_t val)</code>                                                               | `val.val[3] -> Vt4.8B`<br>`val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                          | `ST4 {Vt.8B - Vt4.8B},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_p8" target="_blank">vst4q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x4_t val)</code>                                                            | `val.val[3] -> Vt4.16B`<br>`val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                      | `ST4 {Vt.16B - Vt4.16B},[Xn]`   |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_p16" target="_blank">vst4_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x4_t val)</code>                                                           | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                          | `ST4 {Vt.4H - Vt4.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_p16" target="_blank">vst4q_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x4_t val)</code>                                                         | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                          | `ST4 {Vt.8H - Vt4.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_s64" target="_blank">vst4_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x4_t val)</code>                                                             | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                          | `ST1 {Vt.1D - Vt4.1D},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_u64" target="_blank">vst4_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x4_t val)</code>                                                           | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                          | `ST1 {Vt.1D - Vt4.1D},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_p64" target="_blank">vst4_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x4_t val)</code>                                                           | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                          | `ST1 {Vt.1D - Vt4.1D},[Xn]`     |          | `A32/A64`                 |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_s64" target="_blank">vst4q_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x4_t val)</code>                                                           | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                          | `ST4 {Vt.2D - Vt4.2D},[Xn]`     |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_u64" target="_blank">vst4q_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x4_t val)</code>                                                         | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                          | `ST4 {Vt.2D - Vt4.2D},[Xn]`     |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_p64" target="_blank">vst4q_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x4_t val)</code>                                                         | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                          | `ST4 {Vt.2D - Vt4.2D},[Xn]`     |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_f64" target="_blank">vst4_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x4_t val)</code>                                                         | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                          | `ST1 {Vt.1D - Vt4.1D},[Xn]`     |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_f64" target="_blank">vst4q_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x4_t val)</code>                                                       | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                          | `ST4 {Vt.2D - Vt4.2D},[Xn]`     |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_s8" target="_blank">vst2_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                          | `ST2 {Vt.b - Vt2.b}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_u8" target="_blank">vst2_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                          | `ST2 {Vt.b - Vt2.b}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_p8" target="_blank">vst2_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                          | `ST2 {Vt.b - Vt2.b}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_s8" target="_blank">vst3_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                | `ST3 {Vt.b - Vt3.b}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_u8" target="_blank">vst3_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                | `ST3 {Vt.b - Vt3.b}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_p8" target="_blank">vst3_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                | `ST3 {Vt.b - Vt3.b}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_s8" target="_blank">vst4_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `val.val[3] -> Vt4.8B`<br>`val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`      | `ST4 {Vt.b - Vt4.b}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_u8" target="_blank">vst4_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `val.val[3] -> Vt4.8B`<br>`val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`      | `ST4 {Vt.b - Vt4.b}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_p8" target="_blank">vst4_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `val.val[3] -> Vt4.8B`<br>`val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`      | `ST4 {Vt.b - Vt4.b}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_s16" target="_blank">vst2_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                          | `ST2 {Vt.h - Vt2.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_s16" target="_blank">vst2q_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                          | `ST2 {Vt.h - Vt2.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_s32" target="_blank">vst2_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                          | `ST2 {Vt.s - Vt2.s}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_s32" target="_blank">vst2q_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                          | `ST2 {Vt.s - Vt2.s}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_u16" target="_blank">vst2_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                          | `ST2 {Vt.h - Vt2.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_u16" target="_blank">vst2q_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                          | `ST2 {Vt.h - Vt2.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_u32" target="_blank">vst2_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                          | `ST2 {Vt.s - Vt2.s}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_u32" target="_blank">vst2q_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                          | `ST2 {Vt.s - Vt2.s}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_f16" target="_blank">vst2_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                          | `ST2 {Vt.h - Vt2.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_f16" target="_blank">vst2q_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                          | `ST2 {Vt.h - Vt2.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_f32" target="_blank">vst2_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                          | `ST2 {Vt.s - Vt2.s}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_f32" target="_blank">vst2q_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                          | `ST2 {Vt.s - Vt2.s}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_p16" target="_blank">vst2_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                          | `ST2 {Vt.h - Vt2.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_p16" target="_blank">vst2q_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                          | `ST2 {Vt.h - Vt2.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_s8" target="_blank">vst2q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15`                                                       | `ST2 {Vt.b - Vt2.b}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_u8" target="_blank">vst2q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15`                                                       | `ST2 {Vt.b - Vt2.b}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_p8" target="_blank">vst2q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15`                                                       | `ST2 {Vt.b - Vt2.b}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_s64" target="_blank">vst2_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                          | `ST2 {Vt.d - Vt2.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_s64" target="_blank">vst2q_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                          | `ST2 {Vt.d - Vt2.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_u64" target="_blank">vst2_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                          | `ST2 {Vt.d - Vt2.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_u64" target="_blank">vst2q_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                          | `ST2 {Vt.d - Vt2.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_p64" target="_blank">vst2_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                          | `ST2 {Vt.d - Vt2.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_p64" target="_blank">vst2q_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                          | `ST2 {Vt.d - Vt2.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_f64" target="_blank">vst2_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                          | `ST2 {Vt.d - Vt2.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_f64" target="_blank">vst2q_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                          | `ST2 {Vt.d - Vt2.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_s16" target="_blank">vst3_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                | `ST3 {Vt.h - Vt3.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_s16" target="_blank">vst3q_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                | `ST3 {Vt.h - Vt3.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_s32" target="_blank">vst3_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                | `ST3 {Vt.s - Vt3.s}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_s32" target="_blank">vst3q_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                | `ST3 {Vt.s - Vt3.s}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_u16" target="_blank">vst3_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                | `ST3 {Vt.h - Vt3.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_u16" target="_blank">vst3q_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                | `ST3 {Vt.h - Vt3.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_u32" target="_blank">vst3_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                | `ST3 {Vt.s - Vt3.s}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_u32" target="_blank">vst3q_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                | `ST3 {Vt.s - Vt3.s}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_f16" target="_blank">vst3_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                | `ST3 {Vt.h - Vt3.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_f16" target="_blank">vst3q_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                | `ST3 {Vt.h - Vt3.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_f32" target="_blank">vst3_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                | `ST3 {Vt.s - Vt3.s}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_f32" target="_blank">vst3q_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                | `ST3 {Vt.s - Vt3.s}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_p16" target="_blank">vst3_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                | `ST3 {Vt.h - Vt3.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_p16" target="_blank">vst3q_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                | `ST3 {Vt.h - Vt3.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_s8" target="_blank">vst3q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15`                            | `ST3 {Vt.b - Vt3.b}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_u8" target="_blank">vst3q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15`                            | `ST3 {Vt.b - Vt3.b}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_p8" target="_blank">vst3q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15`                            | `ST3 {Vt.b - Vt3.b}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_s64" target="_blank">vst3_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                | `ST3 {Vt.d - Vt3.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_s64" target="_blank">vst3q_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                | `ST3 {Vt.d - Vt3.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_u64" target="_blank">vst3_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                | `ST3 {Vt.d - Vt3.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_u64" target="_blank">vst3q_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                | `ST3 {Vt.d - Vt3.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_p64" target="_blank">vst3_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                | `ST3 {Vt.d - Vt3.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_p64" target="_blank">vst3q_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                | `ST3 {Vt.d - Vt3.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_f64" target="_blank">vst3_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                | `ST3 {Vt.d - Vt3.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_f64" target="_blank">vst3q_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                | `ST3 {Vt.d - Vt3.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_s16" target="_blank">vst4_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`      | `ST4 {Vt.h - Vt4.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_s16" target="_blank">vst4q_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`      | `ST4 {Vt.h - Vt4.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_s32" target="_blank">vst4_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val.val[3] -> Vt4.2S`<br>`val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`      | `ST4 {Vt.s - Vt4.s}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_s32" target="_blank">vst4q_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[3] -> Vt4.4S`<br>`val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`      | `ST4 {Vt.s - Vt4.s}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_u16" target="_blank">vst4_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`      | `ST4 {Vt.h - Vt4.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_u16" target="_blank">vst4q_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`      | `ST4 {Vt.h - Vt4.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_u32" target="_blank">vst4_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[3] -> Vt4.2S`<br>`val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`      | `ST4 {Vt.s - Vt4.s}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_u32" target="_blank">vst4q_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[3] -> Vt4.4S`<br>`val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`      | `ST4 {Vt.s - Vt4.s}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_f16" target="_blank">vst4_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`      | `ST4 {Vt.h - Vt4.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_f16" target="_blank">vst4q_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`      | `ST4 {Vt.h - Vt4.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_f32" target="_blank">vst4_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[3] -> Vt4.2S`<br>`val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`      | `ST4 {Vt.s - Vt4.s}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_f32" target="_blank">vst4q_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `val.val[3] -> Vt4.4S`<br>`val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`      | `ST4 {Vt.s - Vt4.s}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_p16" target="_blank">vst4_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`      | `ST4 {Vt.h - Vt4.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_p16" target="_blank">vst4q_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`      | `ST4 {Vt.h - Vt4.h}[lane],[Xn]` |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_s8" target="_blank">vst4q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `val.val[3] -> Vt4.16B`<br>`val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15` | `ST4 {Vt.b - Vt4.b}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_u8" target="_blank">vst4q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[3] -> Vt4.16B`<br>`val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15` | `ST4 {Vt.b - Vt4.b}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_p8" target="_blank">vst4q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[3] -> Vt4.16B`<br>`val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15` | `ST4 {Vt.b - Vt4.b}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_s64" target="_blank">vst4_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`      | `ST4 {Vt.d - Vt4.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_s64" target="_blank">vst4q_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`      | `ST4 {Vt.d - Vt4.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_u64" target="_blank">vst4_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`      | `ST4 {Vt.d - Vt4.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_u64" target="_blank">vst4q_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`      | `ST4 {Vt.d - Vt4.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_p64" target="_blank">vst4_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>     | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`      | `ST4 {Vt.d - Vt4.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_p64" target="_blank">vst4q_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`      | `ST4 {Vt.d - Vt4.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_f64" target="_blank">vst4_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`      | `ST4 {Vt.d - Vt4.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_f64" target="_blank">vst4q_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`      | `ST4 {Vt.d - Vt4.d}[lane],[Xn]` |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s8_x2" target="_blank">vst1_s8_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x2_t val)</code>                                                           | `val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.8B - Vt2.8B},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s8_x2" target="_blank">vst1q_s8_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x2_t val)</code>                                                        | `val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                                            | `ST1 {Vt.16B - Vt2.16B},[Xn]`   |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s16_x2" target="_blank">vst1_s16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x2_t val)</code>                                                       | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.4H - Vt2.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s16_x2" target="_blank">vst1q_s16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x2_t val)</code>                                                     | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.8H - Vt2.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s32_x2" target="_blank">vst1_s32_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x2_t val)</code>                                                       | `val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.2S - Vt2.2S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s32_x2" target="_blank">vst1q_s32_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x2_t val)</code>                                                     | `val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.4S - Vt2.4S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u8_x2" target="_blank">vst1_u8_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x2_t val)</code>                                                         | `val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.8B - Vt2.8B},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u8_x2" target="_blank">vst1q_u8_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x2_t val)</code>                                                      | `val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                                            | `ST1 {Vt.16B - Vt2.16B},[Xn]`   |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u16_x2" target="_blank">vst1_u16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x2_t val)</code>                                                     | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.4H - Vt2.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u16_x2" target="_blank">vst1q_u16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x2_t val)</code>                                                   | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.8H - Vt2.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u32_x2" target="_blank">vst1_u32_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x2_t val)</code>                                                     | `val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.2S - Vt2.2S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u32_x2" target="_blank">vst1q_u32_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x2_t val)</code>                                                   | `val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.4S - Vt2.4S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f16_x2" target="_blank">vst1_f16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x2_t val)</code>                                                   | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.4H - Vt2.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f16_x2" target="_blank">vst1q_f16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x2_t val)</code>                                                 | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.8H - Vt2.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f32_x2" target="_blank">vst1_f32_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x2_t val)</code>                                                   | `val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.2S - Vt2.2S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f32_x2" target="_blank">vst1q_f32_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x2_t val)</code>                                                 | `val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.4S - Vt2.4S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p8_x2" target="_blank">vst1_p8_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x2_t val)</code>                                                         | `val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.8B - Vt2.8B},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p8_x2" target="_blank">vst1q_p8_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x2_t val)</code>                                                      | `val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                                            | `ST1 {Vt.16B - Vt2.16B},[Xn]`   |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p16_x2" target="_blank">vst1_p16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x2_t val)</code>                                                     | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.4H - Vt2.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p16_x2" target="_blank">vst1q_p16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x2_t val)</code>                                                   | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.8H - Vt2.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s64_x2" target="_blank">vst1_s64_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x2_t val)</code>                                                       | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.1D - Vt2.1D},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u64_x2" target="_blank">vst1_u64_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x2_t val)</code>                                                     | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.1D - Vt2.1D},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p64_x2" target="_blank">vst1_p64_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x2_t val)</code>                                                     | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.1D - Vt2.1D},[Xn]`     |          | `A32/A64`                 |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s64_x2" target="_blank">vst1q_s64_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x2_t val)</code>                                                     | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.2D - Vt2.2D},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u64_x2" target="_blank">vst1q_u64_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x2_t val)</code>                                                   | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.2D - Vt2.2D},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p64_x2" target="_blank">vst1q_p64_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x2_t val)</code>                                                   | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.2D - Vt2.2D},[Xn]`     |          | `A32/A64`                 |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f64_x2" target="_blank">vst1_f64_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x2_t val)</code>                                                   | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.1D - Vt2.1D},[Xn]`     |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f64_x2" target="_blank">vst1q_f64_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x2_t val)</code>                                                 | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.2D - Vt2.2D},[Xn]`     |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s8_x3" target="_blank">vst1_s8_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x3_t val)</code>                                                           | `val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                    | `ST1 {Vt.8B - Vt3.8B},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s8_x3" target="_blank">vst1q_s8_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x3_t val)</code>                                                        | `val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                 | `ST1 {Vt.16B - Vt3.16B},[Xn]`   |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s16_x3" target="_blank">vst1_s16_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x3_t val)</code>                                                       | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                    | `ST1 {Vt.4H - Vt3.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s16_x3" target="_blank">vst1q_s16_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x3_t val)</code>                                                     | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                    | `ST1 {Vt.8H - Vt3.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s32_x3" target="_blank">vst1_s32_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x3_t val)</code>                                                       | `val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                    | `ST1 {Vt.2S - Vt3.2S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s32_x3" target="_blank">vst1q_s32_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x3_t val)</code>                                                     | `val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                    | `ST1 {Vt.4S - Vt3.4S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u8_x3" target="_blank">vst1_u8_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x3_t val)</code>                                                         | `val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                    | `ST1 {Vt.8B - Vt3.8B},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u8_x3" target="_blank">vst1q_u8_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x3_t val)</code>                                                      | `val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                 | `ST1 {Vt.16B - Vt3.16B},[Xn]`   |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u16_x3" target="_blank">vst1_u16_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x3_t val)</code>                                                     | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                    | `ST1 {Vt.4H - Vt3.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u16_x3" target="_blank">vst1q_u16_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x3_t val)</code>                                                   | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                    | `ST1 {Vt.8H - Vt3.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u32_x3" target="_blank">vst1_u32_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x3_t val)</code>                                                     | `val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                    | `ST1 {Vt.2S - Vt3.2S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u32_x3" target="_blank">vst1q_u32_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x3_t val)</code>                                                   | `val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                    | `ST1 {Vt.4S - Vt3.4S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f16_x3" target="_blank">vst1_f16_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x3_t val)</code>                                                   | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                    | `ST1 {Vt.4H - Vt3.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f16_x3" target="_blank">vst1q_f16_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x3_t val)</code>                                                 | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                    | `ST1 {Vt.8H - Vt3.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f32_x3" target="_blank">vst1_f32_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x3_t val)</code>                                                   | `val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                    | `ST1 {Vt.2S - Vt3.2S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f32_x3" target="_blank">vst1q_f32_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x3_t val)</code>                                                 | `val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                    | `ST1 {Vt.4S - Vt3.4S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p8_x3" target="_blank">vst1_p8_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x3_t val)</code>                                                         | `val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                    | `ST1 {Vt.8B - Vt3.8B},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p8_x3" target="_blank">vst1q_p8_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x3_t val)</code>                                                      | `val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                 | `ST1 {Vt.16B - Vt3.16B},[Xn]`   |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p16_x3" target="_blank">vst1_p16_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x3_t val)</code>                                                     | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                    | `ST1 {Vt.4H - Vt3.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p16_x3" target="_blank">vst1q_p16_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x3_t val)</code>                                                   | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                    | `ST1 {Vt.8H - Vt3.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s64_x3" target="_blank">vst1_s64_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x3_t val)</code>                                                       | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.1D - Vt3.1D},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u64_x3" target="_blank">vst1_u64_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x3_t val)</code>                                                     | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.1D - Vt3.1D},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p64_x3" target="_blank">vst1_p64_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x3_t val)</code>                                                     | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.1D - Vt3.1D},[Xn]`     |          | `A32/A64`                 |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s64_x3" target="_blank">vst1q_s64_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x3_t val)</code>                                                     | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.2D - Vt3.2D},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u64_x3" target="_blank">vst1q_u64_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x3_t val)</code>                                                   | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.2D - Vt3.2D},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p64_x3" target="_blank">vst1q_p64_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x3_t val)</code>                                                   | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.2D - Vt3.2D},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f64_x3" target="_blank">vst1_f64_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x3_t val)</code>                                                   | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.1D - Vt3.1D},[Xn]`     |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f64_x3" target="_blank">vst1q_f64_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x3_t val)</code>                                                 | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.2D - Vt3.2D},[Xn]`     |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s8_x4" target="_blank">vst1_s8_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x4_t val)</code>                                                           | `val.val[3] -> Vt4.8B`<br>`val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                          | `ST1 {Vt.8B - Vt4.8B},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s8_x4" target="_blank">vst1q_s8_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x4_t val)</code>                                                        | `val.val[3] -> Vt4.16B`<br>`val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                      | `ST1 {Vt.16B - Vt4.16B},[Xn]`   |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s16_x4" target="_blank">vst1_s16_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x4_t val)</code>                                                       | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                          | `ST1 {Vt.4H - Vt4.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s16_x4" target="_blank">vst1q_s16_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x4_t val)</code>                                                     | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                          | `ST1 {Vt.8H - Vt4.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s32_x4" target="_blank">vst1_s32_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x4_t val)</code>                                                       | `val.val[3] -> Vt4.2S`<br>`val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                          | `ST1 {Vt.2S - Vt4.2S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s32_x4" target="_blank">vst1q_s32_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x4_t val)</code>                                                     | `val.val[3] -> Vt4.4S`<br>`val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                          | `ST1 {Vt.4S - Vt4.4S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u8_x4" target="_blank">vst1_u8_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x4_t val)</code>                                                         | `val.val[3] -> Vt4.8B`<br>`val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                          | `ST1 {Vt.8B - Vt4.8B},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u8_x4" target="_blank">vst1q_u8_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x4_t val)</code>                                                      | `val.val[3] -> Vt4.16B`<br>`val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                      | `ST1 {Vt.16B - Vt4.16B},[Xn]`   |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u16_x4" target="_blank">vst1_u16_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x4_t val)</code>                                                     | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                          | `ST1 {Vt.4H - Vt4.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u16_x4" target="_blank">vst1q_u16_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x4_t val)</code>                                                   | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                          | `ST1 {Vt.8H - Vt4.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u32_x4" target="_blank">vst1_u32_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x4_t val)</code>                                                     | `val.val[3] -> Vt4.2S`<br>`val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                          | `ST1 {Vt.2S - Vt4.2S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u32_x4" target="_blank">vst1q_u32_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x4_t val)</code>                                                   | `val.val[3] -> Vt4.4S`<br>`val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                          | `ST1 {Vt.4S - Vt4.4S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f16_x4" target="_blank">vst1_f16_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x4_t val)</code>                                                   | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                          | `ST1 {Vt.4H - Vt4.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f16_x4" target="_blank">vst1q_f16_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x4_t val)</code>                                                 | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                          | `ST1 {Vt.8H - Vt4.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f32_x4" target="_blank">vst1_f32_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x4_t val)</code>                                                   | `val.val[3] -> Vt4.2S`<br>`val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                          | `ST1 {Vt.2S - Vt4.2S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f32_x4" target="_blank">vst1q_f32_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x4_t val)</code>                                                 | `val.val[3] -> Vt4.4S`<br>`val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                          | `ST1 {Vt.4S - Vt4.4S},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p8_x4" target="_blank">vst1_p8_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x4_t val)</code>                                                         | `val.val[3] -> Vt4.8B`<br>`val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                          | `ST1 {Vt.8B - Vt4.8B},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p8_x4" target="_blank">vst1q_p8_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x4_t val)</code>                                                      | `val.val[3] -> Vt4.16B`<br>`val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                      | `ST1 {Vt.16B - Vt4.16B},[Xn]`   |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p16_x4" target="_blank">vst1_p16_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x4_t val)</code>                                                     | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                          | `ST1 {Vt.4H - Vt4.4H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p16_x4" target="_blank">vst1q_p16_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x4_t val)</code>                                                   | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                          | `ST1 {Vt.8H - Vt4.8H},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s64_x4" target="_blank">vst1_s64_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x4_t val)</code>                                                       | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                          | `ST1 {Vt.1D - Vt4.1D},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u64_x4" target="_blank">vst1_u64_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x4_t val)</code>                                                     | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                          | `ST1 {Vt.1D - Vt4.1D},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p64_x4" target="_blank">vst1_p64_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x4_t val)</code>                                                     | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                          | `ST1 {Vt.1D - Vt4.1D},[Xn]`     |          | `A32/A64`                 |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s64_x4" target="_blank">vst1q_s64_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x4_t val)</code>                                                     | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                          | `ST1 {Vt.2D - Vt4.2D},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u64_x4" target="_blank">vst1q_u64_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x4_t val)</code>                                                   | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                          | `ST1 {Vt.2D - Vt4.2D},[Xn]`     |          | `v7/A32/A64`              |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p64_x4" target="_blank">vst1q_p64_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x4_t val)</code>                                                   | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                          | `ST1 {Vt.2D - Vt4.2D},[Xn]`     |          | `A32/A64`                 |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f64_x4" target="_blank">vst1_f64_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x4_t val)</code>                                                   | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                          | `ST1 {Vt.1D - Vt4.1D},[Xn]`     |          | `A64`                     |
-| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f64_x4" target="_blank">vst1q_f64_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x4_t val)</code>                                                 | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                          | `ST1 {Vt.2D - Vt4.2D},[Xn]`     |          | `A64`                     |
+| Intrinsic                                                                                                                                                                                                                                                                                  | Argument preparation                                                                                                                        | AArch64 Instruction             | Result   | Supported architectures   |
+|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------|----------|---------------------------|
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s8" target="_blank">vst1_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t val)</code>                                                                    | `val -> Vt.8B`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.8B},[Xn]`              |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s8" target="_blank">vst1q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t val)</code>                                                                 | `val -> Vt.16B`<br>`ptr -> Xn`                                                                                                              | `ST1 {Vt.16B},[Xn]`             |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s16" target="_blank">vst1_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t val)</code>                                                                | `val -> Vt.4H`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.4H},[Xn]`              |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s16" target="_blank">vst1q_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t val)</code>                                                              | `val -> Vt.8H`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.8H},[Xn]`              |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s32" target="_blank">vst1_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t val)</code>                                                                | `val -> Vt.2S`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.2S},[Xn]`              |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s32" target="_blank">vst1q_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t val)</code>                                                              | `val -> Vt.4S`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.4S},[Xn]`              |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s64" target="_blank">vst1_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t val)</code>                                                                | `val -> Vt.1D`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.1D},[Xn]`              |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s64" target="_blank">vst1q_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t val)</code>                                                              | `val -> Vt.2D`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.2D},[Xn]`              |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u8" target="_blank">vst1_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t val)</code>                                                                  | `val -> Vt.8B`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.8B},[Xn]`              |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u8" target="_blank">vst1q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t val)</code>                                                               | `val -> Vt.16B`<br>`ptr -> Xn`                                                                                                              | `ST1 {Vt.16B},[Xn]`             |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u16" target="_blank">vst1_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t val)</code>                                                              | `val -> Vt.4H`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.4H},[Xn]`              |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u16" target="_blank">vst1q_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t val)</code>                                                            | `val -> Vt.8H`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.8H},[Xn]`              |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u32" target="_blank">vst1_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t val)</code>                                                              | `val -> Vt.2S`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.2S},[Xn]`              |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u32" target="_blank">vst1q_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t val)</code>                                                            | `val -> Vt.4S`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.4S},[Xn]`              |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u64" target="_blank">vst1_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t val)</code>                                                              | `val -> Vt.1D`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.1D},[Xn]`              |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u64" target="_blank">vst1q_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t val)</code>                                                            | `val -> Vt.2D`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.2D},[Xn]`              |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p64" target="_blank">vst1_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t val)</code>                                                              | `val -> Vt.1D`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.1D},[Xn]`              |          | `A32/A64`                 |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p64" target="_blank">vst1q_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t val)</code>                                                            | `val -> Vt.2D`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.2D},[Xn]`              |          | `A32/A64`                 |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f16" target="_blank">vst1_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t val)</code>                                                            | `val -> Vt.4H`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.4H},[Xn]`              |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f16" target="_blank">vst1q_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t val)</code>                                                          | `val -> Vt.8H`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.8H},[Xn]`              |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f32" target="_blank">vst1_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t val)</code>                                                            | `val -> Vt.2S`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.2S},[Xn]`              |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f32" target="_blank">vst1q_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t val)</code>                                                          | `val -> Vt.4S`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.4S},[Xn]`              |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p8" target="_blank">vst1_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t val)</code>                                                                  | `val -> Vt.8B`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.8B},[Xn]`              |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p8" target="_blank">vst1q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t val)</code>                                                               | `val -> Vt.16B`<br>`ptr -> Xn`                                                                                                              | `ST1 {Vt.16B},[Xn]`             |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p16" target="_blank">vst1_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t val)</code>                                                              | `val -> Vt.4H`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.4H},[Xn]`              |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p16" target="_blank">vst1q_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t val)</code>                                                            | `val -> Vt.8H`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.8H},[Xn]`              |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f64" target="_blank">vst1_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t val)</code>                                                            | `val -> Vt.1D`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.1D},[Xn]`              |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f64" target="_blank">vst1q_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t val)</code>                                                          | `val -> Vt.2D`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.2D},[Xn]`              |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_mf8" target="_blank">vst1_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t val)</code>                                                            | `val -> Vt.8B`<br>`ptr -> Xn`                                                                                                               | `ST1 {Vt.8B},[Xn]`              |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_mf8" target="_blank">vst1q_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t val)</code>                                                         | `val -> Vt.16B`<br>`ptr -> Xn`                                                                                                              | `ST1 {Vt.16B},[Xn]`             |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_s8" target="_blank">vst1_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>              | `val -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                                                           | `ST1 {Vt.b}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_s8" target="_blank">vst1q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>           | `val -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15`                                                                                         | `ST1 {Vt.b}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_s16" target="_blank">vst1_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `val -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                                                           | `ST1 {Vt.h}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_s16" target="_blank">vst1q_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `val -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                                                           | `ST1 {Vt.h}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_s32" target="_blank">vst1_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `val -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                                                           | `ST1 {Vt.s}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_s32" target="_blank">vst1q_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `val -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                                                           | `ST1 {Vt.s}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_s64" target="_blank">vst1_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `val -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                                                           | `ST1 {Vt.d}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_s64" target="_blank">vst1q_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `val -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                                                           | `ST1 {Vt.d}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_u8" target="_blank">vst1_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>            | `val -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                                                           | `ST1 {Vt.b}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_u8" target="_blank">vst1q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `val -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15`                                                                                         | `ST1 {Vt.b}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_u16" target="_blank">vst1_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `val -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                                                           | `ST1 {Vt.h}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_u16" target="_blank">vst1q_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                                                           | `ST1 {Vt.h}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_u32" target="_blank">vst1_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `val -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                                                           | `ST1 {Vt.s}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_u32" target="_blank">vst1q_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                                                           | `ST1 {Vt.s}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_u64" target="_blank">vst1_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `val -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                                                           | `ST1 {Vt.d}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_u64" target="_blank">vst1q_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                                                           | `ST1 {Vt.d}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_p64" target="_blank">vst1_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `val -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                                                           | `ST1 {Vt.d}[lane],[Xn]`         |          | `A32/A64`                 |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_p64" target="_blank">vst1q_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                                                           | `ST1 {Vt.d}[lane],[Xn]`         |          | `A32/A64`                 |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_f16" target="_blank">vst1_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                                                           | `ST1 {Vt.h}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_f16" target="_blank">vst1q_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                                                           | `ST1 {Vt.h}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_f32" target="_blank">vst1_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                                                           | `ST1 {Vt.s}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_f32" target="_blank">vst1q_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                                                           | `ST1 {Vt.s}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_p8" target="_blank">vst1_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>            | `val -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                                                           | `ST1 {Vt.b}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_p8" target="_blank">vst1q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `val -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15`                                                                                         | `ST1 {Vt.b}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_p16" target="_blank">vst1_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `val -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                                                           | `ST1 {Vt.h}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_p16" target="_blank">vst1q_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                                                           | `ST1 {Vt.h}[lane],[Xn]`         |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_f64" target="_blank">vst1_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                                                           | `ST1 {Vt.d}[lane],[Xn]`         |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_f64" target="_blank">vst1q_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                                                           | `ST1 {Vt.d}[lane],[Xn]`         |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_lane_mf8" target="_blank">vst1_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                                                           | `ST1 {Vt.b}[lane],[Xn]`         |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_lane_mf8" target="_blank">vst1q_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `val -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15`                                                                                         | `ST1 {Vt.b}[lane],[Xn]`         |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_s8" target="_blank">vst2_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x2_t val)</code>                                                                  | `val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.8B - Vt2.8B},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_s8" target="_blank">vst2q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x2_t val)</code>                                                               | `val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                                            | `ST2 {Vt.16B - Vt2.16B},[Xn]`   |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_s16" target="_blank">vst2_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x2_t val)</code>                                                              | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.4H - Vt2.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_s16" target="_blank">vst2q_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x2_t val)</code>                                                            | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.8H - Vt2.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_s32" target="_blank">vst2_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x2_t val)</code>                                                              | `val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.2S - Vt2.2S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_s32" target="_blank">vst2q_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x2_t val)</code>                                                            | `val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.4S - Vt2.4S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_u8" target="_blank">vst2_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x2_t val)</code>                                                                | `val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.8B - Vt2.8B},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_u8" target="_blank">vst2q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x2_t val)</code>                                                             | `val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                                            | `ST2 {Vt.16B - Vt2.16B},[Xn]`   |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_u16" target="_blank">vst2_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x2_t val)</code>                                                            | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.4H - Vt2.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_u16" target="_blank">vst2q_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x2_t val)</code>                                                          | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.8H - Vt2.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_u32" target="_blank">vst2_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x2_t val)</code>                                                            | `val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.2S - Vt2.2S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_u32" target="_blank">vst2q_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x2_t val)</code>                                                          | `val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.4S - Vt2.4S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_f16" target="_blank">vst2_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x2_t val)</code>                                                          | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.4H - Vt2.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_f16" target="_blank">vst2q_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x2_t val)</code>                                                        | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.8H - Vt2.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_f32" target="_blank">vst2_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x2_t val)</code>                                                          | `val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.2S - Vt2.2S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_f32" target="_blank">vst2q_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x2_t val)</code>                                                        | `val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.4S - Vt2.4S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_p8" target="_blank">vst2_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x2_t val)</code>                                                                | `val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.8B - Vt2.8B},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_p8" target="_blank">vst2q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x2_t val)</code>                                                             | `val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                                            | `ST2 {Vt.16B - Vt2.16B},[Xn]`   |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_p16" target="_blank">vst2_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x2_t val)</code>                                                            | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.4H - Vt2.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_p16" target="_blank">vst2q_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x2_t val)</code>                                                          | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.8H - Vt2.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_s64" target="_blank">vst2_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x2_t val)</code>                                                              | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.1D - Vt2.1D},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_u64" target="_blank">vst2_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x2_t val)</code>                                                            | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.1D - Vt2.1D},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_p64" target="_blank">vst2_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x2_t val)</code>                                                            | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.1D - Vt2.1D},[Xn]`     |          | `A32/A64`                 |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_s64" target="_blank">vst2q_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x2_t val)</code>                                                            | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.2D - Vt2.2D},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_u64" target="_blank">vst2q_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x2_t val)</code>                                                          | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.2D - Vt2.2D},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_p64" target="_blank">vst2q_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x2_t val)</code>                                                          | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.2D - Vt2.2D},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_f64" target="_blank">vst2_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x2_t val)</code>                                                          | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.1D - Vt2.1D},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_f64" target="_blank">vst2q_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x2_t val)</code>                                                        | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.2D - Vt2.2D},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_mf8" target="_blank">vst2_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8x2_t val)</code>                                                          | `val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                                              | `ST2 {Vt.8B - Vt2.8B},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_mf8" target="_blank">vst2q_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x2_t val)</code>                                                       | `val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                                            | `ST2 {Vt.16B - Vt2.16B},[Xn]`   |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_s8" target="_blank">vst3_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x3_t val)</code>                                                                  | `val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                    | `ST3 {Vt.8B - Vt3.8B},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_s8" target="_blank">vst3q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x3_t val)</code>                                                               | `val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                 | `ST3 {Vt.16B - Vt3.16B},[Xn]`   |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_s16" target="_blank">vst3_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x3_t val)</code>                                                              | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                    | `ST3 {Vt.4H - Vt3.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_s16" target="_blank">vst3q_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x3_t val)</code>                                                            | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                    | `ST3 {Vt.8H - Vt3.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_s32" target="_blank">vst3_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x3_t val)</code>                                                              | `val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                    | `ST3 {Vt.2S - Vt3.2S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_s32" target="_blank">vst3q_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x3_t val)</code>                                                            | `val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                    | `ST3 {Vt.4S - Vt3.4S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_u8" target="_blank">vst3_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x3_t val)</code>                                                                | `val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                    | `ST3 {Vt.8B - Vt3.8B},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_u8" target="_blank">vst3q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x3_t val)</code>                                                             | `val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                 | `ST3 {Vt.16B - Vt3.16B},[Xn]`   |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_u16" target="_blank">vst3_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x3_t val)</code>                                                            | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                    | `ST3 {Vt.4H - Vt3.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_u16" target="_blank">vst3q_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x3_t val)</code>                                                          | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                    | `ST3 {Vt.8H - Vt3.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_u32" target="_blank">vst3_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x3_t val)</code>                                                            | `val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                    | `ST3 {Vt.2S - Vt3.2S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_u32" target="_blank">vst3q_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x3_t val)</code>                                                          | `val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                    | `ST3 {Vt.4S - Vt3.4S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_f16" target="_blank">vst3_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x3_t val)</code>                                                          | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                    | `ST3 {Vt.4H - Vt3.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_f16" target="_blank">vst3q_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x3_t val)</code>                                                        | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                    | `ST3 {Vt.8H - Vt3.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_f32" target="_blank">vst3_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x3_t val)</code>                                                          | `val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                    | `ST3 {Vt.2S - Vt3.2S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_f32" target="_blank">vst3q_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x3_t val)</code>                                                        | `val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                    | `ST3 {Vt.4S - Vt3.4S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_p8" target="_blank">vst3_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x3_t val)</code>                                                                | `val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                    | `ST3 {Vt.8B - Vt3.8B},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_p8" target="_blank">vst3q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x3_t val)</code>                                                             | `val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                 | `ST3 {Vt.16B - Vt3.16B},[Xn]`   |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_p16" target="_blank">vst3_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x3_t val)</code>                                                            | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                    | `ST3 {Vt.4H - Vt3.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_p16" target="_blank">vst3q_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x3_t val)</code>                                                          | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                    | `ST3 {Vt.8H - Vt3.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_s64" target="_blank">vst3_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x3_t val)</code>                                                              | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.1D - Vt3.1D},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_u64" target="_blank">vst3_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x3_t val)</code>                                                            | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.1D - Vt3.1D},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_p64" target="_blank">vst3_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x3_t val)</code>                                                            | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.1D - Vt3.1D},[Xn]`     |          | `A32/A64`                 |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_s64" target="_blank">vst3q_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x3_t val)</code>                                                            | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                    | `ST3 {Vt.2D - Vt3.2D},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_u64" target="_blank">vst3q_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x3_t val)</code>                                                          | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                    | `ST3 {Vt.2D - Vt3.2D},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_p64" target="_blank">vst3q_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x3_t val)</code>                                                          | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                    | `ST3 {Vt.2D - Vt3.2D},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_f64" target="_blank">vst3_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x3_t val)</code>                                                          | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.1D - Vt3.1D},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_f64" target="_blank">vst3q_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x3_t val)</code>                                                        | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                    | `ST3 {Vt.2D - Vt3.2D},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_mf8" target="_blank">vst3_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8x3_t val)</code>                                                          | `val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                    | `ST3 {Vt.8B - Vt3.8B},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_mf8" target="_blank">vst3q_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x3_t val)</code>                                                       | `val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                 | `ST3 {Vt.16B - Vt3.16B},[Xn]`   |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_s8" target="_blank">vst4_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x4_t val)</code>                                                                  | `val.val[3] -> Vt4.8B`<br>`val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                          | `ST4 {Vt.8B - Vt4.8B},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_s8" target="_blank">vst4q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x4_t val)</code>                                                               | `val.val[3] -> Vt4.16B`<br>`val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                      | `ST4 {Vt.16B - Vt4.16B},[Xn]`   |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_s16" target="_blank">vst4_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x4_t val)</code>                                                              | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                          | `ST4 {Vt.4H - Vt4.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_s16" target="_blank">vst4q_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x4_t val)</code>                                                            | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                          | `ST4 {Vt.8H - Vt4.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_s32" target="_blank">vst4_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x4_t val)</code>                                                              | `val.val[3] -> Vt4.2S`<br>`val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                          | `ST4 {Vt.2S - Vt4.2S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_s32" target="_blank">vst4q_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x4_t val)</code>                                                            | `val.val[3] -> Vt4.4S`<br>`val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                          | `ST4 {Vt.4S - Vt4.4S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_u8" target="_blank">vst4_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x4_t val)</code>                                                                | `val.val[3] -> Vt4.8B`<br>`val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                          | `ST4 {Vt.8B - Vt4.8B},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_u8" target="_blank">vst4q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x4_t val)</code>                                                             | `val.val[3] -> Vt4.16B`<br>`val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                      | `ST4 {Vt.16B - Vt4.16B},[Xn]`   |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_u16" target="_blank">vst4_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x4_t val)</code>                                                            | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                          | `ST4 {Vt.4H - Vt4.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_u16" target="_blank">vst4q_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x4_t val)</code>                                                          | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                          | `ST4 {Vt.8H - Vt4.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_u32" target="_blank">vst4_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x4_t val)</code>                                                            | `val.val[3] -> Vt4.2S`<br>`val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                          | `ST4 {Vt.2S - Vt4.2S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_u32" target="_blank">vst4q_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x4_t val)</code>                                                          | `val.val[3] -> Vt4.4S`<br>`val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                          | `ST4 {Vt.4S - Vt4.4S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_f16" target="_blank">vst4_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x4_t val)</code>                                                          | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                          | `ST4 {Vt.4H - Vt4.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_f16" target="_blank">vst4q_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x4_t val)</code>                                                        | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                          | `ST4 {Vt.8H - Vt4.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_f32" target="_blank">vst4_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x4_t val)</code>                                                          | `val.val[3] -> Vt4.2S`<br>`val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                          | `ST4 {Vt.2S - Vt4.2S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_f32" target="_blank">vst4q_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x4_t val)</code>                                                        | `val.val[3] -> Vt4.4S`<br>`val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                          | `ST4 {Vt.4S - Vt4.4S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_p8" target="_blank">vst4_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x4_t val)</code>                                                                | `val.val[3] -> Vt4.8B`<br>`val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                          | `ST4 {Vt.8B - Vt4.8B},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_p8" target="_blank">vst4q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x4_t val)</code>                                                             | `val.val[3] -> Vt4.16B`<br>`val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                      | `ST4 {Vt.16B - Vt4.16B},[Xn]`   |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_p16" target="_blank">vst4_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x4_t val)</code>                                                            | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                          | `ST4 {Vt.4H - Vt4.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_p16" target="_blank">vst4q_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x4_t val)</code>                                                          | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                          | `ST4 {Vt.8H - Vt4.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_s64" target="_blank">vst4_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x4_t val)</code>                                                              | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                          | `ST1 {Vt.1D - Vt4.1D},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_u64" target="_blank">vst4_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x4_t val)</code>                                                            | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                          | `ST1 {Vt.1D - Vt4.1D},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_p64" target="_blank">vst4_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x4_t val)</code>                                                            | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                          | `ST1 {Vt.1D - Vt4.1D},[Xn]`     |          | `A32/A64`                 |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_s64" target="_blank">vst4q_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x4_t val)</code>                                                            | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                          | `ST4 {Vt.2D - Vt4.2D},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_u64" target="_blank">vst4q_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x4_t val)</code>                                                          | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                          | `ST4 {Vt.2D - Vt4.2D},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_p64" target="_blank">vst4q_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x4_t val)</code>                                                          | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                          | `ST4 {Vt.2D - Vt4.2D},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_f64" target="_blank">vst4_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x4_t val)</code>                                                          | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                          | `ST1 {Vt.1D - Vt4.1D},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_f64" target="_blank">vst4q_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x4_t val)</code>                                                        | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                          | `ST4 {Vt.2D - Vt4.2D},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_mf8" target="_blank">vst4_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8x4_t val)</code>                                                          | `val.val[3] -> Vt4.8B`<br>`val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                          | `ST4 {Vt.8B - Vt4.8B},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_mf8" target="_blank">vst4q_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x4_t val)</code>                                                       | `val.val[3] -> Vt4.16B`<br>`val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                      | `ST4 {Vt.16B - Vt4.16B},[Xn]`   |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_s8" target="_blank">vst2_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>            | `val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                          | `ST2 {Vt.b - Vt2.b}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_u8" target="_blank">vst2_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                          | `ST2 {Vt.b - Vt2.b}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_p8" target="_blank">vst2_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                          | `ST2 {Vt.b - Vt2.b}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_mf8" target="_blank">vst2_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                          | `ST2 {Vt.b - Vt2.b}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_s8" target="_blank">vst3_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>            | `val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                | `ST3 {Vt.b - Vt3.b}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_u8" target="_blank">vst3_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                | `ST3 {Vt.b - Vt3.b}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_p8" target="_blank">vst3_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                | `ST3 {Vt.b - Vt3.b}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_mf8" target="_blank">vst3_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                | `ST3 {Vt.b - Vt3.b}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_s8" target="_blank">vst4_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>            | `val.val[3] -> Vt4.8B`<br>`val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`      | `ST4 {Vt.b - Vt4.b}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_u8" target="_blank">vst4_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `val.val[3] -> Vt4.8B`<br>`val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`      | `ST4 {Vt.b - Vt4.b}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_p8" target="_blank">vst4_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>          | `val.val[3] -> Vt4.8B`<br>`val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`      | `ST4 {Vt.b - Vt4.b}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_mf8" target="_blank">vst4_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[3] -> Vt4.8B`<br>`val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`<br>`0 <= lane <= 7`      | `ST4 {Vt.b - Vt4.b}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_s16" target="_blank">vst2_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                          | `ST2 {Vt.h - Vt2.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_s16" target="_blank">vst2q_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                          | `ST2 {Vt.h - Vt2.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_s32" target="_blank">vst2_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                          | `ST2 {Vt.s - Vt2.s}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_s32" target="_blank">vst2q_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                          | `ST2 {Vt.s - Vt2.s}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_u16" target="_blank">vst2_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                          | `ST2 {Vt.h - Vt2.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_u16" target="_blank">vst2q_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                          | `ST2 {Vt.h - Vt2.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_u32" target="_blank">vst2_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                          | `ST2 {Vt.s - Vt2.s}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_u32" target="_blank">vst2q_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                          | `ST2 {Vt.s - Vt2.s}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_f16" target="_blank">vst2_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                          | `ST2 {Vt.h - Vt2.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_f16" target="_blank">vst2q_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>  | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                          | `ST2 {Vt.h - Vt2.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_f32" target="_blank">vst2_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                          | `ST2 {Vt.s - Vt2.s}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_f32" target="_blank">vst2q_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>  | `val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                          | `ST2 {Vt.s - Vt2.s}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_p16" target="_blank">vst2_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                                          | `ST2 {Vt.h - Vt2.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_p16" target="_blank">vst2q_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                                          | `ST2 {Vt.h - Vt2.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_s8" target="_blank">vst2q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15`                                                       | `ST2 {Vt.b - Vt2.b}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_u8" target="_blank">vst2q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15`                                                       | `ST2 {Vt.b - Vt2.b}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_p8" target="_blank">vst2q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15`                                                       | `ST2 {Vt.b - Vt2.b}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_mf8" target="_blank">vst2q_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15`                                                       | `ST2 {Vt.b - Vt2.b}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_s64" target="_blank">vst2_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                          | `ST2 {Vt.d - Vt2.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_s64" target="_blank">vst2q_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                          | `ST2 {Vt.d - Vt2.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_u64" target="_blank">vst2_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                          | `ST2 {Vt.d - Vt2.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_u64" target="_blank">vst2q_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                          | `ST2 {Vt.d - Vt2.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_p64" target="_blank">vst2_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                          | `ST2 {Vt.d - Vt2.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_p64" target="_blank">vst2q_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                          | `ST2 {Vt.d - Vt2.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2_lane_f64" target="_blank">vst2_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                                          | `ST2 {Vt.d - Vt2.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst2q_lane_f64" target="_blank">vst2q_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x2_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>  | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                                          | `ST2 {Vt.d - Vt2.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_s16" target="_blank">vst3_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                | `ST3 {Vt.h - Vt3.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_s16" target="_blank">vst3q_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                | `ST3 {Vt.h - Vt3.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_s32" target="_blank">vst3_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                | `ST3 {Vt.s - Vt3.s}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_s32" target="_blank">vst3q_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                | `ST3 {Vt.s - Vt3.s}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_u16" target="_blank">vst3_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                | `ST3 {Vt.h - Vt3.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_u16" target="_blank">vst3q_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                | `ST3 {Vt.h - Vt3.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_u32" target="_blank">vst3_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                | `ST3 {Vt.s - Vt3.s}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_u32" target="_blank">vst3q_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                | `ST3 {Vt.s - Vt3.s}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_f16" target="_blank">vst3_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                | `ST3 {Vt.h - Vt3.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_f16" target="_blank">vst3q_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>  | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                | `ST3 {Vt.h - Vt3.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_f32" target="_blank">vst3_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                | `ST3 {Vt.s - Vt3.s}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_f32" target="_blank">vst3q_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>  | `val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                | `ST3 {Vt.s - Vt3.s}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_p16" target="_blank">vst3_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`                                | `ST3 {Vt.h - Vt3.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_p16" target="_blank">vst3q_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`                                | `ST3 {Vt.h - Vt3.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_s8" target="_blank">vst3q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15`                            | `ST3 {Vt.b - Vt3.b}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_u8" target="_blank">vst3q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15`                            | `ST3 {Vt.b - Vt3.b}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_p8" target="_blank">vst3q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15`                            | `ST3 {Vt.b - Vt3.b}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_s64" target="_blank">vst3_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                | `ST3 {Vt.d - Vt3.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_s64" target="_blank">vst3q_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                | `ST3 {Vt.d - Vt3.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_u64" target="_blank">vst3_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                | `ST3 {Vt.d - Vt3.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_u64" target="_blank">vst3q_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                | `ST3 {Vt.d - Vt3.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_p64" target="_blank">vst3_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                | `ST3 {Vt.d - Vt3.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_p64" target="_blank">vst3q_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                | `ST3 {Vt.d - Vt3.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3_lane_f64" target="_blank">vst3_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`                                | `ST3 {Vt.d - Vt3.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_f64" target="_blank">vst3q_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>  | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`                                | `ST3 {Vt.d - Vt3.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst3q_lane_mf8" target="_blank">vst3q_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x3_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15`                            | `ST3 {Vt.b - Vt3.b}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_s16" target="_blank">vst4_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`      | `ST4 {Vt.h - Vt4.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_s16" target="_blank">vst4q_lane_s16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`      | `ST4 {Vt.h - Vt4.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_s32" target="_blank">vst4_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `val.val[3] -> Vt4.2S`<br>`val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`      | `ST4 {Vt.s - Vt4.s}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_s32" target="_blank">vst4q_lane_s32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[3] -> Vt4.4S`<br>`val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`      | `ST4 {Vt.s - Vt4.s}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_u16" target="_blank">vst4_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`      | `ST4 {Vt.h - Vt4.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_u16" target="_blank">vst4q_lane_u16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`      | `ST4 {Vt.h - Vt4.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_u32" target="_blank">vst4_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[3] -> Vt4.2S`<br>`val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`      | `ST4 {Vt.s - Vt4.s}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_u32" target="_blank">vst4q_lane_u32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[3] -> Vt4.4S`<br>`val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`      | `ST4 {Vt.s - Vt4.s}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_f16" target="_blank">vst4_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`      | `ST4 {Vt.h - Vt4.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_f16" target="_blank">vst4q_lane_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>  | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`      | `ST4 {Vt.h - Vt4.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_f32" target="_blank">vst4_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[3] -> Vt4.2S`<br>`val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`<br>`0 <= lane <= 1`      | `ST4 {Vt.s - Vt4.s}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_f32" target="_blank">vst4q_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>  | `val.val[3] -> Vt4.4S`<br>`val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`<br>`0 <= lane <= 3`      | `ST4 {Vt.s - Vt4.s}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_p16" target="_blank">vst4_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`<br>`0 <= lane <= 3`      | `ST4 {Vt.h - Vt4.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_p16" target="_blank">vst4q_lane_p16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`<br>`0 <= lane <= 7`      | `ST4 {Vt.h - Vt4.h}[lane],[Xn]` |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_s8" target="_blank">vst4q_lane_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>         | `val.val[3] -> Vt4.16B`<br>`val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15` | `ST4 {Vt.b - Vt4.b}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_u8" target="_blank">vst4q_lane_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val.val[3] -> Vt4.16B`<br>`val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15` | `ST4 {Vt.b - Vt4.b}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_p8" target="_blank">vst4q_lane_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>       | `val.val[3] -> Vt4.16B`<br>`val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15` | `ST4 {Vt.b - Vt4.b}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_s64" target="_blank">vst4_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>        | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`      | `ST4 {Vt.d - Vt4.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_s64" target="_blank">vst4q_lane_s64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`      | `ST4 {Vt.d - Vt4.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_u64" target="_blank">vst4_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`      | `ST4 {Vt.d - Vt4.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_u64" target="_blank">vst4q_lane_u64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`      | `ST4 {Vt.d - Vt4.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_p64" target="_blank">vst4_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>      | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`      | `ST4 {Vt.d - Vt4.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_p64" target="_blank">vst4q_lane_p64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`      | `ST4 {Vt.d - Vt4.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4_lane_f64" target="_blank">vst4_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>    | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`<br>`0 <= lane <= 0`      | `ST4 {Vt.d - Vt4.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_f64" target="_blank">vst4q_lane_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>  | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`<br>`0 <= lane <= 1`      | `ST4 {Vt.d - Vt4.d}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst4q_lane_mf8" target="_blank">vst4q_lane_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x4_t val,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `val.val[3] -> Vt4.16B`<br>`val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`<br>`0 <= lane <= 15` | `ST4 {Vt.b - Vt4.b}[lane],[Xn]` |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s8_x2" target="_blank">vst1_s8_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x2_t val)</code>                                                            | `val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.8B - Vt2.8B},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s8_x2" target="_blank">vst1q_s8_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x2_t val)</code>                                                         | `val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                                            | `ST1 {Vt.16B - Vt2.16B},[Xn]`   |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s16_x2" target="_blank">vst1_s16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x2_t val)</code>                                                        | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.4H - Vt2.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s16_x2" target="_blank">vst1q_s16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x2_t val)</code>                                                      | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.8H - Vt2.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s32_x2" target="_blank">vst1_s32_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x2_t val)</code>                                                        | `val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.2S - Vt2.2S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s32_x2" target="_blank">vst1q_s32_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x2_t val)</code>                                                      | `val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.4S - Vt2.4S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u8_x2" target="_blank">vst1_u8_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x2_t val)</code>                                                          | `val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.8B - Vt2.8B},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u8_x2" target="_blank">vst1q_u8_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x2_t val)</code>                                                       | `val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                                            | `ST1 {Vt.16B - Vt2.16B},[Xn]`   |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u16_x2" target="_blank">vst1_u16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x2_t val)</code>                                                      | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.4H - Vt2.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u16_x2" target="_blank">vst1q_u16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x2_t val)</code>                                                    | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.8H - Vt2.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u32_x2" target="_blank">vst1_u32_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x2_t val)</code>                                                      | `val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.2S - Vt2.2S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u32_x2" target="_blank">vst1q_u32_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x2_t val)</code>                                                    | `val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.4S - Vt2.4S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f16_x2" target="_blank">vst1_f16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x2_t val)</code>                                                    | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.4H - Vt2.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f16_x2" target="_blank">vst1q_f16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x2_t val)</code>                                                  | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.8H - Vt2.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f32_x2" target="_blank">vst1_f32_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x2_t val)</code>                                                    | `val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.2S - Vt2.2S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f32_x2" target="_blank">vst1q_f32_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x2_t val)</code>                                                  | `val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.4S - Vt2.4S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p8_x2" target="_blank">vst1_p8_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x2_t val)</code>                                                          | `val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.8B - Vt2.8B},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p8_x2" target="_blank">vst1q_p8_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x2_t val)</code>                                                       | `val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                                            | `ST1 {Vt.16B - Vt2.16B},[Xn]`   |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p16_x2" target="_blank">vst1_p16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x2_t val)</code>                                                      | `val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.4H - Vt2.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p16_x2" target="_blank">vst1q_p16_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x2_t val)</code>                                                    | `val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.8H - Vt2.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s64_x2" target="_blank">vst1_s64_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x2_t val)</code>                                                        | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.1D - Vt2.1D},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u64_x2" target="_blank">vst1_u64_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x2_t val)</code>                                                      | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.1D - Vt2.1D},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p64_x2" target="_blank">vst1_p64_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x2_t val)</code>                                                      | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.1D - Vt2.1D},[Xn]`     |          | `A32/A64`                 |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s64_x2" target="_blank">vst1q_s64_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x2_t val)</code>                                                      | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.2D - Vt2.2D},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u64_x2" target="_blank">vst1q_u64_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x2_t val)</code>                                                    | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.2D - Vt2.2D},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p64_x2" target="_blank">vst1q_p64_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x2_t val)</code>                                                    | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.2D - Vt2.2D},[Xn]`     |          | `A32/A64`                 |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f64_x2" target="_blank">vst1_f64_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x2_t val)</code>                                                    | `val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.1D - Vt2.1D},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f64_x2" target="_blank">vst1q_f64_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x2_t val)</code>                                                  | `val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.2D - Vt2.2D},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_mf8_x2" target="_blank">vst1_mf8_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8x2_t val)</code>                                                    | `val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                                              | `ST1 {Vt.8B - Vt2.8B},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_mf8_x2" target="_blank">vst1q_mf8_x2</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x2_t val)</code>                                                 | `val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                                            | `ST1 {Vt.16B - Vt2.16B},[Xn]`   |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s8_x3" target="_blank">vst1_s8_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x3_t val)</code>                                                            | `val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                    | `ST1 {Vt.8B - Vt3.8B},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s8_x3" target="_blank">vst1q_s8_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x3_t val)</code>                                                         | `val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                 | `ST1 {Vt.16B - Vt3.16B},[Xn]`   |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s16_x3" target="_blank">vst1_s16_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x3_t val)</code>                                                        | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                    | `ST1 {Vt.4H - Vt3.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s16_x3" target="_blank">vst1q_s16_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x3_t val)</code>                                                      | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                    | `ST1 {Vt.8H - Vt3.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s32_x3" target="_blank">vst1_s32_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x3_t val)</code>                                                        | `val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                    | `ST1 {Vt.2S - Vt3.2S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s32_x3" target="_blank">vst1q_s32_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x3_t val)</code>                                                      | `val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                    | `ST1 {Vt.4S - Vt3.4S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u8_x3" target="_blank">vst1_u8_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x3_t val)</code>                                                          | `val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                    | `ST1 {Vt.8B - Vt3.8B},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u8_x3" target="_blank">vst1q_u8_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x3_t val)</code>                                                       | `val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                 | `ST1 {Vt.16B - Vt3.16B},[Xn]`   |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u16_x3" target="_blank">vst1_u16_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x3_t val)</code>                                                      | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                    | `ST1 {Vt.4H - Vt3.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u16_x3" target="_blank">vst1q_u16_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x3_t val)</code>                                                    | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                    | `ST1 {Vt.8H - Vt3.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u32_x3" target="_blank">vst1_u32_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x3_t val)</code>                                                      | `val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                    | `ST1 {Vt.2S - Vt3.2S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u32_x3" target="_blank">vst1q_u32_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x3_t val)</code>                                                    | `val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                    | `ST1 {Vt.4S - Vt3.4S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f16_x3" target="_blank">vst1_f16_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x3_t val)</code>                                                    | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                    | `ST1 {Vt.4H - Vt3.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f16_x3" target="_blank">vst1q_f16_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x3_t val)</code>                                                  | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                    | `ST1 {Vt.8H - Vt3.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f32_x3" target="_blank">vst1_f32_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x3_t val)</code>                                                    | `val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                                                    | `ST1 {Vt.2S - Vt3.2S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f32_x3" target="_blank">vst1q_f32_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x3_t val)</code>                                                  | `val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                                                    | `ST1 {Vt.4S - Vt3.4S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p8_x3" target="_blank">vst1_p8_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x3_t val)</code>                                                          | `val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                    | `ST1 {Vt.8B - Vt3.8B},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p8_x3" target="_blank">vst1q_p8_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x3_t val)</code>                                                       | `val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                 | `ST1 {Vt.16B - Vt3.16B},[Xn]`   |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p16_x3" target="_blank">vst1_p16_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x3_t val)</code>                                                      | `val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                                                    | `ST1 {Vt.4H - Vt3.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p16_x3" target="_blank">vst1q_p16_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x3_t val)</code>                                                    | `val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                                                    | `ST1 {Vt.8H - Vt3.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s64_x3" target="_blank">vst1_s64_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x3_t val)</code>                                                        | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.1D - Vt3.1D},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u64_x3" target="_blank">vst1_u64_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x3_t val)</code>                                                      | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.1D - Vt3.1D},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p64_x3" target="_blank">vst1_p64_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x3_t val)</code>                                                      | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.1D - Vt3.1D},[Xn]`     |          | `A32/A64`                 |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s64_x3" target="_blank">vst1q_s64_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x3_t val)</code>                                                      | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.2D - Vt3.2D},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u64_x3" target="_blank">vst1q_u64_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x3_t val)</code>                                                    | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.2D - Vt3.2D},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p64_x3" target="_blank">vst1q_p64_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x3_t val)</code>                                                    | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.2D - Vt3.2D},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f64_x3" target="_blank">vst1_f64_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x3_t val)</code>                                                    | `val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.1D - Vt3.1D},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f64_x3" target="_blank">vst1q_f64_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x3_t val)</code>                                                  | `val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                                                    | `ST1 {Vt.2D - Vt3.2D},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_mf8_x3" target="_blank">vst1_mf8_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8x3_t val)</code>                                                    | `val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                                                    | `ST1 {Vt.8B - Vt3.8B},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_mf8_x3" target="_blank">vst1q_mf8_x3</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x3_t val)</code>                                                 | `val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                                                 | `ST1 {Vt.16B - Vt3.16B},[Xn]`   |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s8_x4" target="_blank">vst1_s8_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x4_t val)</code>                                                            | `val.val[3] -> Vt4.8B`<br>`val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                          | `ST1 {Vt.8B - Vt4.8B},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s8_x4" target="_blank">vst1q_s8_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x4_t val)</code>                                                         | `val.val[3] -> Vt4.16B`<br>`val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                      | `ST1 {Vt.16B - Vt4.16B},[Xn]`   |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s16_x4" target="_blank">vst1_s16_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4x4_t val)</code>                                                        | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                          | `ST1 {Vt.4H - Vt4.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s16_x4" target="_blank">vst1q_s16_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8x4_t val)</code>                                                      | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                          | `ST1 {Vt.8H - Vt4.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s32_x4" target="_blank">vst1_s32_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2x4_t val)</code>                                                        | `val.val[3] -> Vt4.2S`<br>`val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                          | `ST1 {Vt.2S - Vt4.2S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s32_x4" target="_blank">vst1q_s32_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4x4_t val)</code>                                                      | `val.val[3] -> Vt4.4S`<br>`val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                          | `ST1 {Vt.4S - Vt4.4S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u8_x4" target="_blank">vst1_u8_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x4_t val)</code>                                                          | `val.val[3] -> Vt4.8B`<br>`val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                          | `ST1 {Vt.8B - Vt4.8B},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u8_x4" target="_blank">vst1q_u8_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x4_t val)</code>                                                       | `val.val[3] -> Vt4.16B`<br>`val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                      | `ST1 {Vt.16B - Vt4.16B},[Xn]`   |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u16_x4" target="_blank">vst1_u16_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x4x4_t val)</code>                                                      | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                          | `ST1 {Vt.4H - Vt4.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u16_x4" target="_blank">vst1q_u16_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint16x8x4_t val)</code>                                                    | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                          | `ST1 {Vt.8H - Vt4.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u32_x4" target="_blank">vst1_u32_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x2x4_t val)</code>                                                      | `val.val[3] -> Vt4.2S`<br>`val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                          | `ST1 {Vt.2S - Vt4.2S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u32_x4" target="_blank">vst1q_u32_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint32x4x4_t val)</code>                                                    | `val.val[3] -> Vt4.4S`<br>`val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                          | `ST1 {Vt.4S - Vt4.4S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f16_x4" target="_blank">vst1_f16_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4x4_t val)</code>                                                    | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                          | `ST1 {Vt.4H - Vt4.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f16_x4" target="_blank">vst1q_f16_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8x4_t val)</code>                                                  | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                          | `ST1 {Vt.8H - Vt4.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f32_x4" target="_blank">vst1_f32_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2x4_t val)</code>                                                    | `val.val[3] -> Vt4.2S`<br>`val.val[2] -> Vt3.2S`<br>`val.val[1] -> Vt2.2S`<br>`val.val[0] -> Vt.2S`<br>`ptr -> Xn`                          | `ST1 {Vt.2S - Vt4.2S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f32_x4" target="_blank">vst1q_f32_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4x4_t val)</code>                                                  | `val.val[3] -> Vt4.4S`<br>`val.val[2] -> Vt3.4S`<br>`val.val[1] -> Vt2.4S`<br>`val.val[0] -> Vt.4S`<br>`ptr -> Xn`                          | `ST1 {Vt.4S - Vt4.4S},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p8_x4" target="_blank">vst1_p8_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x4_t val)</code>                                                          | `val.val[3] -> Vt4.8B`<br>`val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                          | `ST1 {Vt.8B - Vt4.8B},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p8_x4" target="_blank">vst1q_p8_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x4_t val)</code>                                                       | `val.val[3] -> Vt4.16B`<br>`val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                      | `ST1 {Vt.16B - Vt4.16B},[Xn]`   |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p16_x4" target="_blank">vst1_p16_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x4x4_t val)</code>                                                      | `val.val[3] -> Vt4.4H`<br>`val.val[2] -> Vt3.4H`<br>`val.val[1] -> Vt2.4H`<br>`val.val[0] -> Vt.4H`<br>`ptr -> Xn`                          | `ST1 {Vt.4H - Vt4.4H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p16_x4" target="_blank">vst1q_p16_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly16x8x4_t val)</code>                                                    | `val.val[3] -> Vt4.8H`<br>`val.val[2] -> Vt3.8H`<br>`val.val[1] -> Vt2.8H`<br>`val.val[0] -> Vt.8H`<br>`ptr -> Xn`                          | `ST1 {Vt.8H - Vt4.8H},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_s64_x4" target="_blank">vst1_s64_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x1x4_t val)</code>                                                        | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                          | `ST1 {Vt.1D - Vt4.1D},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_u64_x4" target="_blank">vst1_u64_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x1x4_t val)</code>                                                      | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                          | `ST1 {Vt.1D - Vt4.1D},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_p64_x4" target="_blank">vst1_p64_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x1x4_t val)</code>                                                      | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                          | `ST1 {Vt.1D - Vt4.1D},[Xn]`     |          | `A32/A64`                 |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_s64_x4" target="_blank">vst1q_s64_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2x4_t val)</code>                                                      | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                          | `ST1 {Vt.2D - Vt4.2D},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_u64_x4" target="_blank">vst1q_u64_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint64x2x4_t val)</code>                                                    | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                          | `ST1 {Vt.2D - Vt4.2D},[Xn]`     |          | `v7/A32/A64`              |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_p64_x4" target="_blank">vst1q_p64_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly64x2x4_t val)</code>                                                    | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                          | `ST1 {Vt.2D - Vt4.2D},[Xn]`     |          | `A32/A64`                 |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_f64_x4" target="_blank">vst1_f64_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x1x4_t val)</code>                                                    | `val.val[3] -> Vt4.1D`<br>`val.val[2] -> Vt3.1D`<br>`val.val[1] -> Vt2.1D`<br>`val.val[0] -> Vt.1D`<br>`ptr -> Xn`                          | `ST1 {Vt.1D - Vt4.1D},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_f64_x4" target="_blank">vst1q_f64_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2x4_t val)</code>                                                  | `val.val[3] -> Vt4.2D`<br>`val.val[2] -> Vt3.2D`<br>`val.val[1] -> Vt2.2D`<br>`val.val[0] -> Vt.2D`<br>`ptr -> Xn`                          | `ST1 {Vt.2D - Vt4.2D},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1_mf8_x4" target="_blank">vst1_mf8_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x4_t val)</code>                                                          | `val.val[3] -> Vt4.8B`<br>`val.val[2] -> Vt3.8B`<br>`val.val[1] -> Vt2.8B`<br>`val.val[0] -> Vt.8B`<br>`ptr -> Xn`                          | `ST1 {Vt.8B - Vt4.8B},[Xn]`     |          | `A64`                     |
+| <code>void <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vst1q_mf8_x4" target="_blank">vst1q_mf8_x4</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8_t *ptr,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x4_t val)</code>                                                       | `val.val[3] -> Vt4.16B`<br>`val.val[2] -> Vt3.16B`<br>`val.val[1] -> Vt2.16B`<br>`val.val[0] -> Vt.16B`<br>`ptr -> Xn`                      | `ST1 {Vt.16B - Vt4.16B},[Xn]`   |          | `A64`                     |
 
 #### Store
 
@@ -4426,85 +4587,109 @@ The intrinsics in this section are guarded by the macro ``__ARM_NEON``.
 
 #### Table lookup
 
-| Intrinsic                                                                                                                                                                                                                                                                | Argument preparation                                                                                                  | AArch64 Instruction                                                                                                 | Result             | Supported architectures   |
-|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|--------------------|---------------------------|
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl1_s8" target="_blank">vtbl1_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t idx)</code>                                             | `Zeros(64):a -> Vn.16B`<br>`idx -> Vm.8B`                                                                             | `TBL Vd.8B,{Vn.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl1_u8" target="_blank">vtbl1_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                          | `Zeros(64):a -> Vn.16B`<br>`idx -> Vm.8B`                                                                             | `TBL Vd.8B,{Vn.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl1_p8" target="_blank">vtbl1_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                          | `Zeros(64):a -> Vn.16B`<br>`idx -> Vm.8B`                                                                             | `TBL Vd.8B,{Vn.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx1_s8" target="_blank">vtbx1_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t idx)</code>     | `Zeros(64):b -> Vn.16B`<br>`a -> Vd.8B`<br>`idx -> Vm.8B`                                                             | `MOVI Vtmp.8B,#8`<br>`CMHS Vtmp.8B,Vm.8B,Vtmp.8B`<br>`TBL Vtmp1.8B,{Vn.16B},Vm.8B`<br>`BIF Vd.8B,Vtmp1.8B,Vtmp.8B`  | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx1_u8" target="_blank">vtbx1_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code> | `Zeros(64):b -> Vn.16B`<br>`a -> Vd.8B`<br>`idx -> Vm.8B`                                                             | `MOVI Vtmp.8B,#8`<br>`CMHS Vtmp.8B,Vm.8B,Vtmp.8B`<br>`TBL Vtmp1.8B,{Vn.16B},Vm.8B`<br>`BIF Vd.8B,Vtmp1.8B,Vtmp.8B`  | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx1_p8" target="_blank">vtbx1_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code> | `Zeros(64):b -> Vn.16B`<br>`a -> Vd.8B`<br>`idx -> Vm.8B`                                                             | `MOVI Vtmp.8B,#8`<br>`CMHS Vtmp.8B,Vm.8B,Vtmp.8B`<br>`TBL Vtmp1.8B,{Vn.16B},Vm.8B`<br>`BIF Vd.8B,Vtmp1.8B, Vtmp.8B` | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl2_s8" target="_blank">vtbl2_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t idx)</code>                                           | `a.val[1]:a.val[0] -> Vn.16B`<br>`idx -> Vm.8B`                                                                       | `TBL Vd.8B,{Vn.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl2_u8" target="_blank">vtbl2_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                        | `a.val[1]:a.val[0] -> Vn.16B`<br>`idx -> Vm.8B`                                                                       | `TBL Vd.8B,{Vn.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl2_p8" target="_blank">vtbl2_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                        | `a.val[1]:a.val[0] -> Vn.16B`<br>`idx -> Vm.8B`                                                                       | `TBL Vd.8B,{Vn.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl3_s8" target="_blank">vtbl3_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x3_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t idx)</code>                                           | `a.val[1]:a.val[0] -> Vn.16B`<br>`Zeros(64):a.val[2] -> Vn+1.16B`<br>`idx -> Vm.8B`                                   | `TBL Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B`                                                                                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl3_u8" target="_blank">vtbl3_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x3_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                        | `a.val[1]:a.val[0] -> Vn.16B`<br>`Zeros(64):a.val[2] -> Vn+1.16B`<br>`idx -> Vm.8B`                                   | `TBL Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B`                                                                                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl3_p8" target="_blank">vtbl3_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x3_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                        | `a.val[1]:a.val[0] -> Vn.16B`<br>`Zeros(64):a.val[2] -> Vn+1.16B`<br>`idx -> Vm.8B`                                   | `TBL Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B`                                                                                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl4_s8" target="_blank">vtbl4_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t idx)</code>                                           | `a.val[1]:a.val[0] -> Vn.16B`<br>`a.val[3]:a.val[2] -> Vn+1.16B`<br>`idx -> Vm.8B`                                    | `TBL Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B`                                                                                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl4_u8" target="_blank">vtbl4_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                        | `a.val[1]:a.val[0] -> Vn.16B`<br>`a.val[3]:a.val[2] -> Vn+1.16B`<br>`idx -> Vm.8B`                                    | `TBL Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B`                                                                                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl4_p8" target="_blank">vtbl4_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                        | `a.val[1]:a.val[0] -> Vn.16B`<br>`a.val[3]:a.val[2] -> Vn+1.16B`<br>`idx -> Vm.8B`                                    | `TBL Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B`                                                                                 | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl1_s8" target="_blank">vqtbl1_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                         | `t -> Vn.16B`<br>`idx -> Vm.8B`                                                                                       | `TBL Vd.8B,{Vn.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl1q_s8" target="_blank">vqtbl1q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                     | `t -> Vn.16B`<br>`idx -> Vm.16B`                                                                                      | `TBL Vd.16B,{Vn.16B},Vm.16B`                                                                                        | `Vd.16B -> result` | `A64`                     |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl1_u8" target="_blank">vqtbl1_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                       | `t -> Vn.16B`<br>`idx -> Vm.8B`                                                                                       | `TBL Vd.8B,{Vn.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `A64`                     |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl1q_u8" target="_blank">vqtbl1q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                   | `t -> Vn.16B`<br>`idx -> Vm.16B`                                                                                      | `TBL Vd.16B,{Vn.16B},Vm.16B`                                                                                        | `Vd.16B -> result` | `A64`                     |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl1_p8" target="_blank">vqtbl1_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                       | `t -> Vn.16B`<br>`idx -> Vm.8B`                                                                                       | `TBL Vd.8B,{Vn.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl1q_p8" target="_blank">vqtbl1q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                   | `t -> Vn.16B`<br>`idx -> Vm.16B`                                                                                      | `TBL Vd.16B,{Vn.16B},Vm.16B`                                                                                        | `Vd.16B -> result` | `A64`                     |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl2_s8" target="_blank">vqtbl2_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                       | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.8B`                                                      | `TBL Vd.8B,{Vn.16B - Vn+1.16B},Vm.8B`                                                                               | `Vd.8B -> result`  | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl2q_s8" target="_blank">vqtbl2q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                   | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.16B`                                                     | `TBL Vd.16B,{Vn.16B - Vn+1.16B},Vm.16B`                                                                             | `Vd.16B -> result` | `A64`                     |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl2_u8" target="_blank">vqtbl2_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                     | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.8B`                                                      | `TBL Vd.8B,{Vn.16B - Vn+1.16B},Vm.8B`                                                                               | `Vd.8B -> result`  | `A64`                     |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl2q_u8" target="_blank">vqtbl2q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                 | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.16B`                                                     | `TBL Vd.16B,{Vn.16B - Vn+1.16B},Vm.16B`                                                                             | `Vd.16B -> result` | `A64`                     |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl2_p8" target="_blank">vqtbl2_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                     | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.8B`                                                      | `TBL Vd.8B,{Vn.16B - Vn+1.16B},Vm.8B`                                                                               | `Vd.8B -> result`  | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl2q_p8" target="_blank">vqtbl2q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                 | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.16B`                                                     | `TBL Vd.16B,{Vn.16B - Vn+1.16B},Vm.16B`                                                                             | `Vd.16B -> result` | `A64`                     |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl3_s8" target="_blank">vqtbl3_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                       | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.8B`                            | `TBL Vd.8B,{Vn.16B - Vn+2.16B},Vm.8B`                                                                               | `Vd.8B -> result`  | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl3q_s8" target="_blank">vqtbl3q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                   | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.16B`                           | `TBL Vd.16B,{Vn.16B - Vn+2.16B},Vm.16B`                                                                             | `Vd.16B -> result` | `A64`                     |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl3_u8" target="_blank">vqtbl3_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                     | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.8B`                            | `TBL Vd.8B,{Vn.16B - Vn+2.16B},Vm.8B`                                                                               | `Vd.8B -> result`  | `A64`                     |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl3q_u8" target="_blank">vqtbl3q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                 | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.16B`                           | `TBL Vd.16B,{Vn.16B - Vn+2.16B},Vm.16B`                                                                             | `Vd.16B -> result` | `A64`                     |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl3_p8" target="_blank">vqtbl3_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                     | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.8B`                            | `TBL Vd.8B,{Vn.16B - Vn+2.16B},Vm.8B`                                                                               | `Vd.8B -> result`  | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl3q_p8" target="_blank">vqtbl3q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                 | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.16B`                           | `TBL Vd.16B,{Vn.16B - Vn+2.16B},Vm.16B`                                                                             | `Vd.16B -> result` | `A64`                     |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl4_s8" target="_blank">vqtbl4_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                       | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.8B`  | `TBL Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B`                                                                               | `Vd.8B -> result`  | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl4q_s8" target="_blank">vqtbl4q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                   | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.16B` | `TBL Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B`                                                                             | `Vd.16B -> result` | `A64`                     |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl4_u8" target="_blank">vqtbl4_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                     | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.8B`  | `TBL Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B`                                                                               | `Vd.8B -> result`  | `A64`                     |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl4q_u8" target="_blank">vqtbl4q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                 | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.16B` | `TBL Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B`                                                                             | `Vd.16B -> result` | `A64`                     |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl4_p8" target="_blank">vqtbl4_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                     | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.8B`  | `TBL Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B`                                                                               | `Vd.8B -> result`  | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl4q_p8" target="_blank">vqtbl4q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                 | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.16B` | `TBL Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B`                                                                             | `Vd.16B -> result` | `A64`                     |
+| Intrinsic                                                                                                                                                                                                                                                                        | Argument preparation                                                                                                  | AArch64 Instruction                                                                                                 | Result             | Supported architectures   |
+|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|--------------------|---------------------------|
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl1_s8" target="_blank">vtbl1_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t idx)</code>                                                     | `Zeros(64):a -> Vn.16B`<br>`idx -> Vm.8B`                                                                             | `TBL Vd.8B,{Vn.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl1_u8" target="_blank">vtbl1_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                                  | `Zeros(64):a -> Vn.16B`<br>`idx -> Vm.8B`                                                                             | `TBL Vd.8B,{Vn.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl1_p8" target="_blank">vtbl1_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                                  | `Zeros(64):a -> Vn.16B`<br>`idx -> Vm.8B`                                                                             | `TBL Vd.8B,{Vn.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl1_mf8" target="_blank">vtbl1_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                            | `Zeros(64):a -> Vn.16B`<br>`idx -> Vm.8B`                                                                             | `TBL Vd.8B,{Vn.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx1_s8" target="_blank">vtbx1_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t idx)</code>             | `Zeros(64):b -> Vn.16B`<br>`a -> Vd.8B`<br>`idx -> Vm.8B`                                                             | `MOVI Vtmp.8B,#8`<br>`CMHS Vtmp.8B,Vm.8B,Vtmp.8B`<br>`TBL Vtmp1.8B,{Vn.16B},Vm.8B`<br>`BIF Vd.8B,Vtmp1.8B,Vtmp.8B`  | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx1_u8" target="_blank">vtbx1_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>         | `Zeros(64):b -> Vn.16B`<br>`a -> Vd.8B`<br>`idx -> Vm.8B`                                                             | `MOVI Vtmp.8B,#8`<br>`CMHS Vtmp.8B,Vm.8B,Vtmp.8B`<br>`TBL Vtmp1.8B,{Vn.16B},Vm.8B`<br>`BIF Vd.8B,Vtmp1.8B,Vtmp.8B`  | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx1_p8" target="_blank">vtbx1_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>         | `Zeros(64):b -> Vn.16B`<br>`a -> Vd.8B`<br>`idx -> Vm.8B`                                                             | `MOVI Vtmp.8B,#8`<br>`CMHS Vtmp.8B,Vm.8B,Vtmp.8B`<br>`TBL Vtmp1.8B,{Vn.16B},Vm.8B`<br>`BIF Vd.8B,Vtmp1.8B, Vtmp.8B` | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx1_mf8" target="_blank">vtbx1_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code> | `Zeros(64):b -> Vn.16B`<br>`a -> Vd.8B`<br>`idx -> Vm.8B`                                                             | `MOVI Vtmp.8B,#8`<br>`CMHS Vtmp.8B,Vm.8B,Vtmp.8B`<br>`TBL Vtmp1.8B,{Vn.16B},Vm.8B`<br>`BIF Vd.8B,Vtmp1.8B, Vtmp.8B` | `Vd.8B -> result`  | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl2_s8" target="_blank">vtbl2_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t idx)</code>                                                   | `a.val[1]:a.val[0] -> Vn.16B`<br>`idx -> Vm.8B`                                                                       | `TBL Vd.8B,{Vn.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl2_u8" target="_blank">vtbl2_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                                | `a.val[1]:a.val[0] -> Vn.16B`<br>`idx -> Vm.8B`                                                                       | `TBL Vd.8B,{Vn.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl2_p8" target="_blank">vtbl2_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                                | `a.val[1]:a.val[0] -> Vn.16B`<br>`idx -> Vm.8B`                                                                       | `TBL Vd.8B,{Vn.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl2_mf8" target="_blank">vtbl2_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8x2_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                          | `a.val[1]:a.val[0] -> Vn.16B`<br>`idx -> Vm.8B`                                                                       | `TBL Vd.8B,{Vn.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl3_s8" target="_blank">vtbl3_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x3_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t idx)</code>                                                   | `a.val[1]:a.val[0] -> Vn.16B`<br>`Zeros(64):a.val[2] -> Vn+1.16B`<br>`idx -> Vm.8B`                                   | `TBL Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B`                                                                                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl3_u8" target="_blank">vtbl3_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x3_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                                | `a.val[1]:a.val[0] -> Vn.16B`<br>`Zeros(64):a.val[2] -> Vn+1.16B`<br>`idx -> Vm.8B`                                   | `TBL Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B`                                                                                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl3_p8" target="_blank">vtbl3_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x3_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                                | `a.val[1]:a.val[0] -> Vn.16B`<br>`Zeros(64):a.val[2] -> Vn+1.16B`<br>`idx -> Vm.8B`                                   | `TBL Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B`                                                                                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl3_mf8" target="_blank">vtbl3_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8x3_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                          | `a.val[1]:a.val[0] -> Vn.16B`<br>`Zeros(64):a.val[2] -> Vn+1.16B`<br>`idx -> Vm.8B`                                   | `TBL Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B`                                                                                 | `Vd.8B -> result`  | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl4_s8" target="_blank">vtbl4_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t idx)</code>                                                   | `a.val[1]:a.val[0] -> Vn.16B`<br>`a.val[3]:a.val[2] -> Vn+1.16B`<br>`idx -> Vm.8B`                                    | `TBL Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B`                                                                                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl4_u8" target="_blank">vtbl4_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                                | `a.val[1]:a.val[0] -> Vn.16B`<br>`a.val[3]:a.val[2] -> Vn+1.16B`<br>`idx -> Vm.8B`                                    | `TBL Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B`                                                                                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl4_p8" target="_blank">vtbl4_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                                | `a.val[1]:a.val[0] -> Vn.16B`<br>`a.val[3]:a.val[2] -> Vn+1.16B`<br>`idx -> Vm.8B`                                    | `TBL Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B`                                                                                 | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbl4_mf8" target="_blank">vtbl4_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8x4_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                          | `a.val[1]:a.val[0] -> Vn.16B`<br>`a.val[3]:a.val[2] -> Vn+1.16B`<br>`idx -> Vm.8B`                                    | `TBL Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B`                                                                                 | `Vd.8B -> result`  | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl1_s8" target="_blank">vqtbl1_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                                 | `t -> Vn.16B`<br>`idx -> Vm.8B`                                                                                       | `TBL Vd.8B,{Vn.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl1q_s8" target="_blank">vqtbl1q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                             | `t -> Vn.16B`<br>`idx -> Vm.16B`                                                                                      | `TBL Vd.16B,{Vn.16B},Vm.16B`                                                                                        | `Vd.16B -> result` | `A64`                     |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl1_u8" target="_blank">vqtbl1_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                               | `t -> Vn.16B`<br>`idx -> Vm.8B`                                                                                       | `TBL Vd.8B,{Vn.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl1q_u8" target="_blank">vqtbl1q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                           | `t -> Vn.16B`<br>`idx -> Vm.16B`                                                                                      | `TBL Vd.16B,{Vn.16B},Vm.16B`                                                                                        | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl1_p8" target="_blank">vqtbl1_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                               | `t -> Vn.16B`<br>`idx -> Vm.8B`                                                                                       | `TBL Vd.8B,{Vn.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl1q_p8" target="_blank">vqtbl1q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                           | `t -> Vn.16B`<br>`idx -> Vm.16B`                                                                                      | `TBL Vd.16B,{Vn.16B},Vm.16B`                                                                                        | `Vd.16B -> result` | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl1_mf8" target="_blank">vqtbl1_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                         | `t -> Vn.16B`<br>`idx -> Vm.8B`                                                                                       | `TBL Vd.8B,{Vn.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl1q_mf8" target="_blank">vqtbl1q_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                     | `t -> Vn.16B`<br>`idx -> Vm.16B`                                                                                      | `TBL Vd.16B,{Vn.16B},Vm.16B`                                                                                        | `Vd.16B -> result` | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl2_s8" target="_blank">vqtbl2_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                               | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.8B`                                                      | `TBL Vd.8B,{Vn.16B - Vn+1.16B},Vm.8B`                                                                               | `Vd.8B -> result`  | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl2q_s8" target="_blank">vqtbl2q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                           | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.16B`                                                     | `TBL Vd.16B,{Vn.16B - Vn+1.16B},Vm.16B`                                                                             | `Vd.16B -> result` | `A64`                     |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl2_u8" target="_blank">vqtbl2_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                             | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.8B`                                                      | `TBL Vd.8B,{Vn.16B - Vn+1.16B},Vm.8B`                                                                               | `Vd.8B -> result`  | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl2q_u8" target="_blank">vqtbl2q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                         | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.16B`                                                     | `TBL Vd.16B,{Vn.16B - Vn+1.16B},Vm.16B`                                                                             | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl2_p8" target="_blank">vqtbl2_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                             | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.8B`                                                      | `TBL Vd.8B,{Vn.16B - Vn+1.16B},Vm.8B`                                                                               | `Vd.8B -> result`  | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl2q_p8" target="_blank">vqtbl2q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                         | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.16B`                                                     | `TBL Vd.16B,{Vn.16B - Vn+1.16B},Vm.16B`                                                                             | `Vd.16B -> result` | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl2_mf8" target="_blank">vqtbl2_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                       | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.8B`                                                      | `TBL Vd.8B,{Vn.16B - Vn+1.16B},Vm.8B`                                                                               | `Vd.8B -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl2q_mf8" target="_blank">vqtbl2q_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                   | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.16B`                                                     | `TBL Vd.16B,{Vn.16B - Vn+1.16B},Vm.16B`                                                                             | `Vd.16B -> result` | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl3_s8" target="_blank">vqtbl3_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                               | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.8B`                            | `TBL Vd.8B,{Vn.16B - Vn+2.16B},Vm.8B`                                                                               | `Vd.8B -> result`  | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl3q_s8" target="_blank">vqtbl3q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                           | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.16B`                           | `TBL Vd.16B,{Vn.16B - Vn+2.16B},Vm.16B`                                                                             | `Vd.16B -> result` | `A64`                     |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl3_u8" target="_blank">vqtbl3_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                             | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.8B`                            | `TBL Vd.8B,{Vn.16B - Vn+2.16B},Vm.8B`                                                                               | `Vd.8B -> result`  | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl3q_u8" target="_blank">vqtbl3q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                         | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.16B`                           | `TBL Vd.16B,{Vn.16B - Vn+2.16B},Vm.16B`                                                                             | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl3_p8" target="_blank">vqtbl3_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                             | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.8B`                            | `TBL Vd.8B,{Vn.16B - Vn+2.16B},Vm.8B`                                                                               | `Vd.8B -> result`  | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl3q_p8" target="_blank">vqtbl3q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                         | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.16B`                           | `TBL Vd.16B,{Vn.16B - Vn+2.16B},Vm.16B`                                                                             | `Vd.16B -> result` | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl3_mf8" target="_blank">vqtbl3_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                       | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.8B`                            | `TBL Vd.8B,{Vn.16B - Vn+2.16B},Vm.8B`                                                                               | `Vd.8B -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl3q_mf8" target="_blank">vqtbl3q_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                   | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.16B`                           | `TBL Vd.16B,{Vn.16B - Vn+2.16B},Vm.16B`                                                                             | `Vd.16B -> result` | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl4_s8" target="_blank">vqtbl4_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                               | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.8B`  | `TBL Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B`                                                                               | `Vd.8B -> result`  | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl4q_s8" target="_blank">vqtbl4q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                           | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.16B` | `TBL Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B`                                                                             | `Vd.16B -> result` | `A64`                     |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl4_u8" target="_blank">vqtbl4_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                             | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.8B`  | `TBL Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B`                                                                               | `Vd.8B -> result`  | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl4q_u8" target="_blank">vqtbl4q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                         | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.16B` | `TBL Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B`                                                                             | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl4_p8" target="_blank">vqtbl4_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                             | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.8B`  | `TBL Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B`                                                                               | `Vd.8B -> result`  | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl4q_p8" target="_blank">vqtbl4q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                         | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.16B` | `TBL Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B`                                                                             | `Vd.16B -> result` | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl4_mf8" target="_blank">vqtbl4_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                                       | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.8B`  | `TBL Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B`                                                                               | `Vd.8B -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbl4q_mf8" target="_blank">vqtbl4q_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>                                   | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.16B` | `TBL Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B`                                                                             | `Vd.16B -> result` | `A64`                     |
 
 #### Extended table lookup
 
-| Intrinsic                                                                                                                                                                                                                                                                          | Argument preparation                                                                                                                   | AArch64 Instruction                                                                                                          | Result             | Supported architectures   |
-|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------------------------------|--------------------|---------------------------|
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx2_s8" target="_blank">vtbx2_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t idx)</code>             | `b.val[1]:b.val[0] -> Vn.16B`<br>`a -> Vd.8B`<br>`idx -> Vm.8B`                                                                        | `TBX Vd.8B,{Vn.16B},Vm.8B`                                                                                                   | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx2_u8" target="_blank">vtbx2_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>         | `b.val[1]:b.val[0] -> Vn.16B`<br>`a -> Vd.8B`<br>`idx -> Vm.8B`                                                                        | `TBX Vd.8B,{Vn.16B},Vm.8B`                                                                                                   | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx2_p8" target="_blank">vtbx2_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>         | `b.val[1]:b.val[0] -> Vn.16B`<br>`a -> Vd.8B`<br>`idx -> Vm.8B`                                                                        | `TBX Vd.8B,{Vn.16B},Vm.8B`                                                                                                   | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx3_s8" target="_blank">vtbx3_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x3_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t idx)</code>             | `b.val[1]:b.val[0] -> Vn.16B`<br>`Zeros(64):b.val[2] -> Vn+1.16B`<br>`a -> Vd.8B`<br>`idx -> Vm.8B`                                    | `MOVI Vtmp.8B,#24`<br>`CMHS Vtmp.8B,Vm.8B,Vtmp.8B`<br>`TBL Vtmp1.8B,{Vn.16B,Vn+1.16B},Vm.8`<br>`BIF Vd.8B,Vtmp1.8B,Vtmp.8B`  | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx3_u8" target="_blank">vtbx3_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x3_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>         | `b.val[1]:b.val[0] -> Vn.16B`<br>`Zeros(64):b.val[2] -> Vn+1.16B`<br>`a -> Vd.8B`<br>`idx -> Vm.8B`                                    | `MOVI Vtmp.8B,#24`<br>`CMHS Vtmp.8B,Vm.8B,Vtmp.8B`<br>`TBL Vtmp1.8B,{Vn.16B,Vn+1.16B},Vm.8B`<br>`BIF Vd.8B,Vtmp1.8B,Vtmp.8B` | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx3_p8" target="_blank">vtbx3_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x3_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>         | `b.val[1]:b.val[0] -> Vn.16B`<br>`Zeros(64):b.val[2] -> Vn+1.16B`<br>`a -> Vd.8B`<br>`idx -> Vm.8B`                                    | `MOVI Vtmp.8B,#24`<br>`CMHS Vtmp.8B,Vm.8B,Vtmp.8B`<br>`TBL Vtmp1.8B,{Vn.16B,Vn+1.16B},Vm.8B`<br>`BIF Vd.8B,Vtmp1.8B,Vtmp.8B` | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx4_s8" target="_blank">vtbx4_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t idx)</code>             | `b.val[1]:b.val[0] -> Vn.16B`<br>`b.val[3]:b.val[2] -> Vn+1.16B`<br>`a -> Vd.8B`<br>`c-> Vm.8B`                                        | `TBX Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx4_u8" target="_blank">vtbx4_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>         | `b.val[1]:b.val[0] -> Vn.16B`<br>`b.val[3]:b.val[2] -> Vn+1.16B`<br>`a -> Vd.8B`<br>`c-> Vm.8B`                                        | `TBX Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx4_p8" target="_blank">vtbx4_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>         | `b.val[1]:b.val[0] -> Vn.16B`<br>`b.val[3]:b.val[2] -> Vn+1.16B`<br>`a -> Vd.8B`<br>`c-> Vm.8B`                                        | `TBX Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `v7/A32/A64`              |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx1_s8" target="_blank">vqtbx1_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>           | `a -> Vd.8B`<br>`t -> Vn.16B`<br>`idx -> Vm.8B`                                                                                        | `TBX Vd.8B,{Vn.16B},Vm.8B`                                                                                                   | `Vd.8B -> result`  | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx1q_s8" target="_blank">vqtbx1q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>      | `a -> Vd.16B`<br>`t -> Vn.16B`<br>`idx -> Vm.16B`                                                                                      | `TBX Vd.16B,{Vn.16B},Vm.16B`                                                                                                 | `Vd.16B -> result` | `A64`                     |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx1_u8" target="_blank">vqtbx1_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>        | `a -> Vd.8B`<br>`t -> Vn.16B`<br>`idx -> Vm.8B`                                                                                        | `TBX Vd.8B,{Vn.16B},Vm.8B`                                                                                                   | `Vd.8B -> result`  | `A64`                     |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx1q_u8" target="_blank">vqtbx1q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>   | `a -> Vd.16B`<br>`t -> Vn.16B`<br>`idx -> Vm.16B`                                                                                      | `TBX Vd.16B,{Vn.16B},Vm.16B`                                                                                                 | `Vd.16B -> result` | `A64`                     |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx1_p8" target="_blank">vqtbx1_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>        | `a -> Vd.8B`<br>`t -> Vn.16B`<br>`idx -> Vm.8B`                                                                                        | `TBX Vd.8B,{Vn.16B},Vm.8B`                                                                                                   | `Vd.8B -> result`  | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx1q_p8" target="_blank">vqtbx1q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>   | `a -> Vd.16B`<br>`t -> Vn.16B`<br>`idx -> Vm.16B`                                                                                      | `TBX Vd.16B,{Vn.16B},Vm.16B`                                                                                                 | `Vd.16B -> result` | `A64`                     |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx2_s8" target="_blank">vqtbx2_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>         | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`                                                       | `TBX Vd.8B,{Vn.16B - Vn+1.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx2q_s8" target="_blank">vqtbx2q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>    | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B`                                                     | `TBX Vd.16B,{Vn.16B - Vn+1.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx2_u8" target="_blank">vqtbx2_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>      | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`                                                       | `TBX Vd.8B,{Vn.16B - Vn+1.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx2q_u8" target="_blank">vqtbx2q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code> | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B`                                                     | `TBX Vd.16B,{Vn.16B - Vn+1.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx2_p8" target="_blank">vqtbx2_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>      | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`                                                       | `TBX Vd.8B,{Vn.16B - Vn+1.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx2q_p8" target="_blank">vqtbx2q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code> | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B`                                                     | `TBX Vd.16B,{Vn.16B - Vn+1.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx3_s8" target="_blank">vqtbx3_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>         | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`                             | `TBX Vd.8B,{Vn.16B - Vn+2.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx3q_s8" target="_blank">vqtbx3q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>    | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B`                           | `TBX Vd.16B,{Vn.16B - Vn+2.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx3_u8" target="_blank">vqtbx3_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>      | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`                             | `TBX Vd.8B,{Vn.16B - Vn+2.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx3q_u8" target="_blank">vqtbx3q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code> | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B`                           | `TBX Vd.16B,{Vn.16B - Vn+2.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx3_p8" target="_blank">vqtbx3_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>      | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`                             | `TBX Vd.8B,{Vn.16B - Vn+2.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx3q_p8" target="_blank">vqtbx3q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code> | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B`                           | `TBX Vd.16B,{Vn.16B - Vn+2.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx4_s8" target="_blank">vqtbx4_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>         | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`   | `TBX Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx4q_s8" target="_blank">vqtbx4q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>    | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B` | `TBX Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx4_u8" target="_blank">vqtbx4_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>      | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`   | `TBX Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx4q_u8" target="_blank">vqtbx4q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code> | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B` | `TBX Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx4_p8" target="_blank">vqtbx4_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>      | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`   | `TBX Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx4q_p8" target="_blank">vqtbx4q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code> | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B` | `TBX Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
+| Intrinsic                                                                                                                                                                                                                                                                                  | Argument preparation                                                                                                                   | AArch64 Instruction                                                                                                          | Result             | Supported architectures   |
+|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------------------------------|--------------------|---------------------------|
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx2_s8" target="_blank">vtbx2_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t idx)</code>                     | `b.val[1]:b.val[0] -> Vn.16B`<br>`a -> Vd.8B`<br>`idx -> Vm.8B`                                                                        | `TBX Vd.8B,{Vn.16B},Vm.8B`                                                                                                   | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx2_u8" target="_blank">vtbx2_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                 | `b.val[1]:b.val[0] -> Vn.16B`<br>`a -> Vd.8B`<br>`idx -> Vm.8B`                                                                        | `TBX Vd.8B,{Vn.16B},Vm.8B`                                                                                                   | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx2_p8" target="_blank">vtbx2_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                 | `b.val[1]:b.val[0] -> Vn.16B`<br>`a -> Vd.8B`<br>`idx -> Vm.8B`                                                                        | `TBX Vd.8B,{Vn.16B},Vm.8B`                                                                                                   | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx2_mf8" target="_blank">vtbx2_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8x2_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>         | `b.val[1]:b.val[0] -> Vn.16B`<br>`a -> Vd.8B`<br>`idx -> Vm.8B`                                                                        | `TBX Vd.8B,{Vn.16B},Vm.8B`                                                                                                   | `Vd.8B -> result`  | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx3_s8" target="_blank">vtbx3_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x3_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t idx)</code>                     | `b.val[1]:b.val[0] -> Vn.16B`<br>`Zeros(64):b.val[2] -> Vn+1.16B`<br>`a -> Vd.8B`<br>`idx -> Vm.8B`                                    | `MOVI Vtmp.8B,#24`<br>`CMHS Vtmp.8B,Vm.8B,Vtmp.8B`<br>`TBL Vtmp1.8B,{Vn.16B,Vn+1.16B},Vm.8`<br>`BIF Vd.8B,Vtmp1.8B,Vtmp.8B`  | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx3_u8" target="_blank">vtbx3_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x3_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                 | `b.val[1]:b.val[0] -> Vn.16B`<br>`Zeros(64):b.val[2] -> Vn+1.16B`<br>`a -> Vd.8B`<br>`idx -> Vm.8B`                                    | `MOVI Vtmp.8B,#24`<br>`CMHS Vtmp.8B,Vm.8B,Vtmp.8B`<br>`TBL Vtmp1.8B,{Vn.16B,Vn+1.16B},Vm.8B`<br>`BIF Vd.8B,Vtmp1.8B,Vtmp.8B` | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx3_p8" target="_blank">vtbx3_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x3_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                 | `b.val[1]:b.val[0] -> Vn.16B`<br>`Zeros(64):b.val[2] -> Vn+1.16B`<br>`a -> Vd.8B`<br>`idx -> Vm.8B`                                    | `MOVI Vtmp.8B,#24`<br>`CMHS Vtmp.8B,Vm.8B,Vtmp.8B`<br>`TBL Vtmp1.8B,{Vn.16B,Vn+1.16B},Vm.8B`<br>`BIF Vd.8B,Vtmp1.8B,Vtmp.8B` | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx3_mf8" target="_blank">vtbx3_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8x3_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>         | `b.val[1]:b.val[0] -> Vn.16B`<br>`Zeros(64):b.val[2] -> Vn+1.16B`<br>`a -> Vd.8B`<br>`idx -> Vm.8B`                                    | `MOVI Vtmp.8B,#24`<br>`CMHS Vtmp.8B,Vm.8B,Vtmp.8B`<br>`TBL Vtmp1.8B,{Vn.16B,Vn+1.16B},Vm.8B`<br>`BIF Vd.8B,Vtmp1.8B,Vtmp.8B` | `Vd.8B -> result`  | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx4_s8" target="_blank">vtbx4_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t idx)</code>                     | `b.val[1]:b.val[0] -> Vn.16B`<br>`b.val[3]:b.val[2] -> Vn+1.16B`<br>`a -> Vd.8B`<br>`c-> Vm.8B`                                        | `TBX Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx4_u8" target="_blank">vtbx4_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                 | `b.val[1]:b.val[0] -> Vn.16B`<br>`b.val[3]:b.val[2] -> Vn+1.16B`<br>`a -> Vd.8B`<br>`c-> Vm.8B`                                        | `TBX Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx4_p8" target="_blank">vtbx4_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                 | `b.val[1]:b.val[0] -> Vn.16B`<br>`b.val[3]:b.val[2] -> Vn+1.16B`<br>`a -> Vd.8B`<br>`c-> Vm.8B`                                        | `TBX Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `v7/A32/A64`              |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vtbx4_mf8" target="_blank">vtbx4_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>         | `b.val[1]:b.val[0] -> Vn.16B`<br>`b.val[3]:b.val[2] -> Vn+1.16B`<br>`a -> Vd.8B`<br>`c-> Vm.8B`                                        | `TBX Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B`                                                                                          | `Vd.8B -> result`  | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx1_s8" target="_blank">vqtbx1_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                   | `a -> Vd.8B`<br>`t -> Vn.16B`<br>`idx -> Vm.8B`                                                                                        | `TBX Vd.8B,{Vn.16B},Vm.8B`                                                                                                   | `Vd.8B -> result`  | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx1q_s8" target="_blank">vqtbx1q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>              | `a -> Vd.16B`<br>`t -> Vn.16B`<br>`idx -> Vm.16B`                                                                                      | `TBX Vd.16B,{Vn.16B},Vm.16B`                                                                                                 | `Vd.16B -> result` | `A64`                     |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx1_u8" target="_blank">vqtbx1_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                | `a -> Vd.8B`<br>`t -> Vn.16B`<br>`idx -> Vm.8B`                                                                                        | `TBX Vd.8B,{Vn.16B},Vm.8B`                                                                                                   | `Vd.8B -> result`  | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx1q_u8" target="_blank">vqtbx1q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>           | `a -> Vd.16B`<br>`t -> Vn.16B`<br>`idx -> Vm.16B`                                                                                      | `TBX Vd.16B,{Vn.16B},Vm.16B`                                                                                                 | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx1_p8" target="_blank">vqtbx1_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                | `a -> Vd.8B`<br>`t -> Vn.16B`<br>`idx -> Vm.8B`                                                                                        | `TBX Vd.8B,{Vn.16B},Vm.8B`                                                                                                   | `Vd.8B -> result`  | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx1q_p8" target="_blank">vqtbx1q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>           | `a -> Vd.16B`<br>`t -> Vn.16B`<br>`idx -> Vm.16B`                                                                                      | `TBX Vd.16B,{Vn.16B},Vm.16B`                                                                                                 | `Vd.16B -> result` | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx1_mf8" target="_blank">vqtbx1_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>        | `a -> Vd.8B`<br>`t -> Vn.16B`<br>`idx -> Vm.8B`                                                                                        | `TBX Vd.8B,{Vn.16B},Vm.8B`                                                                                                   | `Vd.8B -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx1q_mf8" target="_blank">vqtbx1q_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>   | `a -> Vd.16B`<br>`t -> Vn.16B`<br>`idx -> Vm.16B`                                                                                      | `TBX Vd.16B,{Vn.16B},Vm.16B`                                                                                                 | `Vd.16B -> result` | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx2_s8" target="_blank">vqtbx2_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                 | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`                                                       | `TBX Vd.8B,{Vn.16B - Vn+1.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx2q_s8" target="_blank">vqtbx2q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>            | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B`                                                     | `TBX Vd.16B,{Vn.16B - Vn+1.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx2_u8" target="_blank">vqtbx2_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>              | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`                                                       | `TBX Vd.8B,{Vn.16B - Vn+1.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx2q_u8" target="_blank">vqtbx2q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>         | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B`                                                     | `TBX Vd.16B,{Vn.16B - Vn+1.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx2_p8" target="_blank">vqtbx2_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>              | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`                                                       | `TBX Vd.8B,{Vn.16B - Vn+1.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx2q_p8" target="_blank">vqtbx2q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>         | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B`                                                     | `TBX Vd.16B,{Vn.16B - Vn+1.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx2_mf8" target="_blank">vqtbx2_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>      | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`                                                       | `TBX Vd.8B,{Vn.16B - Vn+1.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx2q_mf8" target="_blank">vqtbx2q_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x2_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code> | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B`                                                     | `TBX Vd.16B,{Vn.16B - Vn+1.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx3_s8" target="_blank">vqtbx3_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                 | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`                             | `TBX Vd.8B,{Vn.16B - Vn+2.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx3q_s8" target="_blank">vqtbx3q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>            | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B`                           | `TBX Vd.16B,{Vn.16B - Vn+2.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx3_u8" target="_blank">vqtbx3_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>              | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`                             | `TBX Vd.8B,{Vn.16B - Vn+2.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx3q_u8" target="_blank">vqtbx3q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>         | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B`                           | `TBX Vd.16B,{Vn.16B - Vn+2.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx3_p8" target="_blank">vqtbx3_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>              | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`                             | `TBX Vd.8B,{Vn.16B - Vn+2.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx3q_p8" target="_blank">vqtbx3q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>         | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B`                           | `TBX Vd.16B,{Vn.16B - Vn+2.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx3_mf8" target="_blank">vqtbx3_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>      | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`                             | `TBX Vd.8B,{Vn.16B - Vn+2.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx3q_mf8" target="_blank">vqtbx3q_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x3_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code> | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B`                           | `TBX Vd.16B,{Vn.16B - Vn+2.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx4_s8" target="_blank">vqtbx4_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>                 | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`   | `TBX Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx4q_s8" target="_blank">vqtbx4q_s8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; int8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>            | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B` | `TBX Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx4_u8" target="_blank">vqtbx4_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>              | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`   | `TBX Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx4q_u8" target="_blank">vqtbx4q_u8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>         | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B` | `TBX Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx4_p8" target="_blank">vqtbx4_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>              | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`   | `TBX Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx4q_p8" target="_blank">vqtbx4q_p8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; poly8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code>         | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B` | `TBX Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx4_mf8" target="_blank">vqtbx4_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x8_t idx)</code>      | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.8B`<br>`a -> Vd.8B`   | `TBX Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B`                                                                                        | `Vd.8B -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vqtbx4q_mf8" target="_blank">vqtbx4q_mf8</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16x4_t t,<br>&nbsp;&nbsp;&nbsp;&nbsp; uint8x16_t idx)</code> | `t.val[0] -> Vn.16B`<br>`t.val[1] -> Vn+1.16B`<br>`t.val[2] -> Vn+2.16B`<br>`t.val[3] -> Vn+3.16B`<br>`idx -> Vm.16B`<br>`a -> Vd.16B` | `TBX Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B`                                                                                      | `Vd.16B -> result` | `A64`                     |
 
 #### Lookup table read with 2-bit indices
 
@@ -5778,62 +5963,66 @@ The intrinsics in this section are guarded by the macro ``__ARM_NEON``.
 
 #### Reinterpret casts
 
-| Intrinsic                                                                                                                                                                                | Argument preparation   | AArch64 Instruction   | Result             | Supported architectures   |
-|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------|-----------------------|--------------------|---------------------------|
-| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_s8" target="_blank">vreinterpret_bf16_s8</a>(int8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
-| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_s16" target="_blank">vreinterpret_bf16_s16</a>(int16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
-| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_s32" target="_blank">vreinterpret_bf16_s32</a>(int32x2_t a)</code>     | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
-| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_f32" target="_blank">vreinterpret_bf16_f32</a>(float32x2_t a)</code>   | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
-| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_u8" target="_blank">vreinterpret_bf16_u8</a>(uint8x8_t a)</code>       | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
-| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_u16" target="_blank">vreinterpret_bf16_u16</a>(uint16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
-| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_u32" target="_blank">vreinterpret_bf16_u32</a>(uint32x2_t a)</code>    | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
-| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_p8" target="_blank">vreinterpret_bf16_p8</a>(poly8x8_t a)</code>       | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
-| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_p16" target="_blank">vreinterpret_bf16_p16</a>(poly16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
-| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_u64" target="_blank">vreinterpret_bf16_u64</a>(uint64x1_t a)</code>    | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
-| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_s64" target="_blank">vreinterpret_bf16_s64</a>(int64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
-| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_s8" target="_blank">vreinterpretq_bf16_s8</a>(int8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_s16" target="_blank">vreinterpretq_bf16_s16</a>(int16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_s32" target="_blank">vreinterpretq_bf16_s32</a>(int32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_f32" target="_blank">vreinterpretq_bf16_f32</a>(float32x4_t a)</code> | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_u8" target="_blank">vreinterpretq_bf16_u8</a>(uint8x16_t a)</code>    | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_u16" target="_blank">vreinterpretq_bf16_u16</a>(uint16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_u32" target="_blank">vreinterpretq_bf16_u32</a>(uint32x4_t a)</code>  | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_p8" target="_blank">vreinterpretq_bf16_p8</a>(poly8x16_t a)</code>    | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_p16" target="_blank">vreinterpretq_bf16_p16</a>(poly16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_u64" target="_blank">vreinterpretq_bf16_u64</a>(uint64x2_t a)</code>  | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_s64" target="_blank">vreinterpretq_bf16_s64</a>(int64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_f64" target="_blank">vreinterpret_bf16_f64</a>(float64x1_t a)</code>   | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A64`                     |
-| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_f64" target="_blank">vreinterpretq_bf16_f64</a>(float64x2_t a)</code> | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A64`                     |
-| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_p64" target="_blank">vreinterpret_bf16_p64</a>(poly64x1_t a)</code>    | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
-| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_p64" target="_blank">vreinterpretq_bf16_p64</a>(poly64x2_t a)</code>  | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_p128" target="_blank">vreinterpretq_bf16_p128</a>(poly128_t a)</code> | `a -> Vd.1Q`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_bf16" target="_blank">vreinterpret_s8_bf16</a>(bfloat16x4_t a)</code>        | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `A32/A64`                 |
-| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_bf16" target="_blank">vreinterpret_s16_bf16</a>(bfloat16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
-| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_bf16" target="_blank">vreinterpret_s32_bf16</a>(bfloat16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `A32/A64`                 |
-| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_bf16" target="_blank">vreinterpret_f32_bf16</a>(bfloat16x4_t a)</code>   | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `A32/A64`                 |
-| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_bf16" target="_blank">vreinterpret_u8_bf16</a>(bfloat16x4_t a)</code>       | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `A32/A64`                 |
-| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_bf16" target="_blank">vreinterpret_u16_bf16</a>(bfloat16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
-| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_bf16" target="_blank">vreinterpret_u32_bf16</a>(bfloat16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `A32/A64`                 |
-| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_bf16" target="_blank">vreinterpret_p8_bf16</a>(bfloat16x4_t a)</code>       | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `A32/A64`                 |
-| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_bf16" target="_blank">vreinterpret_p16_bf16</a>(bfloat16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
-| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_bf16" target="_blank">vreinterpret_u64_bf16</a>(bfloat16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
-| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_bf16" target="_blank">vreinterpret_s64_bf16</a>(bfloat16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
-| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_bf16" target="_blank">vreinterpret_f64_bf16</a>(bfloat16x4_t a)</code>   | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
-| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_bf16" target="_blank">vreinterpret_p64_bf16</a>(bfloat16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
-| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_bf16" target="_blank">vreinterpretq_s8_bf16</a>(bfloat16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `A32/A64`                 |
-| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_bf16" target="_blank">vreinterpretq_s16_bf16</a>(bfloat16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_bf16" target="_blank">vreinterpretq_s32_bf16</a>(bfloat16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `A32/A64`                 |
-| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_bf16" target="_blank">vreinterpretq_f32_bf16</a>(bfloat16x8_t a)</code> | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `A32/A64`                 |
-| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_bf16" target="_blank">vreinterpretq_u8_bf16</a>(bfloat16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `A32/A64`                 |
-| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_bf16" target="_blank">vreinterpretq_u16_bf16</a>(bfloat16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_bf16" target="_blank">vreinterpretq_u32_bf16</a>(bfloat16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `A32/A64`                 |
-| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_bf16" target="_blank">vreinterpretq_p8_bf16</a>(bfloat16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `A32/A64`                 |
-| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_bf16" target="_blank">vreinterpretq_p16_bf16</a>(bfloat16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
-| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_bf16" target="_blank">vreinterpretq_u64_bf16</a>(bfloat16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_bf16" target="_blank">vreinterpretq_s64_bf16</a>(bfloat16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_bf16" target="_blank">vreinterpretq_f64_bf16</a>(bfloat16x8_t a)</code> | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
-| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_bf16" target="_blank">vreinterpretq_p64_bf16</a>(bfloat16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
-| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_bf16" target="_blank">vreinterpretq_p128_bf16</a>(bfloat16x8_t a)</code> | `a -> Vd.8H`           | `NOP`                 | `Vd.1Q -> result`  | `A32/A64`                 |
+| Intrinsic                                                                                                                                                                                 | Argument preparation   | AArch64 Instruction   | Result             | Supported architectures   |
+|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------|-----------------------|--------------------|---------------------------|
+| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_s8" target="_blank">vreinterpret_bf16_s8</a>(int8x8_t a)</code>         | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
+| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_s16" target="_blank">vreinterpret_bf16_s16</a>(int16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
+| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_s32" target="_blank">vreinterpret_bf16_s32</a>(int32x2_t a)</code>      | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
+| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_f32" target="_blank">vreinterpret_bf16_f32</a>(float32x2_t a)</code>    | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
+| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_u8" target="_blank">vreinterpret_bf16_u8</a>(uint8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
+| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_u16" target="_blank">vreinterpret_bf16_u16</a>(uint16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
+| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_u32" target="_blank">vreinterpret_bf16_u32</a>(uint32x2_t a)</code>     | `a -> Vd.2S`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
+| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_p8" target="_blank">vreinterpret_bf16_p8</a>(poly8x8_t a)</code>        | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
+| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_p16" target="_blank">vreinterpret_bf16_p16</a>(poly16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
+| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_mf8" target="_blank">vreinterpret_bf16_mf8</a>(mfloat8x8_t a)</code>    | `a -> Vd.8B`           | `NOP`                 | `Vd.4H -> result`  | `A64`                     |
+| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_u64" target="_blank">vreinterpret_bf16_u64</a>(uint64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
+| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_s64" target="_blank">vreinterpret_bf16_s64</a>(int64x1_t a)</code>      | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_s8" target="_blank">vreinterpretq_bf16_s8</a>(int8x16_t a)</code>      | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_s16" target="_blank">vreinterpretq_bf16_s16</a>(int16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_s32" target="_blank">vreinterpretq_bf16_s32</a>(int32x4_t a)</code>    | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_f32" target="_blank">vreinterpretq_bf16_f32</a>(float32x4_t a)</code>  | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_u8" target="_blank">vreinterpretq_bf16_u8</a>(uint8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_u16" target="_blank">vreinterpretq_bf16_u16</a>(uint16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_u32" target="_blank">vreinterpretq_bf16_u32</a>(uint32x4_t a)</code>   | `a -> Vd.4S`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_p8" target="_blank">vreinterpretq_bf16_p8</a>(poly8x16_t a)</code>     | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_p16" target="_blank">vreinterpretq_bf16_p16</a>(poly16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_mf8" target="_blank">vreinterpretq_bf16_mf8</a>(mfloat8x16_t a)</code> | `a -> Vd.16B`          | `NOP`                 | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_u64" target="_blank">vreinterpretq_bf16_u64</a>(uint64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_s64" target="_blank">vreinterpretq_bf16_s64</a>(int64x2_t a)</code>    | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_f64" target="_blank">vreinterpret_bf16_f64</a>(float64x1_t a)</code>    | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_f64" target="_blank">vreinterpretq_bf16_f64</a>(float64x2_t a)</code>  | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_bf16_p64" target="_blank">vreinterpret_bf16_p64</a>(poly64x1_t a)</code>     | `a -> Vd.1D`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_p64" target="_blank">vreinterpretq_bf16_p64</a>(poly64x2_t a)</code>   | `a -> Vd.2D`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_bf16_p128" target="_blank">vreinterpretq_bf16_p128</a>(poly128_t a)</code>  | `a -> Vd.1Q`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>int8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s8_bf16" target="_blank">vreinterpret_s8_bf16</a>(bfloat16x4_t a)</code>         | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `A32/A64`                 |
+| <code>int16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s16_bf16" target="_blank">vreinterpret_s16_bf16</a>(bfloat16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
+| <code>int32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s32_bf16" target="_blank">vreinterpret_s32_bf16</a>(bfloat16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `A32/A64`                 |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f32_bf16" target="_blank">vreinterpret_f32_bf16</a>(bfloat16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `A32/A64`                 |
+| <code>uint8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u8_bf16" target="_blank">vreinterpret_u8_bf16</a>(bfloat16x4_t a)</code>        | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `A32/A64`                 |
+| <code>uint16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u16_bf16" target="_blank">vreinterpret_u16_bf16</a>(bfloat16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
+| <code>uint32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u32_bf16" target="_blank">vreinterpret_u32_bf16</a>(bfloat16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.2S -> result`  | `A32/A64`                 |
+| <code>poly8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p8_bf16" target="_blank">vreinterpret_p8_bf16</a>(bfloat16x4_t a)</code>        | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `A32/A64`                 |
+| <code>poly16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p16_bf16" target="_blank">vreinterpret_p16_bf16</a>(bfloat16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.4H -> result`  | `A32/A64`                 |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_mf8_bf16" target="_blank">vreinterpret_mf8_bf16</a>(bfloat16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.8B -> result`  | `A64`                     |
+| <code>uint64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_u64_bf16" target="_blank">vreinterpret_u64_bf16</a>(bfloat16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
+| <code>int64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_s64_bf16" target="_blank">vreinterpret_s64_bf16</a>(bfloat16x4_t a)</code>      | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
+| <code>float64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_f64_bf16" target="_blank">vreinterpret_f64_bf16</a>(bfloat16x4_t a)</code>    | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A64`                     |
+| <code>poly64x1_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpret_p64_bf16" target="_blank">vreinterpret_p64_bf16</a>(bfloat16x4_t a)</code>     | `a -> Vd.4H`           | `NOP`                 | `Vd.1D -> result`  | `A32/A64`                 |
+| <code>int8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s8_bf16" target="_blank">vreinterpretq_s8_bf16</a>(bfloat16x8_t a)</code>      | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `A32/A64`                 |
+| <code>int16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s16_bf16" target="_blank">vreinterpretq_s16_bf16</a>(bfloat16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>int32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s32_bf16" target="_blank">vreinterpretq_s32_bf16</a>(bfloat16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `A32/A64`                 |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f32_bf16" target="_blank">vreinterpretq_f32_bf16</a>(bfloat16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `A32/A64`                 |
+| <code>uint8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u8_bf16" target="_blank">vreinterpretq_u8_bf16</a>(bfloat16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `A32/A64`                 |
+| <code>uint16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u16_bf16" target="_blank">vreinterpretq_u16_bf16</a>(bfloat16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>uint32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u32_bf16" target="_blank">vreinterpretq_u32_bf16</a>(bfloat16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.4S -> result`  | `A32/A64`                 |
+| <code>poly8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p8_bf16" target="_blank">vreinterpretq_p8_bf16</a>(bfloat16x8_t a)</code>     | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `A32/A64`                 |
+| <code>poly16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p16_bf16" target="_blank">vreinterpretq_p16_bf16</a>(bfloat16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.8H -> result`  | `A32/A64`                 |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_mf8_bf16" target="_blank">vreinterpretq_mf8_bf16</a>(bfloat16x8_t a)</code> | `a -> Vd.8H`           | `NOP`                 | `Vd.16B -> result` | `A64`                     |
+| <code>uint64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_u64_bf16" target="_blank">vreinterpretq_u64_bf16</a>(bfloat16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>int64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_s64_bf16" target="_blank">vreinterpretq_s64_bf16</a>(bfloat16x8_t a)</code>    | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_f64_bf16" target="_blank">vreinterpretq_f64_bf16</a>(bfloat16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A64`                     |
+| <code>poly64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p64_bf16" target="_blank">vreinterpretq_p64_bf16</a>(bfloat16x8_t a)</code>   | `a -> Vd.8H`           | `NOP`                 | `Vd.2D -> result`  | `A32/A64`                 |
+| <code>poly128_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vreinterpretq_p128_bf16" target="_blank">vreinterpretq_p128_bf16</a>(bfloat16x8_t a)</code>  | `a -> Vd.8H`           | `NOP`                 | `Vd.1Q -> result`  | `A32/A64`                 |
 
 #### Conversions
 
@@ -5886,3 +6075,82 @@ The intrinsics in this section are guarded by the macro ``__ARM_NEON``.
 | <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vbfmlalbq_laneq_f32" target="_blank">vbfmlalbq_laneq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t r,<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `r -> Vd.4S`<br>`a -> Vn.8H`<br>`b -> Vm.8H`<br>`0 <= lane <= 7` | `BFMLALB Vd.4S,Vn.8H,Vm.H[lane]` | `Vd.4S -> result` | `A32/A64`                 |
 | <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vbfmlaltq_lane_f32" target="_blank">vbfmlaltq_lane_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t r,<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x4_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code>   | `r -> Vd.4S`<br>`a -> Vn.8H`<br>`b -> Vm.4H`<br>`0 <= lane <= 3` | `BFMLALT Vd.4S,Vn.8H,Vm.H[lane]` | `Vd.4S -> result` | `A32/A64`                 |
 | <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vbfmlaltq_laneq_f32" target="_blank">vbfmlaltq_laneq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t r,<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t a,<br>&nbsp;&nbsp;&nbsp;&nbsp; bfloat16x8_t b,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane)</code> | `r -> Vd.4S`<br>`a -> Vn.8H`<br>`b -> Vm.8H`<br>`0 <= lane <= 7` | `BFMLALT Vd.4S,Vn.8H,Vm.H[lane]` | `Vd.4S -> result` | `A32/A64`                 |
+
+## Modal 8-bit floating-point intrinsics
+
+### Data type conversion
+
+#### Conversions
+
+| Intrinsic                                                                                                                                                                                                                                                                                                                                           | Argument preparation           | AArch64 Instruction           | Result             | Supported architectures   |
+|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------|-------------------------------|--------------------|---------------------------|
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcvt1_bf16_mf8_fpm" target="_blank">vcvt1_bf16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                                                               | `vn -> Vn.8B`                  | `BF1CVTL Vd.8H,Vn.8B`         | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcvt1_low_bf16_mf8_fpm" target="_blank">vcvt1_low_bf16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                                                      | `vn -> Vn.8B`                  | `BF1CVTL Vd.8H,Vn.8B`         | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcvt2_bf16_mf8_fpm" target="_blank">vcvt2_bf16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                                                               | `vn -> Vn.8B`                  | `BF2CVTL Vd.8H,Vn.8B`         | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcvt2_low_bf16_mf8_fpm" target="_blank">vcvt2_low_bf16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                                                      | `vn -> Vn.8B`                  | `BF2CVTL Vd.8H,Vn.8B`         | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcvt1_high_bf16_mf8_fpm" target="_blank">vcvt1_high_bf16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                                                    | `vn -> Vn.16B`                 | `BF1CVTL2 Vd.8H,Vn.16B`       | `Vd.8H -> result`  | `A64`                     |
+| <code>bfloat16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcvt2_high_bf16_mf8_fpm" target="_blank">vcvt2_high_bf16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                                                    | `vn -> Vn.16B`                 | `BF2CVTL2 Vd.8H,Vn.16B`       | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcvt1_f16_mf8_fpm" target="_blank">vcvt1_f16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                                                                  | `vn -> Vn.8B`                  | `F1CVTL Vd.8H,Vn.8B`          | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcvt1_low_f16_mf8_fpm" target="_blank">vcvt1_low_f16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                                                         | `vn -> Vn.8B`                  | `F1CVTL Vd.8H,Vn.8B`          | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcvt2_f16_mf8_fpm" target="_blank">vcvt2_f16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                                                                  | `vn -> Vn.8B`                  | `F2CVTL Vd.8H,Vn.8B`          | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcvt2_low_f16_mf8_fpm" target="_blank">vcvt2_low_f16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                                                         | `vn -> Vn.8B`                  | `F2CVTL Vd.8H,Vn.8B`          | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcvt1_high_f16_mf8_fpm" target="_blank">vcvt1_high_f16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                                                       | `vn -> Vn.16B`                 | `F1CVTL2 Vd.8H,Vn.16B`        | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcvt2_high_f16_mf8_fpm" target="_blank">vcvt2_high_f16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                                                       | `vn -> Vn.16B`                 | `F2CVTL2 Vd.8H,Vn.16B`        | `Vd.8H -> result`  | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcvt_mf8_f32_fpm" target="_blank">vcvt_mf8_f32_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                        | `vn -> Vn.4S`<br>`vm -> Vm.4S` | `FCVTN Vd.8B, Vn.4S, Vm.4S`   | `Vd.8B -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcvt_high_mf8_f32_fpm" target="_blank">vcvt_high_mf8_f32_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code> | `vn -> Vn.4S`<br>`vm -> Vm.4S` | `FCVTN2 Vd.16B, Vn.4S, Vm.4S` | `Vd.16B -> result` | `A64`                     |
+| <code>mfloat8x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcvt_mf8_f16_fpm" target="_blank">vcvt_mf8_f16_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                        | `vn -> Vn.4H`<br>`vm -> Vm.4H` | `FCVTN Vd.8B, Vn.4H, Vm.4H`   | `Vd.8B -> result`  | `A64`                     |
+| <code>mfloat8x16_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vcvtq_mf8_f16_fpm" target="_blank">vcvtq_mf8_f16_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                     | `vn -> Vn.8H`<br>`vm -> Vm.8H` | `FCVTN Vd.16B, Vn.8H, Vm.8H`  | `Vd.16B -> result` | `A64`                     |
+
+### Vector arithmetic
+
+#### Exponent
+
+| Intrinsic                                                                                                                                                                                                                                 | Argument preparation           | AArch64 Instruction          | Result            | Supported architectures   |
+|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------|------------------------------|-------------------|---------------------------|
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vscale_f16" target="_blank">vscale_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x4_t vm)</code>   | `vn -> Vn.4H`<br>`vm -> Vm.4H` | `FSCALE Vd.4H, Vn.4H, Vm.4H` | `Vd.4H -> result` | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vscaleq_f16" target="_blank">vscaleq_f16</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; int16x8_t vm)</code> | `vn -> Vn.8H`<br>`vm -> Vm.8H` | `FSCALE Vd.8H, Vn.8H, Vm.8H` | `Vd.8H -> result` | `A64`                     |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vscale_f32" target="_blank">vscale_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x2_t vm)</code>   | `vn -> Vn.2S`<br>`vm -> Vm.2S` | `FSCALE Vd.2S, Vn.2S, Vm.2S` | `Vd.2S -> result` | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vscaleq_f32" target="_blank">vscaleq_f32</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; int32x4_t vm)</code> | `vn -> Vn.4S`<br>`vm -> Vm.4S` | `FSCALE Vd.4S, Vn.4S, Vm.4S` | `Vd.4S -> result` | `A64`                     |
+| <code>float64x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vscaleq_f64" target="_blank">vscaleq_f64</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float64x2_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; int64x2_t vm)</code> | `vn -> Vn.2D`<br>`vm -> Vm.2D` | `FSCALE Vd.2D, Vn.2D, Vm.2D` | `Vd.2D -> result` | `A64`                     |
+
+#### Dot product
+
+| Intrinsic                                                                                                                                                                                                                                                                                                                                                                                            | Argument preparation                                                 | AArch64 Instruction               | Result             | Supported architectures   |
+|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------|-----------------------------------|--------------------|---------------------------|
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdot_f32_mf8_fpm" target="_blank">vdot_f32_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                             | `vd -> Vd.2S`<br>`vn -> Vn.8B`<br>`vm -> Vm.8B`                      | `FDOT Vd.2S, Vn.8B, Vm.8B`        | `Vd.2S -> result`  | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdotq_f32_mf8_fpm" target="_blank">vdotq_f32_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                         | `vd -> Vd.4S`<br>`vn -> Vn.16B`<br>`vm -> Vm.16B`                    | `FDOT Vd.4S, Vn.16B, Vm.16B`      | `Vd.4S -> result`  | `A64`                     |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdot_lane_f32_mf8_fpm" target="_blank">vdot_lane_f32_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>       | `vd -> Vd.2S`<br>`vn -> Vn.8B`<br>`vm -> Vm.4B`<br>`0 <= lane <= 1`  | `FDOT Vd.2S, Vn.8B, Vm.4B[lane]`  | `Vd.2S -> result`  | `A64`                     |
+| <code>float32x2_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdot_laneq_f32_mf8_fpm" target="_blank">vdot_laneq_f32_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x2_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>    | `vd -> Vd.2S`<br>`vn -> Vn.16B`<br>`vm -> Vm.4B`<br>`0 <= lane <= 3` | `FDOT Vd.2S, Vn.8B, Vm.4B[lane]`  | `Vd.2S -> result`  | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdotq_lane_f32_mf8_fpm" target="_blank">vdotq_lane_f32_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>    | `vd -> Vd.4S`<br>`vn -> Vn.8B`<br>`vm -> Vm.4B`<br>`0 <= lane <= 1`  | `FDOT Vd.4S, Vn.8B, Vm.4B[lane]`  | `Vd.4S -> result`  | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdotq_laneq_f32_mf8_fpm" target="_blank">vdotq_laneq_f32_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code> | `vd -> Vd.4S`<br>`vn -> Vn.16`<br>`vm -> Vm.4B`<br>`0 <= lane <= 3`  | `FDOT Vd.4S, Vn.8B, Vm.4B[lane]`  | `Vd.4SB -> result` | `A64`                     |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdot_f16_mf8_fpm" target="_blank">vdot_f16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                             | `vd -> Vd.4H`<br>`vn -> Vn.8B`<br>`vm -> Vm.8B`                      | `FDOT Vd.4H, Vn.8B, Vm.8B`        | `Vd.4H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdotq_f16_mf8_fpm" target="_blank">vdotq_f16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                         | `vd -> Vd.8H`<br>`vn -> Vn.16B`<br>`vm -> Vm.16B`                    | `FDOT Vd.8H, Vn.16B, Vm.16B`      | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdot_lane_f16_mf8_fpm" target="_blank">vdot_lane_f16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>       | `vd -> Vd.4H`<br>`vn -> Vn.8B`<br>`vm -> Vm.2B`<br>`0 <= lane <= 3`  | `FDOT Vd.4H, Vn.8B, Vm.2B[lane]`  | `Vd.4H -> result`  | `A64`                     |
+| <code>float16x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdot_laneq_f16_mf8_fpm" target="_blank">vdot_laneq_f16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x4_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>    | `vd -> Vd.4H`<br>`vn -> Vn.8B`<br>`vm -> Vm.2B`<br>`0 <= lane <= 7`  | `FDOT Vd.4H, Vn.8B, Vm.2B[lane]`  | `Vd.4H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdotq_lane_f16_mf8_fpm" target="_blank">vdotq_lane_f16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>    | `vd -> Vd.8H`<br>`vn -> Vn.16B`<br>`vm -> Vm.2B`<br>`0 <= lane <= 3` | `FDOT Vd.8H, Vn.16B, Vm.2B[lane]` | `Vd.8H -> result`  | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vdotq_laneq_f16_mf8_fpm" target="_blank">vdotq_laneq_f16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code> | `vd -> Vd.8H`<br>`vn -> Vn.16B`<br>`vm -> Vm.2B`<br>`0 <= lane <= 7` | `FDOT Vd.8H, Vn.16B, Vm.2B[lane]` | `Vd.8H -> result`  | `A64`                     |
+
+#### Multiply
+
+##### Multiply-accumulate and widen
+
+| Intrinsic                                                                                                                                                                                                                                                                                                                                                                                                    | Argument preparation                                                 | AArch64 Instruction                  | Result            | Supported architectures   |
+|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------|--------------------------------------|-------------------|---------------------------|
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmlalbq_f16_mf8_fpm" target="_blank">vmlalbq_f16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                             | `vd -> Vd.8H`<br>`vn -> Vn.16B`<br>`vm -> Vm.16B`                    | `FMLALB Vd.8H, Vn.16B, Vm.16B`       | `Vd.8H -> result` | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmlaltq_f16_mf8_fpm" target="_blank">vmlaltq_f16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                             | `vd -> Vd.8H`<br>`vn -> Vn.16B`<br>`vm -> Vm.16B`                    | `FMLALT Vd.8H, Vn.16B, Vm.16B`       | `Vd.8H -> result` | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmlalbq_lane_f16_mf8_fpm" target="_blank">vmlalbq_lane_f16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>        | `vd -> Vd.8H`<br>`vn -> Vn.16B`<br>`vm -> Vm.B`<br>`0 <= lane <= 7`  | `FMLALB Vd.8H, Vn.16B, Vm.B[lane]`   | `Vd.8H -> result` | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmlalbq_laneq_f16_mf8_fpm" target="_blank">vmlalbq_laneq_f16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>     | `vd -> Vd.8H`<br>`vn -> Vn.16B`<br>`vm -> Vm.B`<br>`0 <= lane <= 15` | `FMLALB Vd.8H, Vn.16B, Vm.B[lane]`   | `Vd.8H -> result` | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmlaltq_lane_f16_mf8_fpm" target="_blank">vmlaltq_lane_f16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>        | `vd -> Vd.8H`<br>`vn -> Vn.16B`<br>`vm -> Vm.B`<br>`0 <= lane <= 7`  | `FMLALT Vd.8H, Vn.16B, Vm.B[lane]`   | `Vd.8H -> result` | `A64`                     |
+| <code>float16x8_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmlaltq_laneq_f16_mf8_fpm" target="_blank">vmlaltq_laneq_f16_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float16x8_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>     | `vd -> Vd.8H`<br>`vn -> Vn.16B`<br>`vm -> Vm.B`<br>`0 <= lane <= 15` | `FMLALT Vd.8H, Vn.16B, Vm.B[lane]`   | `Vd.8H -> result` | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmlallbbq_f32_mf8_fpm" target="_blank">vmlallbbq_f32_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                         | `vd -> Vd.4S`<br>`vn -> Vn.16B`<br>`vm -> Vm.16B`                    | `FMLALLBB Vd.4S, Vn.16B, Vm.16B`     | `Vd.4S -> result` | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmlallbtq_f32_mf8_fpm" target="_blank">vmlallbtq_f32_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                         | `vd -> Vd.4S`<br>`vn -> Vn.16B`<br>`vm -> Vm.16B`                    | `FMLALLBT Vd.4S, Vn.16B, Vm.16B`     | `Vd.4S -> result` | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmlalltbq_f32_mf8_fpm" target="_blank">vmlalltbq_f32_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                         | `vd -> Vd.4S`<br>`vn -> Vn.16B`<br>`vm -> Vm.16B`                    | `FMLALLTB Vd.4S, Vn.16B, Vm.16B`     | `Vd.4S -> result` | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmlallttq_f32_mf8_fpm" target="_blank">vmlallttq_f32_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>                                                         | `vd -> Vd.4S`<br>`vn -> Vn.16B`<br>`vm -> Vm.16B`                    | `FMLALLTT Vd.4S, Vn.16B, Vm.16B`     | `Vd.4S -> result` | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmlallbbq_lane_f32_mf8_fpm" target="_blank">vmlallbbq_lane_f32_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>    | `vd -> Vd.4S`<br>`vm -> Vn.16B`<br>`vm -> Vm.B`<br>`0 <= lane <= 7`  | `FMLALLBB Vd.4S, Vn.16B, Vm.B[lane]` | `Vd.4S -> result` | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmlallbbq_laneq_f32_mf8_fpm" target="_blank">vmlallbbq_laneq_f32_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code> | `vd -> Vd.4S`<br>`vm -> Vn.16B`<br>`vm -> Vm.B`<br>`0 <= lane <= 15` | `FMLALLBB Vd.4S, Vn.16B, Vm.B[lane]` | `Vd.4S -> result` | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmlallbtq_lane_f32_mf8_fpm" target="_blank">vmlallbtq_lane_f32_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>    | `vd -> Vd.4S`<br>`vm -> Vn.16B`<br>`vm -> Vm.B`<br>`0 <= lane <= 7`  | `FMLALLBB Vd.4S, Vn.16B, Vm.B[lane]` | `Vd.4S -> result` | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmlallbtq_laneq_f32_mf8_fpm" target="_blank">vmlallbtq_laneq_f32_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code> | `vd -> Vd.4S`<br>`vm -> Vn.16B`<br>`vm -> Vm.B`<br>`0 <= lane <= 15` | `FMLALLBB Vd.4S, Vn.16B, Vm.B[lane]` | `Vd.4S -> result` | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmlalltbq_lane_f32_mf8_fpm" target="_blank">vmlalltbq_lane_f32_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>    | `vd -> Vd.4S`<br>`vm -> Vn.16B`<br>`vm -> Vm.B`<br>`0 <= lane <= 7`  | `FMLALLBB Vd.4S, Vn.16B, Vm.B[lane]` | `Vd.4S -> result` | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmlalltbq_laneq_f32_mf8_fpm" target="_blank">vmlalltbq_laneq_f32_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code> | `vd -> Vd.4S`<br>`vm -> Vn.16B`<br>`vm -> Vm.B`<br>`0 <= lane <= 15` | `FMLALLBB Vd.4S, Vn.16B, Vm.B[lane]` | `Vd.4S -> result` | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmlallttq_lane_f32_mf8_fpm" target="_blank">vmlallttq_lane_f32_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x8_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code>    | `vd -> Vd.4S`<br>`vm -> Vn.16B`<br>`vm -> Vm.B`<br>`0 <= lane <= 7`  | `FMLALLBB Vd.4S, Vn.16B, Vm.B[lane]` | `Vd.4S -> result` | `A64`                     |
+| <code>float32x4_t <a href="https://developer.arm.com/architectures/instruction-sets/intrinsics/vmlallttq_laneq_f32_mf8_fpm" target="_blank">vmlallttq_laneq_f32_mf8_fpm</a>(<br>&nbsp;&nbsp;&nbsp;&nbsp; float32x4_t vd,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vn,<br>&nbsp;&nbsp;&nbsp;&nbsp; mfloat8x16_t vm,<br>&nbsp;&nbsp;&nbsp;&nbsp; const int lane,<br>&nbsp;&nbsp;&nbsp;&nbsp; fpm_t fpm)</code> | `vd -> Vd.4S`<br>`vm -> Vn.16B`<br>`vm -> Vm.B`<br>`0 <= lane <= 15` | `FMLALLBB Vd.4S, Vn.16B, Vm.B[lane]` | `Vd.4S -> result` | `A64`                     |
diff --git a/tools/intrinsic_db/advsimd.csv b/tools/intrinsic_db/advsimd.csv
index 56e04f85..ec88903a 100644
--- a/tools/intrinsic_db/advsimd.csv
+++ b/tools/intrinsic_db/advsimd.csv
@@ -1844,6 +1844,8 @@ poly8x8_t vcopy_lane_p8(poly8x8_t a, __builtin_constant_p(lane1), poly8x8_t b, _
 poly8x16_t vcopyq_lane_p8(poly8x16_t a, __builtin_constant_p(lane1), poly8x8_t b, __builtin_constant_p(lane2))	a -> Vd.16B;0 <= lane1 <= 15;b -> Vn.8B;0 <= lane2 <= 7	INS Vd.B[lane1],Vn.B[lane2]	Vd.16B -> result	A64
 poly16x4_t vcopy_lane_p16(poly16x4_t a, __builtin_constant_p(lane1), poly16x4_t b, __builtin_constant_p(lane2))	a -> Vd.4H;0 <= lane1 <= 3;b -> Vn.4H;0 <= lane2 <= 3	INS Vd.H[lane1],Vn.H[lane2]	Vd.4H -> result	A64
 poly16x8_t vcopyq_lane_p16(poly16x8_t a, __builtin_constant_p(lane1), poly16x4_t b, __builtin_constant_p(lane2))	a -> Vd.8H;0 <= lane1 <= 7;b -> Vn.4H;0 <= lane2 <= 3	INS Vd.H[lane1],Vn.H[lane2]	Vd.8H -> result	A64
+mfloat8x8_t vcopy_lane_mf8(mfloat8x8_t a, __builtin_constant_p(lane1), mfloat8x8_t b, __builtin_constant_p(lane2))	a -> Vd.8B;0 <= lane1 <= 7;b -> Vn.8B;0 <= lane2 <= 7	INS Vd.B[lane1],Vn.B[lane2]	Vd.8B -> result	A64
+mfloat8x16_t vcopyq_lane_mf8(mfloat8x16_t a, __builtin_constant_p(lane1), mfloat8x8_t b, __builtin_constant_p(lane2))	a -> Vd.16B;0 <= lane1 <= 15;b -> Vn.8B;0 <= lane2 <= 7	INS Vd.B[lane1],Vn.B[lane2]	Vd.16B -> result	A64
 int8x8_t vcopy_laneq_s8(int8x8_t a, __builtin_constant_p(lane1), int8x16_t b, __builtin_constant_p(lane2))	a -> Vd.8B;0 <= lane1 <= 7;b -> Vn.16B;0 <= lane2 <= 15	INS Vd.B[lane1],Vn.B[lane2]	Vd.8B -> result	A64
 int8x16_t vcopyq_laneq_s8(int8x16_t a, __builtin_constant_p(lane1), int8x16_t b, __builtin_constant_p(lane2))	a -> Vd.16B;0 <= lane1 <= 15;b -> Vn.16B;0 <= lane2 <= 15	INS Vd.B[lane1],Vn.B[lane2]	Vd.16B -> result	A64
 int16x4_t vcopy_laneq_s16(int16x4_t a, __builtin_constant_p(lane1), int16x8_t b, __builtin_constant_p(lane2))	a -> Vd.4H;0 <= lane1 <= 3;b -> Vn.8H;0 <= lane2 <= 7	INS Vd.H[lane1],Vn.H[lane2]	Vd.4H -> result	A64
@@ -1870,6 +1872,8 @@ poly8x8_t vcopy_laneq_p8(poly8x8_t a, __builtin_constant_p(lane1), poly8x16_t b,
 poly8x16_t vcopyq_laneq_p8(poly8x16_t a, __builtin_constant_p(lane1), poly8x16_t b, __builtin_constant_p(lane2))	a -> Vd.16B;0 <= lane1 <= 15;b -> Vn.16B;0 <= lane2 <= 15	INS Vd.B[lane1],Vn.B[lane2]	Vd.16B -> result	A64
 poly16x4_t vcopy_laneq_p16(poly16x4_t a, __builtin_constant_p(lane1), poly16x8_t b, __builtin_constant_p(lane2))	a -> Vd.4H;0 <= lane1 <= 3;b -> Vn.8H;0 <= lane2 <= 7	INS Vd.H[lane1],Vn.H[lane2]	Vd.4H -> result	A64
 poly16x8_t vcopyq_laneq_p16(poly16x8_t a, __builtin_constant_p(lane1), poly16x8_t b, __builtin_constant_p(lane2))	a -> Vd.8H;0 <= lane1 <= 7;b -> Vn.8H;0 <= lane2 <= 7	INS Vd.H[lane1],Vn.H[lane2]	Vd.8H -> result	A64
+mfloat8x8_t vcopy_laneq_mf8(mfloat8x8_t a, __builtin_constant_p(lane1), mfloat8x16_t b, __builtin_constant_p(lane2))	a -> Vd.8B;0 <= lane1 <= 7;b -> Vn.16B;0 <= lane2 <= 15	INS Vd.B[lane1],Vn.B[lane2]	Vd.8B -> result	A64
+mfloat8x16_t vcopyq_laneq_mf8(mfloat8x16_t a, __builtin_constant_p(lane1), mfloat8x16_t b, __builtin_constant_p(lane2))	a -> Vd.16B;0 <= lane1 <= 15;b -> Vn.16B;0 <= lane2 <= 15	INS Vd.B[lane1],Vn.B[lane2]	Vd.16B -> result	A64
 int8x8_t vrbit_s8(int8x8_t a)	a -> Vn.8B	RBIT Vd.8B,Vn.8B	Vd.8B -> result	A64
 int8x16_t vrbitq_s8(int8x16_t a)	a -> Vn.16B	RBIT Vd.16B,Vn.16B	Vd.16B -> result	A64
 uint8x8_t vrbit_u8(uint8x8_t a)	a -> Vn.8B	RBIT Vd.8B,Vn.8B	Vd.8B -> result	A64
@@ -1890,6 +1894,7 @@ float32x2_t vcreate_f32(uint64_t a)	a -> Xn	INS Vd.D[0],Xn	Vd.2S -> result	v7/A3
 poly8x8_t vcreate_p8(uint64_t a)	a -> Xn	INS Vd.D[0],Xn	Vd.8B -> result	v7/A32/A64
 poly16x4_t vcreate_p16(uint64_t a)	a -> Xn	INS Vd.D[0],Xn	Vd.4H -> result	v7/A32/A64
 float64x1_t vcreate_f64(uint64_t a)	a -> Xn	INS Vd.D[0],Xn	Vd.1D -> result	A64
+mfloat8x8_t vcreate_mf8(uint64_t a)	a -> Xn	INS Vd.D[0],Xn	Vd.8B -> result	A64
 int8x8_t vdup_n_s8(int8_t value)	value -> rn	DUP Vd.8B,rn	Vd.8B -> result	v7/A32/A64
 int8x16_t vdupq_n_s8(int8_t value)	value -> rn	DUP Vd.16B,rn	Vd.16B -> result	v7/A32/A64
 int16x4_t vdup_n_s16(int16_t value)	value -> rn	DUP Vd.4H,rn	Vd.4H -> result	v7/A32/A64
@@ -1916,6 +1921,8 @@ poly16x4_t vdup_n_p16(poly16_t value)	value -> rn	DUP Vd.4H,rn	Vd.4H -> result	v
 poly16x8_t vdupq_n_p16(poly16_t value)	value -> rn	DUP Vd.8H,rn	Vd.8H -> result	v7/A32/A64
 float64x1_t vdup_n_f64(float64_t value)	value -> rn	INS Dd.D[0],xn	Vd.1D -> result	A64
 float64x2_t vdupq_n_f64(float64_t value)	value -> rn	DUP Vd.2D,rn	Vd.2D -> result	A64
+mfloat8x8_t vdup_n_mf8(mfloat8_t value)	value -> rn	DUP Vd.8B,rn	Vd.8B -> result	A64
+mfloat8x16_t vdupq_n_mf8(mfloat8_t value)	value -> rn	DUP Vd.16B,rn	Vd.16B -> result	A64
 int8x8_t vmov_n_s8(int8_t value)	value -> rn	DUP Vd.8B,rn	Vd.8B -> result	v7/A32/A64
 int8x16_t vmovq_n_s8(int8_t value)	value -> rn	DUP Vd.16B,rn	Vd.16B -> result	v7/A32/A64
 int16x4_t vmov_n_s16(int16_t value)	value -> rn	DUP Vd.4H,rn	Vd.4H -> result	v7/A32/A64
@@ -1940,6 +1947,8 @@ poly16x4_t vmov_n_p16(poly16_t value)	value -> rn	DUP Vd.4H,rn	Vd.4H -> result	v
 poly16x8_t vmovq_n_p16(poly16_t value)	value -> rn	DUP Vd.8H,rn	Vd.8H -> result	v7/A32/A64
 float64x1_t vmov_n_f64(float64_t value)	value -> rn	DUP Vd.1D,rn	Vd.1D -> result	A64
 float64x2_t vmovq_n_f64(float64_t value)	value -> rn	DUP Vd.2D,rn	Vd.2D -> result	A64
+mfloat8x8_t vmov_n_mf8(mfloat8_t value)	value -> rn	DUP Vd.8B,rn	Vd.8B -> result	A64
+mfloat8x16_t vmovq_n_mf8(mfloat8_t value)	value -> rn	DUP Vd.16B,rn	Vd.16B -> result	A64
 int8x8_t vdup_lane_s8(int8x8_t vec, __builtin_constant_p(lane))	vec -> Vn.8B;0 <= lane <= 7	DUP Vd.8B,Vn.B[lane]	Vd.8B -> result	v7/A32/A64
 int8x16_t vdupq_lane_s8(int8x8_t vec, __builtin_constant_p(lane))	vec -> Vn.8B;0 <= lane <= 7	DUP Vd.16B,Vn.B[lane]	Vd.16B -> result	v7/A32/A64
 int16x4_t vdup_lane_s16(int16x4_t vec, __builtin_constant_p(lane))	vec -> Vn.4H;0 <= lane <= 3	DUP Vd.4H,Vn.H[lane]	Vd.4H -> result	v7/A32/A64
@@ -1966,6 +1975,8 @@ poly16x4_t vdup_lane_p16(poly16x4_t vec, __builtin_constant_p(lane))	vec -> Vn.4
 poly16x8_t vdupq_lane_p16(poly16x4_t vec, __builtin_constant_p(lane))	vec -> Vn.4H;0 <= lane <= 3	DUP Vd.8H,Vn.H[lane]	Vd.8H -> result	v7/A32/A64
 float64x1_t vdup_lane_f64(float64x1_t vec, __builtin_constant_p(lane))	vec -> Vn.1D;0 <= lane <= 0	DUP Dd,Vn.D[lane]	Dd -> result	A64
 float64x2_t vdupq_lane_f64(float64x1_t vec, __builtin_constant_p(lane))	vec -> Vn.1D;0 <= lane <= 0	DUP Vd.2D,Vn.D[lane]	Vd.2D -> result	A64
+mfloat8x8_t vdup_lane_mf8(mfloat8x8_t vec, __builtin_constant_p(lane))	vec -> Vn.8B;0 <= lane <= 7	DUP Vd.8B,Vn.B[lane]	Vd.8B -> result	/A64
+mfloat8x16_t vdupq_lane_mf8(mfloat8x8_t vec, __builtin_constant_p(lane))	vec -> Vn.8B;0 <= lane <= 7	DUP Vd.16B,Vn.B[lane]	Vd.16B -> result	A64
 int8x8_t vdup_laneq_s8(int8x16_t vec, __builtin_constant_p(lane))	vec -> Vn.16B;0 <= lane <= 15	DUP Vd.8B,Vn.B[lane]	Vd.8B -> result	A64
 int8x16_t vdupq_laneq_s8(int8x16_t vec, __builtin_constant_p(lane))	vec -> Vn.16B;0 <= lane <= 15	DUP Vd.16B,Vn.B[lane]	Vd.16B -> result	A64
 int16x4_t vdup_laneq_s16(int16x8_t vec, __builtin_constant_p(lane))	vec -> Vn.8H;0 <= lane <= 7	DUP Vd.4H,Vn.H[lane]	Vd.4H -> result	A64
@@ -1992,6 +2003,8 @@ poly16x4_t vdup_laneq_p16(poly16x8_t vec, __builtin_constant_p(lane))	vec -> Vn.
 poly16x8_t vdupq_laneq_p16(poly16x8_t vec, __builtin_constant_p(lane))	vec -> Vn.8H;0 <= lane <= 7	DUP Vd.8H,Vn.H[lane]	Vd.8H -> result	A64
 float64x1_t vdup_laneq_f64(float64x2_t vec, __builtin_constant_p(lane))	vec -> Vn.2D;0 <= lane <= 1	DUP Dd,Vn.D[lane]	Dd -> result	A64
 float64x2_t vdupq_laneq_f64(float64x2_t vec, __builtin_constant_p(lane))	vec -> Vn.2D;0 <= lane <= 1	DUP Vd.2D,Vn.D[lane]	Vd.2D -> result	A64
+mfloat8x8_t vdup_laneq_mf8(mfloat8x16_t vec, __builtin_constant_p(lane))	vec -> Vn.16B;0 <= lane <= 15	DUP Vd.8B,Vn.B[lane]	Vd.8B -> result	A64
+mfloat8x16_t vdupq_laneq_mf8(mfloat8x16_t vec, __builtin_constant_p(lane))	vec -> Vn.16B;0 <= lane <= 15	DUP Vd.16B,Vn.B[lane]	Vd.16B -> result	A64
 int8x16_t vcombine_s8(int8x8_t low, int8x8_t high)	low -> Vn.8B;high -> Vm.8B	DUP Vd.1D,Vn.D[0];INS Vd.D[1],Vm.D[0]	Vd.16B -> result	v7/A32/A64
 int16x8_t vcombine_s16(int16x4_t low, int16x4_t high)	low -> Vn.4H;high -> Vm.4H	DUP Vd.1D,Vn.D[0];INS Vd.D[1],Vm.D[0]	Vd.8H -> result	v7/A32/A64
 int32x4_t vcombine_s32(int32x2_t low, int32x2_t high)	low -> Vn.2S;high -> Vm.2S	DUP Vd.1D,Vn.D[0];INS Vd.D[1],Vm.D[0]	Vd.4S -> result	v7/A32/A64
@@ -2006,6 +2019,7 @@ float32x4_t vcombine_f32(float32x2_t low, float32x2_t high)	low -> Vn.2S;high ->
 poly8x16_t vcombine_p8(poly8x8_t low, poly8x8_t high)	low -> Vn.8B;high -> Vm.8B	DUP Vd.1D,Vn.D[0];INS Vd.D[1],Vm.D[0]	Vd.16B -> result	v7/A32/A64
 poly16x8_t vcombine_p16(poly16x4_t low, poly16x4_t high)	low -> Vn.4H;high -> Vm.4H	DUP Vd.1D,Vn.D[0];INS Vd.D[1],Vm.D[0]	Vd.8H -> result	v7/A32/A64
 float64x2_t vcombine_f64(float64x1_t low, float64x1_t high)	low -> Vn.1D;high -> Vm.1D	DUP Vd.1D,Vn.D[0];INS Vd.D[1],Vm.D[0]	Vd.2D -> result	A64
+mfloat8x16_t vcombine_mf8(mfloat8x8_t low, mfloat8x8_t high)	low -> Vn.8B;high -> Vm.8B	DUP Vd.1D,Vn.D[0];INS Vd.D[1],Vm.D[0]	Vd.16B -> result	A64
 int8x8_t vget_high_s8(int8x16_t a)	a -> Vn.16B	DUP Vd.1D,Vn.D[1]	Vd.8B -> result	v7/A32/A64
 int16x4_t vget_high_s16(int16x8_t a)	a -> Vn.8H	DUP Vd.1D,Vn.D[1]	Vd.4H -> result	v7/A32/A64
 int32x2_t vget_high_s32(int32x4_t a)	a -> Vn.4S	DUP Vd.1D,Vn.D[1]	Vd.2S -> result	v7/A32/A64
@@ -2020,6 +2034,7 @@ float32x2_t vget_high_f32(float32x4_t a)	a -> Vn.4S	DUP Vd.1D,Vn.D[1]	Vd.2S -> r
 poly8x8_t vget_high_p8(poly8x16_t a)	a -> Vn.16B	DUP Vd.1D,Vn.D[1]	Vd.8B -> result	v7/A32/A64
 poly16x4_t vget_high_p16(poly16x8_t a)	a -> Vn.8H	DUP Vd.1D,Vn.D[1]	Vd.4H -> result	v7/A32/A64
 float64x1_t vget_high_f64(float64x2_t a)	a -> Vn.2D	DUP Vd.1D,Vn.D[1]	Vd.1D -> result	A64
+mfloat8x8_t vget_high_mf8(mfloat8x16_t a)	a -> Vn.16B	DUP Vd.1D,Vn.D[1]	Vd.8B -> result	A64
 int8x8_t vget_low_s8(int8x16_t a)	a -> Vn.16B	DUP Vd.1D,Vn.D[0]	Vd.8B -> result	v7/A32/A64
 int16x4_t vget_low_s16(int16x8_t a)	a -> Vn.8H	DUP Vd.1D,Vn.D[0]	Vd.4H -> result	v7/A32/A64
 int32x2_t vget_low_s32(int32x4_t a)	a -> Vn.4S	DUP Vd.1D,Vn.D[0]	Vd.2S -> result	v7/A32/A64
@@ -2034,6 +2049,7 @@ float32x2_t vget_low_f32(float32x4_t a)	a -> Vn.4S	DUP Vd.1D,Vn.D[0]	Vd.2S -> re
 poly8x8_t vget_low_p8(poly8x16_t a)	a -> Vn.16B	DUP Vd.1D,Vn.D[0]	Vd.8B -> result	v7/A32/A64
 poly16x4_t vget_low_p16(poly16x8_t a)	a -> Vn.8H	DUP Vd.1D,Vn.D[0]	Vd.4H -> result	v7/A32/A64
 float64x1_t vget_low_f64(float64x2_t a)	a -> Vn.2D	DUP Vd.1D,Vn.D[0]	Vd.1D -> result	A64
+mfloat8x8_t vget_low_mf8(mfloat8x16_t a)	a -> Vn.16B	DUP Vd.1D,Vn.D[0]	Vd.8B -> result	A64
 int8_t vdupb_lane_s8(int8x8_t vec, __builtin_constant_p(lane))	vec -> Vn.8B;0 <= lane <= 7	DUP Bd,Vn.B[lane]	Bd -> result	A64
 int16_t vduph_lane_s16(int16x4_t vec, __builtin_constant_p(lane))	vec -> Vn.4H;0 <= lane <= 3	DUP Hd,Vn.H[lane]	Hd -> result	A64
 int32_t vdups_lane_s32(int32x2_t vec, __builtin_constant_p(lane))	vec -> Vn.2S;0 <= lane <= 1	DUP Sd,Vn.S[lane]	Sd -> result	A64
@@ -2046,6 +2062,7 @@ float32_t vdups_lane_f32(float32x2_t vec, __builtin_constant_p(lane))	vec -> Vn.
 float64_t vdupd_lane_f64(float64x1_t vec, __builtin_constant_p(lane))	vec -> Vn.1D;0 <= lane <= 0	DUP Dd,Vn.D[lane]	Dd -> result	A64
 poly8_t vdupb_lane_p8(poly8x8_t vec, __builtin_constant_p(lane))	vec -> Vn.8B;0 <= lane <= 7	DUP Bd,Vn.B[lane]	Bd -> result	A64
 poly16_t vduph_lane_p16(poly16x4_t vec, __builtin_constant_p(lane))	vec -> Vn.4H;0 <= lane <= 3	DUP Hd,Vn.H[lane]	Hd -> result	A64
+mfloat8_t vdupb_lane_mf8(mfloat8x8_t vec, __builtin_constant_p(lane))	vec -> Vn.8B;0 <= lane <= 7	DUP Bd,Vn.B[lane]	Bd -> result	A64
 int8_t vdupb_laneq_s8(int8x16_t vec, __builtin_constant_p(lane))	vec -> Vn.16B;0 <= lane <= 15	DUP Bd,Vn.B[lane]	Bd -> result	A64
 int16_t vduph_laneq_s16(int16x8_t vec, __builtin_constant_p(lane))	vec -> Vn.8H;0 <= lane <= 7	DUP Hd,Vn.H[lane]	Hd -> result	A64
 int32_t vdups_laneq_s32(int32x4_t vec, __builtin_constant_p(lane))	vec -> Vn.4S;0 <= lane <= 3	DUP Sd,Vn.S[lane]	Sd -> result	A64
@@ -2058,6 +2075,7 @@ float32_t vdups_laneq_f32(float32x4_t vec, __builtin_constant_p(lane))	vec -> Vn
 float64_t vdupd_laneq_f64(float64x2_t vec, __builtin_constant_p(lane))	vec -> Vn.2D;0 <= lane <= 1	DUP Dd,Vn.D[lane]	Dd -> result	A64
 poly8_t vdupb_laneq_p8(poly8x16_t vec, __builtin_constant_p(lane))	vec -> Vn.16B;0 <= lane <= 15	DUP Bd,Vn.B[lane]	Bd -> result	A64
 poly16_t vduph_laneq_p16(poly16x8_t vec, __builtin_constant_p(lane))	vec -> Vn.8H;0 <= lane <= 7	DUP Hd,Vn.H[lane]	Hd -> result	A64
+mfloat8_t vdupb_laneq_mf8(mfloat8x16_t vec, __builtin_constant_p(lane))	vec -> Vn.16B;0 <= lane <= 15	DUP Bd,Vn.B[lane]	Bd -> result	A64
 int8x8_t vld1_s8(int8_t const *ptr)	ptr -> Xn	LD1 {Vt.8B},[Xn]	Vt.8B -> result	v7/A32/A64
 int8x16_t vld1q_s8(int8_t const *ptr)	ptr -> Xn	LD1 {Vt.16B},[Xn]	Vt.16B -> result	v7/A32/A64
 int16x4_t vld1_s16(int16_t const *ptr)	ptr -> Xn	LD1 {Vt.4H},[Xn]	Vt.4H -> result	v7/A32/A64
@@ -2086,6 +2104,8 @@ poly16x4_t vld1_p16(poly16_t const *ptr)	ptr -> Xn	LD1 {Vt.4H},[Xn]	Vt.4H -> res
 poly16x8_t vld1q_p16(poly16_t const *ptr)	ptr -> Xn	LD1 {Vt.8H},[Xn]	Vt.8H -> result	v7/A32/A64
 float64x1_t vld1_f64(float64_t const *ptr)	ptr -> Xn	LD1 {Vt.1D},[Xn]	Vt.1D -> result	A64
 float64x2_t vld1q_f64(float64_t const *ptr)	ptr -> Xn	LD1 {Vt.2D},[Xn]	Vt.2D -> result	A64
+mfloat8x8_t vld1_mf8(mfloat8_t const *ptr)	ptr -> Xn	LD1 {Vt.8B},[Xn]	Vt.8B -> result	A64
+mfloat8x16_t vld1q_mf8(mfloat8_t const *ptr)	ptr -> Xn	LD1 {Vt.16B},[Xn]	Vt.16B -> result	A64
 int8x8_t vld1_lane_s8(int8_t const *ptr, int8x8_t src, __builtin_constant_p(lane))	ptr -> Xn;src -> Vt.8B;0 <= lane <= 7	LD1 {Vt.b}[lane],[Xn]	Vt.8B -> result	v7/A32/A64
 int8x16_t vld1q_lane_s8(int8_t const *ptr, int8x16_t src, __builtin_constant_p(lane))	ptr -> Xn;src -> Vt.16B;0 <= lane <= 15	LD1 {Vt.b}[lane],[Xn]	Vt.16B -> result	v7/A32/A64
 int16x4_t vld1_lane_s16(int16_t const *ptr, int16x4_t src, __builtin_constant_p(lane))	ptr -> Xn;src -> Vt.4H;0 <= lane <= 3	LD1 {Vt.H}[lane],[Xn]	Vt.4H -> result	v7/A32/A64
@@ -2114,6 +2134,8 @@ poly16x4_t vld1_lane_p16(poly16_t const *ptr, poly16x4_t src, __builtin_constant
 poly16x8_t vld1q_lane_p16(poly16_t const *ptr, poly16x8_t src, __builtin_constant_p(lane))	ptr -> Xn;src -> Vt.8H;0 <= lane <= 7	LD1 {Vt.H}[lane],[Xn]	Vt.8H -> result	v7/A32/A64
 float64x1_t vld1_lane_f64(float64_t const *ptr, float64x1_t src, __builtin_constant_p(lane))	ptr -> Xn;src -> Vt.1D;0 <= lane <= 0	LD1 {Vt.D}[lane],[Xn]	Vt.1D -> result	A64
 float64x2_t vld1q_lane_f64(float64_t const *ptr, float64x2_t src, __builtin_constant_p(lane))	ptr -> Xn;src -> Vt.2D;0 <= lane <= 1	LD1 {Vt.D}[lane],[Xn]	Vt.2D -> result	A64
+mfloat8x8_t vld1_lane_mf8(mfloat8_t const *ptr, mfloat8x8_t src, __builtin_constant_p(lane))	ptr -> Xn;src -> Vt.8B;0 <= lane <= 7	LD1 {Vt.b}[lane],[Xn]	Vt.8B -> result	A64
+mfloat8x16_t vld1q_lane_mf8(mfloat8_t const *ptr, mfloat8x16_t src, __builtin_constant_p(lane))	ptr -> Xn;src -> Vt.16B;0 <= lane <= 15	LD1 {Vt.b}[lane],[Xn]	Vt.16B -> result	A64
 uint64x1_t vldap1_lane_u64(uint64_t const *ptr, uint64x1_t src, __builtin_constant_p(lane))	ptr -> Xn;src -> Vt.1D;0 <= lane <= 0	LDAP1 {Vt.D}[lane],[Xn]	Vt.1D -> result	A64
 uint64x2_t vldap1q_lane_u64(uint64_t const *ptr, uint64x2_t src, __builtin_constant_p(lane))	ptr -> Xn;src -> Vt.2D;0 <= lane <= 1	LDAP1 {Vt.D}[lane],[Xn]	Vt.2D -> result	A64
 int64x1_t vldap1_lane_s64(int64_t const *ptr, int64x1_t src, __builtin_constant_p(lane))	ptr -> Xn;src -> Vt.1D;0 <= lane <= 0	LDAP1 {Vt.D}[lane],[Xn]	Vt.1D -> result	A64
@@ -2150,6 +2172,8 @@ poly16x4_t vld1_dup_p16(poly16_t const *ptr)	ptr -> Xn	LD1R {Vt.4H},[Xn]	Vt.4H -
 poly16x8_t vld1q_dup_p16(poly16_t const *ptr)	ptr -> Xn	LD1R {Vt.8H},[Xn]	Vt.8H -> result	v7/A32/A64
 float64x1_t vld1_dup_f64(float64_t const *ptr)	ptr -> Xn	LD1 {Vt.1D},[Xn]	Vt.1D -> result	A64
 float64x2_t vld1q_dup_f64(float64_t const *ptr)	ptr -> Xn	LD1R {Vt.2D},[Xn]	Vt.2D -> result	A64
+mfloat8x8_t vld1_dup_mf8(mfloat8_t const *ptr)	ptr -> Xn	LD1R {Vt.8B},[Xn]	Vt.8B -> result	A64
+mfloat8x16_t vld1q_dup_mf8(mfloat8_t const *ptr)	ptr -> Xn	LD1R {Vt.16B},[Xn]	Vt.16B -> result	A64
 void vst1_s8(int8_t *ptr, int8x8_t val)	val -> Vt.8B;ptr -> Xn	ST1 {Vt.8B},[Xn]		v7/A32/A64
 void vst1q_s8(int8_t *ptr, int8x16_t val)	val -> Vt.16B;ptr -> Xn	ST1 {Vt.16B},[Xn]		v7/A32/A64
 void vst1_s16(int16_t *ptr, int16x4_t val)	val -> Vt.4H;ptr -> Xn	ST1 {Vt.4H},[Xn]		v7/A32/A64
@@ -2178,6 +2202,8 @@ void vst1_p16(poly16_t *ptr, poly16x4_t val)	val -> Vt.4H;ptr -> Xn	ST1 {Vt.4H},
 void vst1q_p16(poly16_t *ptr, poly16x8_t val)	val -> Vt.8H;ptr -> Xn	ST1 {Vt.8H},[Xn]		v7/A32/A64
 void vst1_f64(float64_t *ptr, float64x1_t val)	val -> Vt.1D;ptr -> Xn	ST1 {Vt.1D},[Xn]		A64
 void vst1q_f64(float64_t *ptr, float64x2_t val)	val -> Vt.2D;ptr -> Xn	ST1 {Vt.2D},[Xn]		A64
+void vst1_mf8(mfloat8_t *ptr, mfloat8x8_t val)	val -> Vt.8B;ptr -> Xn	ST1 {Vt.8B},[Xn]		A64
+void vst1q_mf8(mfloat8_t *ptr, mfloat8x16_t val)	val -> Vt.16B;ptr -> Xn	ST1 {Vt.16B},[Xn]		A64
 void vst1_lane_s8(int8_t *ptr, int8x8_t val, __builtin_constant_p(lane))	val -> Vt.8B;ptr -> Xn;0 <= lane <= 7	ST1 {Vt.b}[lane],[Xn]		v7/A32/A64
 void vst1q_lane_s8(int8_t *ptr, int8x16_t val, __builtin_constant_p(lane))	val -> Vt.16B;ptr -> Xn;0 <= lane <= 15	ST1 {Vt.b}[lane],[Xn]		v7/A32/A64
 void vst1_lane_s16(int16_t *ptr, int16x4_t val, __builtin_constant_p(lane))	val -> Vt.4H;ptr -> Xn;0 <= lane <= 3	ST1 {Vt.h}[lane],[Xn]		v7/A32/A64
@@ -2214,6 +2240,8 @@ void vstl1_lane_f64(float64_t *ptr, float64x1_t val, __builtin_constant_p(lane))
 void vstl1q_lane_f64(float64_t *ptr, float64x2_t val, __builtin_constant_p(lane))	val -> Vt.2D;ptr -> Xn;0 <= lane <= 1	STL1 {Vt.d}[lane],[Xn]		A64
 void vstl1_lane_p64(poly64_t *ptr, poly64x1_t val, __builtin_constant_p(lane))	val -> Vt.1D;ptr -> Xn;0 <= lane <= 0	STL1 {Vt.d}[lane],[Xn]		A64
 void vstl1q_lane_p64(poly64_t *ptr, poly64x2_t val, __builtin_constant_p(lane))	val -> Vt.2D;ptr -> Xn;0 <= lane <= 1	STL1 {Vt.d}[lane],[Xn]		A64
+void vst1_lane_mf8(mfloat8_t *ptr, mfloat8x8_t val, __builtin_constant_p(lane))	val -> Vt.8B;ptr -> Xn;0 <= lane <= 7	ST1 {Vt.b}[lane],[Xn]		A64
+void vst1q_lane_mf8(mfloat8_t *ptr, mfloat8x16_t val, __builtin_constant_p(lane))	val -> Vt.16B;ptr -> Xn;0 <= lane <= 15	ST1 {Vt.b}[lane],[Xn]		A64
 int8x8x2_t vld2_s8(int8_t const *ptr)	ptr -> Xn	LD2 {Vt.8B - Vt2.8B},[Xn]	Vt2.8B -> result.val[1];Vt.8B -> result.val[0]	v7/A32/A64
 int8x16x2_t vld2q_s8(int8_t const *ptr)	ptr -> Xn	LD2 {Vt.16B - Vt2.16B},[Xn]	Vt2.16B -> result.val[1];Vt.16B -> result.val[0]	v7/A32/A64
 int16x4x2_t vld2_s16(int16_t const *ptr)	ptr -> Xn	LD2 {Vt.4H - Vt2.4H},[Xn]	Vt2.4H -> result.val[1];Vt.4H -> result.val[0]	v7/A32/A64
@@ -2242,6 +2270,8 @@ uint64x2x2_t vld2q_u64(uint64_t const *ptr)	ptr -> Xn	LD2 {Vt.2D - Vt2.2D},[Xn]
 poly64x2x2_t vld2q_p64(poly64_t const *ptr)	ptr -> Xn	LD2 {Vt.2D - Vt2.2D},[Xn]	Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A64
 float64x1x2_t vld2_f64(float64_t const *ptr)	ptr -> Xn	LD1 {Vt.1D - Vt2.1D},[Xn]	Vt2.1D -> result.val[1];Vt.1D -> result.val[0]	A64
 float64x2x2_t vld2q_f64(float64_t const *ptr)	ptr -> Xn	LD2 {Vt.2D - Vt2.2D},[Xn]	Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A64
+mfloat8x8x2_t vld2_mf8(mfloat8_t const *ptr)	ptr -> Xn	LD2 {Vt.8B - Vt2.8B},[Xn]	Vt2.8B -> result.val[1];Vt.8B -> result.val[0]	A64
+mfloat8x16x2_t vld2q_mf8(mfloat8_t const *ptr)	ptr -> Xn	LD2 {Vt.16B - Vt2.16B},[Xn]	Vt2.16B -> result.val[1];Vt.16B -> result.val[0]	A64
 int8x8x3_t vld3_s8(int8_t const *ptr)	ptr -> Xn	LD3 {Vt.8B - Vt3.8B},[Xn]	Vt3.8B -> result.val[2];Vt2.8B -> result.val[1];Vt.8B -> result.val[0]	v7/A32/A64
 int8x16x3_t vld3q_s8(int8_t const *ptr)	ptr -> Xn	LD3 {Vt.16B - Vt3.16B},[Xn]	Vt3.16B -> result.val[2];Vt2.16B -> result.val[1];Vt.16B -> result.val[0]	v7/A32/A64
 int16x4x3_t vld3_s16(int16_t const *ptr)	ptr -> Xn	LD3 {Vt.4H - Vt3.4H},[Xn]	Vt3.4H -> result.val[2];Vt2.4H -> result.val[1];Vt.4H -> result.val[0]	v7/A32/A64
@@ -2270,6 +2300,8 @@ uint64x2x3_t vld3q_u64(uint64_t const *ptr)	ptr -> Xn	LD3 {Vt.2D - Vt3.2D},[Xn]
 poly64x2x3_t vld3q_p64(poly64_t const *ptr)	ptr -> Xn	LD3 {Vt.2D - Vt3.2D},[Xn]	Vt3.2D -> result.val[2];Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A64
 float64x1x3_t vld3_f64(float64_t const *ptr)	ptr -> Xn	LD1 {Vt.1D - Vt3.1D},[Xn]	Vt3.1D -> result.val[2];Vt2.1D -> result.val[1];Vt.1D -> result.val[0]	A64
 float64x2x3_t vld3q_f64(float64_t const *ptr)	ptr -> Xn	LD3 {Vt.2D - Vt3.2D},[Xn]	Vt3.2D -> result.val[2];Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A64
+mfloat8x8x3_t vld3_mf8(int8_t const *ptr)	ptr -> Xn	LD3 {Vt.8B - Vt3.8B},[Xn]	Vt3.8B -> result.val[2];Vt2.8B -> result.val[1];Vt.8B -> result.val[0]	A64
+mfloat8x16x3_t vld3q_mf8(int8_t const *ptr)	ptr -> Xn	LD3 {Vt.16B - Vt3.16B},[Xn]	Vt3.16B -> result.val[2];Vt2.16B -> result.val[1];Vt.16B -> result.val[0]	A64
 int8x8x4_t vld4_s8(int8_t const *ptr)	ptr -> Xn	LD4 {Vt.8B - Vt4.8B},[Xn]	Vt4.8B -> result.val[3];Vt3.8B -> result.val[2];Vt2.8B -> result.val[1];Vt.8B -> result.val[0]	v7/A32/A64
 int8x16x4_t vld4q_s8(int8_t const *ptr)	ptr -> Xn	LD4 {Vt.16B - Vt4.16B},[Xn]	Vt4.16B -> result.val[3];Vt3.16B -> result.val[2];Vt2.16B -> result.val[1];Vt.16B -> result.val[0]	v7/A32/A64
 int16x4x4_t vld4_s16(int16_t const *ptr)	ptr -> Xn	LD4 {Vt.4H - Vt4.4H},[Xn]	Vt4.4H -> result.val[3];Vt3.4H -> result.val[2];Vt2.4H -> result.val[1];Vt.4H -> result.val[0]	v7/A32/A64
@@ -2298,6 +2330,8 @@ uint64x2x4_t vld4q_u64(uint64_t const *ptr)	ptr -> Xn	LD4 {Vt.2D - Vt4.2D},[Xn]
 poly64x2x4_t vld4q_p64(poly64_t const *ptr)	ptr -> Xn	LD4 {Vt.2D - Vt4.2D},[Xn]	Vt4.2D -> result.val[3];Vt3.2D -> result.val[2];Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A64
 float64x1x4_t vld4_f64(float64_t const *ptr)	ptr -> Xn	LD1 {Vt.1D - Vt4.1D},[Xn]	Vt4.1D -> result.val[3];Vt3.1D -> result.val[2];Vt2.1D -> result.val[1];Vt.1D -> result.val[0]	A64
 float64x2x4_t vld4q_f64(float64_t const *ptr)	ptr -> Xn	LD4 {Vt.2D - Vt4.2D},[Xn]	Vt4.2D -> result.val[3];Vt3.2D -> result.val[2];Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A64
+mfloat8x8x4_t vld4_mf8(mfloat8_t const *ptr)	ptr -> Xn	LD4 {Vt.8B - Vt4.8B},[Xn]	Vt4.8B -> result.val[3];Vt3.8B -> result.val[2];Vt2.8B -> result.val[1];Vt.8B -> result.val[0]	A64
+mfloat8x16x4_t vld4q_mf8(mfloat8_t const *ptr)	ptr -> Xn	LD4 {Vt.16B - Vt4.16B},[Xn]	Vt4.16B -> result.val[3];Vt3.16B -> result.val[2];Vt2.16B -> result.val[1];Vt.16B -> result.val[0]	A64
 int8x8x2_t vld2_dup_s8(int8_t const *ptr)	ptr -> Xn	LD2R {Vt.8B - Vt2.8B},[Xn]	Vt2.8B -> result.val[1];Vt.8B -> result.val[0]	v7/A32/A64
 int8x16x2_t vld2q_dup_s8(int8_t const *ptr)	ptr -> Xn	LD2R {Vt.16B - Vt2.16B},[Xn]	Vt2.16B -> result.val[1];Vt.16B -> result.val[0]	v7/A32/A64
 int16x4x2_t vld2_dup_s16(int16_t const *ptr)	ptr -> Xn	LD2R {Vt.4H - Vt2.4H},[Xn]	Vt2.4H -> result.val[1];Vt.4H -> result.val[0]	v7/A32/A64
@@ -2326,6 +2360,8 @@ uint64x2x2_t vld2q_dup_u64(uint64_t const *ptr)	ptr -> Xn	LD2R {Vt.2D - Vt2.2D},
 poly64x2x2_t vld2q_dup_p64(poly64_t const *ptr)	ptr -> Xn	LD2R {Vt.2D - Vt2.2D},[Xn]	Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A64
 float64x1x2_t vld2_dup_f64(float64_t const *ptr)	ptr -> Xn	LD2R {Vt.1D - Vt2.1D},[Xn]	Vt2.1D -> result.val[1];Vt.1D -> result.val[0]	A64
 float64x2x2_t vld2q_dup_f64(float64_t const *ptr)	ptr -> Xn	LD2R {Vt.2D - Vt2.2D},[Xn]	Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A64
+mfloat8x8x2_t vld2_dup_mf8(mfloat8_t const *ptr)	ptr -> Xn	LD2R {Vt.8B - Vt2.8B},[Xn]	Vt2.8B -> result.val[1];Vt.8B -> result.val[0]	A64
+mfloat8x16x2_t vld2q_dup_mf8(mfloat8_t const *ptr)	ptr -> Xn	LD2R {Vt.16B - Vt2.16B},[Xn]	Vt2.16B -> result.val[1];Vt.16B -> result.val[0]	A64
 int8x8x3_t vld3_dup_s8(int8_t const *ptr)	ptr -> Xn	LD3R {Vt.8B - Vt3.8B},[Xn]	Vt3.8B -> result.val[2];Vt2.8B -> result.val[1];Vt.8B -> result.val[0]	v7/A32/A64
 int8x16x3_t vld3q_dup_s8(int8_t const *ptr)	ptr -> Xn	LD3R {Vt.16B - Vt3.16B},[Xn]	Vt3.16B -> result.val[2];Vt2.16B -> result.val[1];Vt.16B -> result.val[0]	v7/A32/A64
 int16x4x3_t vld3_dup_s16(int16_t const *ptr)	ptr -> Xn	LD3R {Vt.4H - Vt3.4H},[Xn]	Vt3.4H -> result.val[2];Vt2.4H -> result.val[1];Vt.4H -> result.val[0]	v7/A32/A64
@@ -2354,6 +2390,8 @@ uint64x2x3_t vld3q_dup_u64(uint64_t const *ptr)	ptr -> Xn	LD3R {Vt.2D - Vt3.2D},
 poly64x2x3_t vld3q_dup_p64(poly64_t const *ptr)	ptr -> Xn	LD3R {Vt.2D - Vt3.2D},[Xn]	Vt3.2D -> result.val[2];Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A64
 float64x1x3_t vld3_dup_f64(float64_t const *ptr)	ptr -> Xn	LD3R {Vt.1D - Vt3.1D},[Xn]	Vt3.1D -> result.val[2];Vt2.1D -> result.val[1];Vt.1D -> result.val[0]	A64
 float64x2x3_t vld3q_dup_f64(float64_t const *ptr)	ptr -> Xn	LD3R {Vt.2D - Vt3.2D},[Xn]	Vt3.2D -> result.val[2];Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A64
+mfloat8x8x3_t vld3_dup_mf8(mfloat8_t const *ptr)	ptr -> Xn	LD3R {Vt.8B - Vt3.8B},[Xn]	Vt3.8B -> result.val[2];Vt2.8B -> result.val[1];Vt.8B -> result.val[0]	A64
+mfloat8x16x3_t vld3q_dup_mf8(mfloat8_t const *ptr)	ptr -> Xn	LD3R {Vt.16B - Vt3.16B},[Xn]	Vt3.16B -> result.val[2];Vt2.16B -> result.val[1];Vt.16B -> result.val[0]	A64
 int8x8x4_t vld4_dup_s8(int8_t const *ptr)	ptr -> Xn	LD4R {Vt.8B - Vt4.8B},[Xn]	Vt4.8B -> result.val[3];Vt3.8B -> result.val[2];Vt2.8B -> result.val[1];Vt.8B -> result.val[0]	v7/A32/A64
 int8x16x4_t vld4q_dup_s8(int8_t const *ptr)	ptr -> Xn	LD4R {Vt.16B - Vt4.16B},[Xn]	Vt4.16B -> result.val[3];Vt3.16B -> result.val[2];Vt2.16B -> result.val[1];Vt.16B -> result.val[0]	v7/A32/A64
 int16x4x4_t vld4_dup_s16(int16_t const *ptr)	ptr -> Xn	LD4R {Vt.4H - Vt4.4H},[Xn]	Vt4.4H -> result.val[3];Vt3.4H -> result.val[2];Vt2.4H -> result.val[1];Vt.4H -> result.val[0]	v7/A32/A64
@@ -2382,6 +2420,8 @@ uint64x2x4_t vld4q_dup_u64(uint64_t const *ptr)	ptr -> Xn	LD4R {Vt.2D - Vt4.2D},
 poly64x2x4_t vld4q_dup_p64(poly64_t const *ptr)	ptr -> Xn	LD4R {Vt.2D - Vt4.2D},[Xn]	Vt4.2D -> result.val[3];Vt3.2D -> result.val[2];Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A64
 float64x1x4_t vld4_dup_f64(float64_t const *ptr)	ptr -> Xn	LD4R {Vt.1D - Vt4.1D},[Xn]	Vt4.1D -> result.val[3];Vt3.1D -> result.val[2];Vt2.1D -> result.val[1];Vt.1D -> result.val[0]	A64
 float64x2x4_t vld4q_dup_f64(float64_t const *ptr)	ptr -> Xn	LD4R {Vt.2D - Vt4.2D},[Xn]	Vt4.2D -> result.val[3];Vt3.2D -> result.val[2];Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A64
+mfloat8x8x4_t vld4_dup_mf8(mfloat8_t const *ptr)	ptr -> Xn	LD4R {Vt.8B - Vt4.8B},[Xn]	Vt4.8B -> result.val[3];Vt3.8B -> result.val[2];Vt2.8B -> result.val[1];Vt.8B -> result.val[0]	A64
+mfloat8x16x4_t vld4q_dup_mf8(mfloat8_t const *ptr)	ptr -> Xn	LD4R {Vt.16B - Vt4.16B},[Xn]	Vt4.16B -> result.val[3];Vt3.16B -> result.val[2];Vt2.16B -> result.val[1];Vt.16B -> result.val[0]	A64
 void vst2_s8(int8_t *ptr, int8x8x2_t val)	val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn	ST2 {Vt.8B - Vt2.8B},[Xn]		v7/A32/A64
 void vst2q_s8(int8_t *ptr, int8x16x2_t val)	val.val[1] -> Vt2.16B;val.val[0] -> Vt.16B;ptr -> Xn	ST2 {Vt.16B - Vt2.16B},[Xn]		v7/A32/A64
 void vst2_s16(int16_t *ptr, int16x4x2_t val)	val.val[1] -> Vt2.4H;val.val[0] -> Vt.4H;ptr -> Xn	ST2 {Vt.4H - Vt2.4H},[Xn]		v7/A32/A64
@@ -2410,6 +2450,8 @@ void vst2q_u64(uint64_t *ptr, uint64x2x2_t val)	val.val[1] -> Vt2.2D;val.val[0]
 void vst2q_p64(poly64_t *ptr, poly64x2x2_t val)	val.val[1] -> Vt2.2D;val.val[0] -> Vt.2D;ptr -> Xn	ST2 {Vt.2D - Vt2.2D},[Xn]		A64
 void vst2_f64(float64_t *ptr, float64x1x2_t val)	val.val[1] -> Vt2.1D;val.val[0] -> Vt.1D;ptr -> Xn	ST1 {Vt.1D - Vt2.1D},[Xn]		A64
 void vst2q_f64(float64_t *ptr, float64x2x2_t val)	val.val[1] -> Vt2.2D;val.val[0] -> Vt.2D;ptr -> Xn	ST2 {Vt.2D - Vt2.2D},[Xn]		A64
+void vst2_mf8(mfloat8_t *ptr, mfloat8x8x2_t val)	val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn	ST2 {Vt.8B - Vt2.8B},[Xn]		A64
+void vst2q_mf8(mfloat8_t *ptr, mfloat8x16x2_t val)	val.val[1] -> Vt2.16B;val.val[0] -> Vt.16B;ptr -> Xn	ST2 {Vt.16B - Vt2.16B},[Xn]		A64
 void vst3_s8(int8_t *ptr, int8x8x3_t val)	val.val[2] -> Vt3.8B;val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn	ST3 {Vt.8B - Vt3.8B},[Xn]		v7/A32/A64
 void vst3q_s8(int8_t *ptr, int8x16x3_t val)	val.val[2] -> Vt3.16B;val.val[1] -> Vt2.16B;val.val[0] -> Vt.16B;ptr -> Xn	ST3 {Vt.16B - Vt3.16B},[Xn]		v7/A32/A64
 void vst3_s16(int16_t *ptr, int16x4x3_t val)	val.val[2] -> Vt3.4H;val.val[1] -> Vt2.4H;val.val[0] -> Vt.4H;ptr -> Xn	ST3 {Vt.4H - Vt3.4H},[Xn]		v7/A32/A64
@@ -2438,6 +2480,8 @@ void vst3q_u64(uint64_t *ptr, uint64x2x3_t val)	val.val[2] -> Vt3.2D;val.val[1]
 void vst3q_p64(poly64_t *ptr, poly64x2x3_t val)	val.val[2] -> Vt3.2D;val.val[1] -> Vt2.2D;val.val[0] -> Vt.2D;ptr -> Xn	ST3 {Vt.2D - Vt3.2D},[Xn]		A64
 void vst3_f64(float64_t *ptr, float64x1x3_t val)	val.val[2] -> Vt3.1D;val.val[1] -> Vt2.1D;val.val[0] -> Vt.1D;ptr -> Xn	ST1 {Vt.1D - Vt3.1D},[Xn]		A64
 void vst3q_f64(float64_t *ptr, float64x2x3_t val)	val.val[2] -> Vt3.2D;val.val[1] -> Vt2.2D;val.val[0] -> Vt.2D;ptr -> Xn	ST3 {Vt.2D - Vt3.2D},[Xn]		A64
+void vst3_mf8(mfloat8_t *ptr, mfloat8x8x3_t val)	val.val[2] -> Vt3.8B;val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn	ST3 {Vt.8B - Vt3.8B},[Xn]		A64
+void vst3q_mf8(mfloat8_t *ptr, mfloat8x16x3_t val)	val.val[2] -> Vt3.16B;val.val[1] -> Vt2.16B;val.val[0] -> Vt.16B;ptr -> Xn	ST3 {Vt.16B - Vt3.16B},[Xn]		A64
 void vst4_s8(int8_t *ptr, int8x8x4_t val)	val.val[3] -> Vt4.8B;val.val[2] -> Vt3.8B;val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn	ST4 {Vt.8B - Vt4.8B},[Xn]		v7/A32/A64
 void vst4q_s8(int8_t *ptr, int8x16x4_t val)	val.val[3] -> Vt4.16B;val.val[2] -> Vt3.16B;val.val[1] -> Vt2.16B;val.val[0] -> Vt.16B;ptr -> Xn	ST4 {Vt.16B - Vt4.16B},[Xn]		v7/A32/A64
 void vst4_s16(int16_t *ptr, int16x4x4_t val)	val.val[3] -> Vt4.4H;val.val[2] -> Vt3.4H;val.val[1] -> Vt2.4H;val.val[0] -> Vt.4H;ptr -> Xn	ST4 {Vt.4H - Vt4.4H},[Xn]		v7/A32/A64
@@ -2466,6 +2510,8 @@ void vst4q_u64(uint64_t *ptr, uint64x2x4_t val)	val.val[3] -> Vt4.2D;val.val[2]
 void vst4q_p64(poly64_t *ptr, poly64x2x4_t val)	val.val[3] -> Vt4.2D;val.val[2] -> Vt3.2D;val.val[1] -> Vt2.2D;val.val[0] -> Vt.2D;ptr -> Xn	ST4 {Vt.2D - Vt4.2D},[Xn]		A64
 void vst4_f64(float64_t *ptr, float64x1x4_t val)	val.val[3] -> Vt4.1D;val.val[2] -> Vt3.1D;val.val[1] -> Vt2.1D;val.val[0] -> Vt.1D;ptr -> Xn	ST1 {Vt.1D - Vt4.1D},[Xn]		A64
 void vst4q_f64(float64_t *ptr, float64x2x4_t val)	val.val[3] -> Vt4.2D;val.val[2] -> Vt3.2D;val.val[1] -> Vt2.2D;val.val[0] -> Vt.2D;ptr -> Xn	ST4 {Vt.2D - Vt4.2D},[Xn]		A64
+void vst4_mf8(mfloat8_t *ptr, mfloat8x8x4_t val)	val.val[3] -> Vt4.8B;val.val[2] -> Vt3.8B;val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn	ST4 {Vt.8B - Vt4.8B},[Xn]		A64
+void vst4q_mf8(mfloat8_t *ptr, mfloat8x16x4_t val)	val.val[3] -> Vt4.16B;val.val[2] -> Vt3.16B;val.val[1] -> Vt2.16B;val.val[0] -> Vt.16B;ptr -> Xn	ST4 {Vt.16B - Vt4.16B},[Xn]		A64
 int16x4x2_t vld2_lane_s16(int16_t const *ptr, int16x4x2_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[1] -> Vt2.4H;src.val[0] -> Vt.4H;0 <= lane <= 3	LD2 {Vt.h - Vt2.h}[lane],[Xn]	Vt2.4H -> result.val[1];Vt.4H -> result.val[0]	v7/A32/A64
 int16x8x2_t vld2q_lane_s16(int16_t const *ptr, int16x8x2_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[1] -> Vt2.8H;src.val[0] -> Vt.8H;0 <= lane <= 7	LD2 {Vt.h - Vt2.h}[lane],[Xn]	Vt2.8H -> result.val[1];Vt.8H -> result.val[0]	v7/A32/A64
 int32x2x2_t vld2_lane_s32(int32_t const *ptr, int32x2x2_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[1] -> Vt2.2S;src.val[0] -> Vt.2S;0 <= lane <= 1	LD2 {Vt.s - Vt2.s}[lane],[Xn]	Vt2.2S -> result.val[1];Vt.2S -> result.val[0]	v7/A32/A64
@@ -2494,6 +2540,8 @@ poly64x1x2_t vld2_lane_p64(poly64_t const *ptr, poly64x1x2_t src, __builtin_cons
 poly64x2x2_t vld2q_lane_p64(poly64_t const *ptr, poly64x2x2_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[1] -> Vt2.2D;src.val[0] -> Vt.2D;0 <= lane <= 1	LD2 {Vt.d - Vt2.d}[lane],[Xn]	Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A64
 float64x1x2_t vld2_lane_f64(float64_t const *ptr, float64x1x2_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[1] -> Vt2.1D;src.val[0] -> Vt.1D;0 <= lane <= 0	LD2 {Vt.d - Vt2.d}[lane],[Xn]	Vt2.1D -> result.val[1];Vt.1D -> result.val[0]	A64
 float64x2x2_t vld2q_lane_f64(float64_t const *ptr, float64x2x2_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[1] -> Vt2.2D;src.val[0] -> Vt.2D;0 <= lane <= 1	LD2 {Vt.d - Vt2.d}[lane],[Xn]	Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A64
+mfloat8x8x2_t vld2_lane_mf8(mfloat8_t const *ptr, mfloat8x8x2_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[1] -> Vt2.8B;src.val[0] -> Vt.8B;0 <= lane <= 7	LD2 {Vt.b - Vt2.b}[lane],[Xn]	Vt2.8B -> result.val[1];Vt.8B -> result.val[0]	A64
+mfloat8x16x2_t vld2q_lane_mf8(mfloat8_t const *ptr, mfloat8x16x2_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[1] -> Vt2.16B;src.val[0] -> Vt.16B;0 <= lane <= 15	LD2 {Vt.b - Vt2.b}[lane],[Xn]	Vt2.16B -> result.val[1];Vt.16B -> result.val[0]	A64
 int16x4x3_t vld3_lane_s16(int16_t const *ptr, int16x4x3_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[2] -> Vt3.4H;src.val[1] -> Vt2.4H;src.val[0] -> Vt.4H;0 <= lane <= 3	LD3 {Vt.h - Vt3.h}[lane],[Xn]	Vt3.4H -> result.val[2];Vt2.4H -> result.val[1];Vt.4H -> result.val[0]	v7/A32/A64
 int16x8x3_t vld3q_lane_s16(int16_t const *ptr, int16x8x3_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[2] -> Vt3.8H;src.val[1] -> Vt2.8H;src.val[0] -> Vt.8H;0 <= lane <= 7	LD3 {Vt.h - Vt3.h}[lane],[Xn]	Vt3.8H -> result.val[2];Vt2.8H -> result.val[1];Vt.8H -> result.val[0]	v7/A32/A64
 int32x2x3_t vld3_lane_s32(int32_t const *ptr, int32x2x3_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[2] -> Vt3.2S;src.val[1] -> Vt2.2S;src.val[0] -> Vt.2S;0 <= lane <= 1	LD3 {Vt.s - Vt3.s}[lane],[Xn]	Vt3.2S -> result.val[2];Vt2.2S -> result.val[1];Vt.2S -> result.val[0]	v7/A32/A64
@@ -2522,6 +2570,8 @@ poly64x1x3_t vld3_lane_p64(poly64_t const *ptr, poly64x1x3_t src, __builtin_cons
 poly64x2x3_t vld3q_lane_p64(poly64_t const *ptr, poly64x2x3_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[2] -> Vt3.2D;src.val[1] -> Vt2.2D;src.val[0] -> Vt.2D;0 <= lane <= 1	LD3 {Vt.d - Vt3.d}[lane],[Xn]	Vt3.2D -> result.val[2];Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A64
 float64x1x3_t vld3_lane_f64(float64_t const *ptr, float64x1x3_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[2] -> Vt3.1D;src.val[1] -> Vt2.1D;src.val[0] -> Vt.1D;0 <= lane <= 0	LD3 {Vt.d - Vt3.d}[lane],[Xn]	Vt3.1D -> result.val[2];Vt2.1D -> result.val[1];Vt.1D -> result.val[0]	A64
 float64x2x3_t vld3q_lane_f64(float64_t const *ptr, float64x2x3_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[2] -> Vt3.2D;src.val[1] -> Vt2.2D;src.val[0] -> Vt.2D;0 <= lane <= 1	LD3 {Vt.d - Vt3.d}[lane],[Xn]	Vt3.2D -> result.val[2];Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A64
+mfloat8x8x3_t vld3_lane_mf8(mfloat8_t const *ptr, mfloat8x8x3_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[2] -> Vt3.8B;src.val[1] -> Vt2.8B;src.val[0] -> Vt.8B;0 <= lane <= 7	LD3 {Vt.b - Vt3.b}[lane],[Xn]	Vt3.8B -> result.val[2];Vt2.8B -> result.val[1];Vt.8B -> result.val[0]	A64
+mfloat8x16x3_t vld3q_lane_mf8(mfloat8_t const *ptr, mfloat8x16x3_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[2] -> Vt3.16B;src.val[1] -> Vt2.16B;src.val[0] -> Vt.16B;0 <= lane <= 15	LD3 {Vt.b - Vt3.b}[lane],[Xn]	Vt3.16B -> result.val[2];Vt2.16B -> result.val[1];Vt.16B -> result.val[0]	A64
 int16x4x4_t vld4_lane_s16(int16_t const *ptr, int16x4x4_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[3] -> Vt4.4H;src.val[2] -> Vt3.4H;src.val[1] -> Vt2.4H;src.val[0] -> Vt.4H;0 <= lane <= 3	LD4 {Vt.h - Vt4.h}[lane],[Xn]	Vt4.4H -> result.val[3];Vt3.4H -> result.val[2];Vt2.4H -> result.val[1];Vt.4H -> result.val[0]	v7/A32/A64
 int16x8x4_t vld4q_lane_s16(int16_t const *ptr, int16x8x4_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[3] -> Vt4.8H;src.val[2] -> Vt3.8H;src.val[1] -> Vt2.8H;src.val[0] -> Vt.8H;0 <= lane <= 7	LD4 {Vt.h - Vt4.h}[lane],[Xn]	Vt4.8H -> result.val[3];Vt3.8H -> result.val[2];Vt2.8H -> result.val[1];Vt.8H -> result.val[0]	v7/A32/A64
 int32x2x4_t vld4_lane_s32(int32_t const *ptr, int32x2x4_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[3] -> Vt4.2S;src.val[2] -> Vt3.2S;src.val[1] -> Vt2.2S;src.val[0] -> Vt.2S;0 <= lane <= 1	LD4 {Vt.s - Vt4.s}[lane],[Xn]	Vt4.2S -> result.val[3];Vt3.2S -> result.val[2];Vt2.2S -> result.val[1];Vt.2S -> result.val[0]	v7/A32/A64
@@ -2550,15 +2600,20 @@ poly64x1x4_t vld4_lane_p64(poly64_t const *ptr, poly64x1x4_t src, __builtin_cons
 poly64x2x4_t vld4q_lane_p64(poly64_t const *ptr, poly64x2x4_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[3] -> Vt4.2D;src.val[2] -> Vt3.2D;src.val[1] -> Vt2.2D;src.val[0] -> Vt.2D;0 <= lane <= 1	LD4 {Vt.d - Vt4.d}[lane],[Xn]	Vt4.2D -> result.val[3];Vt3.2D -> result.val[2];Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A64
 float64x1x4_t vld4_lane_f64(float64_t const *ptr, float64x1x4_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[3] -> Vt4.1D;src.val[2] -> Vt3.1D;src.val[1] -> Vt2.1D;src.val[0] -> Vt.1D;0 <= lane <= 0	LD4 {Vt.d - Vt4.d}[lane],[Xn]	Vt4.1D -> result.val[3];Vt3.1D -> result.val[2];Vt2.1D -> result.val[1];Vt.1D -> result.val[0]	A64
 float64x2x4_t vld4q_lane_f64(float64_t const *ptr, float64x2x4_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[3] -> Vt4.2D;src.val[2] -> Vt3.2D;src.val[1] -> Vt2.2D;src.val[0] -> Vt.2D;0 <= lane <= 1	LD4 {Vt.d - Vt4.d}[lane],[Xn]	Vt4.2D -> result.val[3];Vt3.2D -> result.val[2];Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A64
+mfloat8x8x4_t vld4_lane_mf8(mfloat8_t const *ptr, mfloat8x8x4_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[3] -> Vt4.8B;src.val[2] -> Vt3.8B;src.val[1] -> Vt2.8B;src.val[0] -> Vt.8B;0 <= lane <= 7	LD4 {Vt.b - Vt4.b}[lane],[Xn]	Vt4.8B -> result.val[3];Vt3.8B -> result.val[2];Vt2.8B -> result.val[1];Vt.8B -> result.val[0]	A64
+mfloat8x16x4_t vld4q_lane_mf8(mfloat8_t const *ptr, mfloat8x16x4_t src, __builtin_constant_p(lane))	ptr -> Xn;src.val[3] -> Vt4.16B;src.val[2] -> Vt3.16B;src.val[1] -> Vt2.16B;src.val[0] -> Vt.16B;0 <= lane <= 15	LD4 {Vt.b - Vt4.b}[lane],[Xn]	Vt4.16B -> result.val[3];Vt3.16B -> result.val[2];Vt2.16B -> result.val[1];Vt.16B -> result.val[0]	A64
 void vst2_lane_s8(int8_t *ptr, int8x8x2_t val, __builtin_constant_p(lane))	val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn;0 <= lane <= 7	ST2 {Vt.b - Vt2.b}[lane],[Xn]		v7/A32/A64
 void vst2_lane_u8(uint8_t *ptr, uint8x8x2_t val, __builtin_constant_p(lane))	val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn;0 <= lane <= 7	ST2 {Vt.b - Vt2.b}[lane],[Xn]		v7/A32/A64
 void vst2_lane_p8(poly8_t *ptr, poly8x8x2_t val, __builtin_constant_p(lane))	val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn;0 <= lane <= 7	ST2 {Vt.b - Vt2.b}[lane],[Xn]		v7/A32/A64
+void vst2_lane_mf8(mfloat8_t *ptr, mfloat8x8x2_t val, __builtin_constant_p(lane))	val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn;0 <= lane <= 7	ST2 {Vt.b - Vt2.b}[lane],[Xn]		A64
 void vst3_lane_s8(int8_t *ptr, int8x8x3_t val, __builtin_constant_p(lane))	val.val[2] -> Vt3.8B;val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn;0 <= lane <= 7	ST3 {Vt.b - Vt3.b}[lane],[Xn]		v7/A32/A64
 void vst3_lane_u8(uint8_t *ptr, uint8x8x3_t val, __builtin_constant_p(lane))	val.val[2] -> Vt3.8B;val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn;0 <= lane <= 7	ST3 {Vt.b - Vt3.b}[lane],[Xn]		v7/A32/A64
 void vst3_lane_p8(poly8_t *ptr, poly8x8x3_t val, __builtin_constant_p(lane))	val.val[2] -> Vt3.8B;val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn;0 <= lane <= 7	ST3 {Vt.b - Vt3.b}[lane],[Xn]		v7/A32/A64
+void vst3_lane_mf8(mfloat8_t *ptr, mfloat8x8x3_t val, __builtin_constant_p(lane))	val.val[2] -> Vt3.8B;val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn;0 <= lane <= 7	ST3 {Vt.b - Vt3.b}[lane],[Xn]		A64
 void vst4_lane_s8(int8_t *ptr, int8x8x4_t val, __builtin_constant_p(lane))	val.val[3] -> Vt4.8B;val.val[2] -> Vt3.8B;val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn;0 <= lane <= 7	ST4 {Vt.b - Vt4.b}[lane],[Xn]		v7/A32/A64
 void vst4_lane_u8(uint8_t *ptr, uint8x8x4_t val, __builtin_constant_p(lane))	val.val[3] -> Vt4.8B;val.val[2] -> Vt3.8B;val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn;0 <= lane <= 7	ST4 {Vt.b - Vt4.b}[lane],[Xn]		v7/A32/A64
 void vst4_lane_p8(poly8_t *ptr, poly8x8x4_t val, __builtin_constant_p(lane))	val.val[3] -> Vt4.8B;val.val[2] -> Vt3.8B;val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn;0 <= lane <= 7	ST4 {Vt.b - Vt4.b}[lane],[Xn]		v7/A32/A64
+void vst4_lane_mf8(mfloat8_t *ptr, mfloat8x8x4_t val, __builtin_constant_p(lane))	val.val[3] -> Vt4.8B;val.val[2] -> Vt3.8B;val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn;0 <= lane <= 7	ST4 {Vt.b - Vt4.b}[lane],[Xn]		A64
 void vst2_lane_s16(int16_t *ptr, int16x4x2_t val, __builtin_constant_p(lane))	val.val[1] -> Vt2.4H;val.val[0] -> Vt.4H;ptr -> Xn;0 <= lane <= 3	ST2 {Vt.h - Vt2.h}[lane],[Xn]		v7/A32/A64
 void vst2q_lane_s16(int16_t *ptr, int16x8x2_t val, __builtin_constant_p(lane))	val.val[1] -> Vt2.8H;val.val[0] -> Vt.8H;ptr -> Xn;0 <= lane <= 7	ST2 {Vt.h - Vt2.h}[lane],[Xn]		v7/A32/A64
 void vst2_lane_s32(int32_t *ptr, int32x2x2_t val, __builtin_constant_p(lane))	val.val[1] -> Vt2.2S;val.val[0] -> Vt.2S;ptr -> Xn;0 <= lane <= 1	ST2 {Vt.s - Vt2.s}[lane],[Xn]		v7/A32/A64
@@ -2576,6 +2631,7 @@ void vst2q_lane_p16(poly16_t *ptr, poly16x8x2_t val, __builtin_constant_p(lane))
 void vst2q_lane_s8(int8_t *ptr, int8x16x2_t val, __builtin_constant_p(lane))	val.val[1] -> Vt2.16B;val.val[0] -> Vt.16B;ptr -> Xn;0 <= lane <= 15	ST2 {Vt.b - Vt2.b}[lane],[Xn]		A64
 void vst2q_lane_u8(uint8_t *ptr, uint8x16x2_t val, __builtin_constant_p(lane))	val.val[1] -> Vt2.16B;val.val[0] -> Vt.16B;ptr -> Xn;0 <= lane <= 15	ST2 {Vt.b - Vt2.b}[lane],[Xn]		A64
 void vst2q_lane_p8(poly8_t *ptr, poly8x16x2_t val, __builtin_constant_p(lane))	val.val[1] -> Vt2.16B;val.val[0] -> Vt.16B;ptr -> Xn;0 <= lane <= 15	ST2 {Vt.b - Vt2.b}[lane],[Xn]		A64
+void vst2q_lane_mf8(mfloat8_t *ptr, mfloat8x16x2_t val, __builtin_constant_p(lane))	val.val[1] -> Vt2.16B;val.val[0] -> Vt.16B;ptr -> Xn;0 <= lane <= 15	ST2 {Vt.b - Vt2.b}[lane],[Xn]		A64
 void vst2_lane_s64(int64_t *ptr, int64x1x2_t val, __builtin_constant_p(lane))	val.val[1] -> Vt2.1D;val.val[0] -> Vt.1D;ptr -> Xn;0 <= lane <= 0	ST2 {Vt.d - Vt2.d}[lane],[Xn]		A64
 void vst2q_lane_s64(int64_t *ptr, int64x2x2_t val, __builtin_constant_p(lane))	val.val[1] -> Vt2.2D;val.val[0] -> Vt.2D;ptr -> Xn;0 <= lane <= 1	ST2 {Vt.d - Vt2.d}[lane],[Xn]		A64
 void vst2_lane_u64(uint64_t *ptr, uint64x1x2_t val, __builtin_constant_p(lane))	val.val[1] -> Vt2.1D;val.val[0] -> Vt.1D;ptr -> Xn;0 <= lane <= 0	ST2 {Vt.d - Vt2.d}[lane],[Xn]		A64
@@ -2609,6 +2665,7 @@ void vst3_lane_p64(poly64_t *ptr, poly64x1x3_t val, __builtin_constant_p(lane))
 void vst3q_lane_p64(poly64_t *ptr, poly64x2x3_t val, __builtin_constant_p(lane))	val.val[2] -> Vt3.2D;val.val[1] -> Vt2.2D;val.val[0] -> Vt.2D;ptr -> Xn;0 <= lane <= 1	ST3 {Vt.d - Vt3.d}[lane],[Xn]		A64
 void vst3_lane_f64(float64_t *ptr, float64x1x3_t val, __builtin_constant_p(lane))	val.val[2] -> Vt3.1D;val.val[1] -> Vt2.1D;val.val[0] -> Vt.1D;ptr -> Xn;0 <= lane <= 0	ST3 {Vt.d - Vt3.d}[lane],[Xn]		A64
 void vst3q_lane_f64(float64_t *ptr, float64x2x3_t val, __builtin_constant_p(lane))	val.val[2] -> Vt3.2D;val.val[1] -> Vt2.2D;val.val[0] -> Vt.2D;ptr -> Xn;0 <= lane <= 1	ST3 {Vt.d - Vt3.d}[lane],[Xn]		A64
+void vst3q_lane_mf8(mfloat8_t *ptr, mfloat8x16x3_t val, __builtin_constant_p(lane))	val.val[2] -> Vt3.16B;val.val[1] -> Vt2.16B;val.val[0] -> Vt.16B;ptr -> Xn;0 <= lane <= 15	ST3 {Vt.b - Vt3.b}[lane],[Xn]		A64
 void vst4_lane_s16(int16_t *ptr, int16x4x4_t val, __builtin_constant_p(lane))	val.val[3] -> Vt4.4H;val.val[2] -> Vt3.4H;val.val[1] -> Vt2.4H;val.val[0] -> Vt.4H;ptr -> Xn;0 <= lane <= 3	ST4 {Vt.h - Vt4.h}[lane],[Xn]		v7/A32/A64
 void vst4q_lane_s16(int16_t *ptr, int16x8x4_t val, __builtin_constant_p(lane))	val.val[3] -> Vt4.8H;val.val[2] -> Vt3.8H;val.val[1] -> Vt2.8H;val.val[0] -> Vt.8H;ptr -> Xn;0 <= lane <= 7	ST4 {Vt.h - Vt4.h}[lane],[Xn]		v7/A32/A64
 void vst4_lane_s32(int32_t *ptr, int32x2x4_t val, __builtin_constant_p(lane))	val.val[3] -> Vt4.2S;val.val[2] -> Vt3.2S;val.val[1] -> Vt2.2S;val.val[0] -> Vt.2S;ptr -> Xn;0 <= lane <= 1	ST4 {Vt.s - Vt4.s}[lane],[Xn]		v7/A32/A64
@@ -2634,6 +2691,7 @@ void vst4_lane_p64(poly64_t *ptr, poly64x1x4_t val, __builtin_constant_p(lane))
 void vst4q_lane_p64(poly64_t *ptr, poly64x2x4_t val, __builtin_constant_p(lane))	val.val[3] -> Vt4.2D;val.val[2] -> Vt3.2D;val.val[1] -> Vt2.2D;val.val[0] -> Vt.2D;ptr -> Xn;0 <= lane <= 1	ST4 {Vt.d - Vt4.d}[lane],[Xn]		A64
 void vst4_lane_f64(float64_t *ptr, float64x1x4_t val, __builtin_constant_p(lane))	val.val[3] -> Vt4.1D;val.val[2] -> Vt3.1D;val.val[1] -> Vt2.1D;val.val[0] -> Vt.1D;ptr -> Xn;0 <= lane <= 0	ST4 {Vt.d - Vt4.d}[lane],[Xn]		A64
 void vst4q_lane_f64(float64_t *ptr, float64x2x4_t val, __builtin_constant_p(lane))	val.val[3] -> Vt4.2D;val.val[2] -> Vt3.2D;val.val[1] -> Vt2.2D;val.val[0] -> Vt.2D;ptr -> Xn;0 <= lane <= 1	ST4 {Vt.d - Vt4.d}[lane],[Xn]		A64
+void vst4q_lane_mf8(mfloat8_t *ptr, mfloat8x16x4_t val, __builtin_constant_p(lane))	val.val[3] -> Vt4.16B;val.val[2] -> Vt3.16B;val.val[1] -> Vt2.16B;val.val[0] -> Vt.16B;ptr -> Xn;0 <= lane <= 15	ST4 {Vt.b - Vt4.b}[lane],[Xn]		A64
 void vst1_s8_x2(int8_t *ptr, int8x8x2_t val)	val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn	ST1 {Vt.8B - Vt2.8B},[Xn]		v7/A32/A64
 void vst1q_s8_x2(int8_t *ptr, int8x16x2_t val)	val.val[1] -> Vt2.16B;val.val[0] -> Vt.16B;ptr -> Xn	ST1 {Vt.16B - Vt2.16B},[Xn]		v7/A32/A64
 void vst1_s16_x2(int16_t *ptr, int16x4x2_t val)	val.val[1] -> Vt2.4H;val.val[0] -> Vt.4H;ptr -> Xn	ST1 {Vt.4H - Vt2.4H},[Xn]		v7/A32/A64
@@ -2662,6 +2720,8 @@ void vst1q_u64_x2(uint64_t *ptr, uint64x2x2_t val)	val.val[1] -> Vt2.2D;val.val[
 void vst1q_p64_x2(poly64_t *ptr, poly64x2x2_t val)	val.val[1] -> Vt2.2D;val.val[0] -> Vt.2D;ptr -> Xn	ST1 {Vt.2D - Vt2.2D},[Xn]		A32/A64
 void vst1_f64_x2(float64_t *ptr, float64x1x2_t val)	val.val[1] -> Vt2.1D;val.val[0] -> Vt.1D;ptr -> Xn	ST1 {Vt.1D - Vt2.1D},[Xn]		A64
 void vst1q_f64_x2(float64_t *ptr, float64x2x2_t val)	val.val[1] -> Vt2.2D;val.val[0] -> Vt.2D;ptr -> Xn	ST1 {Vt.2D - Vt2.2D},[Xn]		A64
+void vst1_mf8_x2(mfloat8_t *ptr, mfloat8x8x2_t val)	val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn	ST1 {Vt.8B - Vt2.8B},[Xn]		A64
+void vst1q_mf8_x2(mfloat8_t *ptr, mfloat8x16x2_t val)	val.val[1] -> Vt2.16B;val.val[0] -> Vt.16B;ptr -> Xn	ST1 {Vt.16B - Vt2.16B},[Xn]		A64
 void vst1_s8_x3(int8_t *ptr, int8x8x3_t val)	val.val[2] -> Vt3.8B;val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn	ST1 {Vt.8B - Vt3.8B},[Xn]		v7/A32/A64
 void vst1q_s8_x3(int8_t *ptr, int8x16x3_t val)	val.val[2] -> Vt3.16B;val.val[1] -> Vt2.16B;val.val[0] -> Vt.16B;ptr -> Xn	ST1 {Vt.16B - Vt3.16B},[Xn]		v7/A32/A64
 void vst1_s16_x3(int16_t *ptr, int16x4x3_t val)	val.val[2] -> Vt3.4H;val.val[1] -> Vt2.4H;val.val[0] -> Vt.4H;ptr -> Xn	ST1 {Vt.4H - Vt3.4H},[Xn]		v7/A32/A64
@@ -2690,6 +2750,8 @@ void vst1q_u64_x3(uint64_t *ptr, uint64x2x3_t val)	val.val[2] -> Vt3.2D;val.val[
 void vst1q_p64_x3(poly64_t *ptr, poly64x2x3_t val)	val.val[2] -> Vt3.2D;val.val[1] -> Vt2.2D;val.val[0] -> Vt.2D;ptr -> Xn	ST1 {Vt.2D - Vt3.2D},[Xn]		v7/A32/A64
 void vst1_f64_x3(float64_t *ptr, float64x1x3_t val)	val.val[2] -> Vt3.1D;val.val[1] -> Vt2.1D;val.val[0] -> Vt.1D;ptr -> Xn	ST1 {Vt.1D - Vt3.1D},[Xn]		A64
 void vst1q_f64_x3(float64_t *ptr, float64x2x3_t val)	val.val[2] -> Vt3.2D;val.val[1] -> Vt2.2D;val.val[0] -> Vt.2D;ptr -> Xn	ST1 {Vt.2D - Vt3.2D},[Xn]		A64
+void vst1_mf8_x3(mfloat8_t *ptr, mfloat8x8x3_t val)	val.val[2] -> Vt3.8B;val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn	ST1 {Vt.8B - Vt3.8B},[Xn]		A64
+void vst1q_mf8_x3(mfloat8_t *ptr, mfloat8x16x3_t val)	val.val[2] -> Vt3.16B;val.val[1] -> Vt2.16B;val.val[0] -> Vt.16B;ptr -> Xn	ST1 {Vt.16B - Vt3.16B},[Xn]		A64
 void vst1_s8_x4(int8_t *ptr, int8x8x4_t val)	val.val[3] -> Vt4.8B;val.val[2] -> Vt3.8B;val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn	ST1 {Vt.8B - Vt4.8B},[Xn]		v7/A32/A64
 void vst1q_s8_x4(int8_t *ptr, int8x16x4_t val)	val.val[3] -> Vt4.16B;val.val[2] -> Vt3.16B;val.val[1] -> Vt2.16B;val.val[0] -> Vt.16B;ptr -> Xn	ST1 {Vt.16B - Vt4.16B},[Xn]		v7/A32/A64
 void vst1_s16_x4(int16_t *ptr, int16x4x4_t val)	val.val[3] -> Vt4.4H;val.val[2] -> Vt3.4H;val.val[1] -> Vt2.4H;val.val[0] -> Vt.4H;ptr -> Xn	ST1 {Vt.4H - Vt4.4H},[Xn]		v7/A32/A64
@@ -2718,6 +2780,8 @@ void vst1q_u64_x4(uint64_t *ptr, uint64x2x4_t val)	val.val[3] -> Vt4.2D;val.val[
 void vst1q_p64_x4(poly64_t *ptr, poly64x2x4_t val)	val.val[3] -> Vt4.2D;val.val[2] -> Vt3.2D;val.val[1] -> Vt2.2D;val.val[0] -> Vt.2D;ptr -> Xn	ST1 {Vt.2D - Vt4.2D},[Xn]		A32/A64
 void vst1_f64_x4(float64_t *ptr, float64x1x4_t val)	val.val[3] -> Vt4.1D;val.val[2] -> Vt3.1D;val.val[1] -> Vt2.1D;val.val[0] -> Vt.1D;ptr -> Xn	ST1 {Vt.1D - Vt4.1D},[Xn]		A64
 void vst1q_f64_x4(float64_t *ptr, float64x2x4_t val)	val.val[3] -> Vt4.2D;val.val[2] -> Vt3.2D;val.val[1] -> Vt2.2D;val.val[0] -> Vt.2D;ptr -> Xn	ST1 {Vt.2D - Vt4.2D},[Xn]		A64
+void vst1_mf8_x4(int8_t *ptr, int8x8x4_t val)	val.val[3] -> Vt4.8B;val.val[2] -> Vt3.8B;val.val[1] -> Vt2.8B;val.val[0] -> Vt.8B;ptr -> Xn	ST1 {Vt.8B - Vt4.8B},[Xn]		A64
+void vst1q_mf8_x4(int8_t *ptr, int8x16x4_t val)	val.val[3] -> Vt4.16B;val.val[2] -> Vt3.16B;val.val[1] -> Vt2.16B;val.val[0] -> Vt.16B;ptr -> Xn	ST1 {Vt.16B - Vt4.16B},[Xn]		A64
 int8x8x2_t vld1_s8_x2(int8_t const *ptr)	ptr -> Xn	LD1 {Vt.8B - Vt2.8B},[Xn]	Vt2.8B -> result.val[1];Vt.8B -> result.val[0]	v7/A32/A64
 int8x16x2_t vld1q_s8_x2(int8_t const *ptr)	ptr -> Xn	LD1 {Vt.16B - Vt2.16B},[Xn]	Vt2.16B -> result.val[1];Vt.16B -> result.val[0]	v7/A32/A64
 int16x4x2_t vld1_s16_x2(int16_t const *ptr)	ptr -> Xn	LD1 {Vt.4H - Vt2.4H},[Xn]	Vt2.4H -> result.val[1];Vt.4H -> result.val[0]	v7/A32/A64
@@ -2746,6 +2810,8 @@ uint64x2x2_t vld1q_u64_x2(uint64_t const *ptr)	ptr -> Xn	LD1 {Vt.2D - Vt2.2D},[X
 poly64x2x2_t vld1q_p64_x2(poly64_t const *ptr)	ptr -> Xn	LD1 {Vt.2D - Vt2.2D},[Xn]	Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A32/A64
 float64x1x2_t vld1_f64_x2(float64_t const *ptr)	ptr -> Xn	LD1 {Vt.1D - Vt2.1D},[Xn]	Vt2.1D -> result.val[1];Vt.1D -> result.val[0]	A64
 float64x2x2_t vld1q_f64_x2(float64_t const *ptr)	ptr -> Xn	LD1 {Vt.2D - Vt2.2D},[Xn]	Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A64
+mfloat8x8x2_t vld1_mf8_x2(mfloat8_t const *ptr)	ptr -> Xn	LD1 {Vt.8B - Vt2.8B},[Xn]	Vt2.8B -> result.val[1];Vt.8B -> result.val[0]	A64
+mfloat8x16x2_t vld1q_mf8_x2(mfloat8_t const *ptr)	ptr -> Xn	LD1 {Vt.16B - Vt2.16B},[Xn]	Vt2.16B -> result.val[1];Vt.16B -> result.val[0]	A64
 int8x8x3_t vld1_s8_x3(int8_t const *ptr)	ptr -> Xn	LD1 {Vt.8B - Vt3.8B},[Xn]	Vt3.8B -> result.val[2];Vt2.8B -> result.val[1];Vt.8B -> result.val[0]	v7/A32/A64
 int8x16x3_t vld1q_s8_x3(int8_t const *ptr)	ptr -> Xn	LD1 {Vt.16B - Vt3.16B},[Xn]	Vt3.16B -> result.val[2];Vt2.16B -> result.val[1];Vt.16B -> result.val[0]	v7/A32/A64
 int16x4x3_t vld1_s16_x3(int16_t const *ptr)	ptr -> Xn	LD1 {Vt.4H - Vt3.4H},[Xn]	Vt3.4H -> result.val[2];Vt2.4H -> result.val[1];Vt.4H -> result.val[0]	v7/A32/A64
@@ -2774,6 +2840,8 @@ uint64x2x3_t vld1q_u64_x3(uint64_t const *ptr)	ptr -> Xn	LD1 {Vt.2D - Vt3.2D},[X
 poly64x2x3_t vld1q_p64_x3(poly64_t const *ptr)	ptr -> Xn	LD1 {Vt.2D - Vt3.2D},[Xn]	Vt3.2D -> result.val[2];Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A32/A64
 float64x1x3_t vld1_f64_x3(float64_t const *ptr)	ptr -> Xn	LD1 {Vt.1D - Vt3.1D},[Xn]	Vt3.1D -> result.val[2];Vt2.1D -> result.val[1];Vt.1D -> result.val[0]	A64
 float64x2x3_t vld1q_f64_x3(float64_t const *ptr)	ptr -> Xn	LD1 {Vt.2D - Vt3.2D},[Xn]	Vt3.2D -> result.val[2];Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A64
+mfloat8x8x3_t vld1_mf8_x3(mfloat8_t const *ptr)	ptr -> Xn	LD1 {Vt.8B - Vt3.8B},[Xn]	Vt3.8B -> result.val[2];Vt2.8B -> result.val[1];Vt.8B -> result.val[0]	A64
+mfloat8x16x3_t vld1q_mf8_x3(mfloat8_t const *ptr)	ptr -> Xn	LD1 {Vt.16B - Vt3.16B},[Xn]	Vt3.16B -> result.val[2];Vt2.16B -> result.val[1];Vt.16B -> result.val[0]	A64
 int8x8x4_t vld1_s8_x4(int8_t const *ptr)	ptr -> Xn	LD1 {Vt.8B - Vt4.8B},[Xn]	Vt4.8B -> result.val[3];Vt3.8B -> result.val[2];Vt2.8B -> result.val[1];Vt.8B -> result.val[0]	v7/A32/A64
 int8x16x4_t vld1q_s8_x4(int8_t const *ptr)	ptr -> Xn	LD1 {Vt.16B - Vt4.16B},[Xn]	Vt4.16B -> result.val[3];Vt3.16B -> result.val[2];Vt2.16B -> result.val[1];Vt.16B -> result.val[0]	v7/A32/A64
 int16x4x4_t vld1_s16_x4(int16_t const *ptr)	ptr -> Xn	LD1 {Vt.4H - Vt4.4H},[Xn]	Vt4.4H -> result.val[3];Vt3.4H -> result.val[2];Vt2.4H -> result.val[1];Vt.4H -> result.val[0]	v7/A32/A64
@@ -2802,6 +2870,8 @@ uint64x2x4_t vld1q_u64_x4(uint64_t const *ptr)	ptr -> Xn	LD1 {Vt.2D - Vt4.2D},[X
 poly64x2x4_t vld1q_p64_x4(poly64_t const *ptr)	ptr -> Xn	LD1 {Vt.2D - Vt4.2D},[Xn]	Vt4.2D -> result.val[3];Vt3.2D -> result.val[2];Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A32/A64
 float64x1x4_t vld1_f64_x4(float64_t const *ptr)	ptr -> Xn	LD1 {Vt.1D - Vt4.1D},[Xn]	Vt4.1D -> result.val[3];Vt3.1D -> result.val[2];Vt2.1D -> result.val[1];Vt.1D -> result.val[0]	A64
 float64x2x4_t vld1q_f64_x4(float64_t const *ptr)	ptr -> Xn	LD1 {Vt.2D - Vt4.2D},[Xn]	Vt4.2D -> result.val[3];Vt3.2D -> result.val[2];Vt2.2D -> result.val[1];Vt.2D -> result.val[0]	A64
+mfloat8x8x4_t vld1_mf8_x4(mfloat8_t const *ptr)	ptr -> Xn	LD1 {Vt.8B - Vt4.8B},[Xn]	Vt4.8B -> result.val[3];Vt3.8B -> result.val[2];Vt2.8B -> result.val[1];Vt.8B -> result.val[0]	A64
+mfloat8x16x4_t vld1q_mf8_x4(mfloat8_t const *ptr)	ptr -> Xn	LD1 {Vt.16B - Vt4.16B},[Xn]	Vt4.16B -> result.val[3];Vt3.16B -> result.val[2];Vt2.16B -> result.val[1];Vt.16B -> result.val[0]	A64
 int8x8_t vpadd_s8(int8x8_t a, int8x8_t b)	a -> Vn.8B;b -> Vm.8B	ADDP Vd.8B,Vn.8B,Vm.8B	Vd.8B -> result	v7/A32/A64
 int16x4_t vpadd_s16(int16x4_t a, int16x4_t b)	a -> Vn.4H;b -> Vm.4H	ADDP Vd.4H,Vn.4H,Vm.4H	Vd.4H -> result	v7/A32/A64
 int32x2_t vpadd_s32(int32x2_t a, int32x2_t b)	a -> Vn.2S;b -> Vm.2S	ADDP Vd.2S,Vn.2S,Vm.2S	Vd.2S -> result	v7/A32/A64
@@ -2982,6 +3052,8 @@ poly8x8_t vext_p8(poly8x8_t a, poly8x8_t b, __builtin_constant_p(n))	a -> Vn.8B;
 poly8x16_t vextq_p8(poly8x16_t a, poly8x16_t b, __builtin_constant_p(n))	a -> Vn.16B;b -> Vm.16B;0 <= n <= 15	EXT Vd.16B,Vn.16B,Vm.16B,#n	Vd.16B -> result	v7/A32/A64
 poly16x4_t vext_p16(poly16x4_t a, poly16x4_t b, __builtin_constant_p(n))	a -> Vn.8B;b -> Vm.8B;0 <= n <= 3	EXT Vd.8B,Vn.8B,Vm.8B,#(n<<1)	Vd.8B -> result	v7/A32/A64
 poly16x8_t vextq_p16(poly16x8_t a, poly16x8_t b, __builtin_constant_p(n))	a -> Vn.16B;b -> Vm.16B;0 <= n <= 7	EXT Vd.16B,Vn.16B,Vm.16B,#(n<<1)	Vd.16B -> result	v7/A32/A64
+mfloat8x8_t vext_mf8(mfloat8x8_t a, mfloat8x8_t b, __builtin_constant_p(n))	a -> Vn.8B;b -> Vm.8B;0 <= n <= 7	EXT Vd.8B,Vn.8B,Vm.8B,#n	Vd.8B -> result	A64
+mfloat8x16_t vextq_mf8(mfloat8x16_t a, mfloat8x16_t b, __builtin_constant_p(n))	a -> Vn.16B;b -> Vm.16B;0 <= n <= 15	EXT Vd.16B,Vn.16B,Vm.16B,#n	Vd.16B -> result	A64
 int8x8_t vrev64_s8(int8x8_t vec)	vec -> Vn.8B	REV64 Vd.8B,Vn.8B	Vd.8B -> result	v7/A32/A64
 int8x16_t vrev64q_s8(int8x16_t vec)	vec -> Vn.16B	REV64 Vd.16B,Vn.16B	Vd.16B -> result	v7/A32/A64
 int16x4_t vrev64_s16(int16x4_t vec)	vec -> Vn.4H	REV64 Vd.4H,Vn.4H	Vd.4H -> result	v7/A32/A64
@@ -3000,6 +3072,8 @@ poly8x8_t vrev64_p8(poly8x8_t vec)	vec -> Vn.8B	REV64 Vd.8B,Vn.8B	Vd.8B -> resul
 poly8x16_t vrev64q_p8(poly8x16_t vec)	vec -> Vn.16B	REV64 Vd.16B,Vn.16B	Vd.16B -> result	v7/A32/A64
 poly16x4_t vrev64_p16(poly16x4_t vec)	vec -> Vn.4H	REV64 Vd.4H,Vn.4H	Vd.4H -> result	v7/A32/A64
 poly16x8_t vrev64q_p16(poly16x8_t vec)	vec -> Vn.8H	REV64 Vd.8H,Vn.8H	Vd.8H -> result	v7/A32/A64
+mfloat8x8_t vrev64_mf8(mfloat8x8_t vec)	vec -> Vn.8B	REV64 Vd.8B,Vn.8B	Vd.8B -> result	A64
+mfloat8x16_t vrev64q_mf8(mfloat8x16_t vec)	vec -> Vn.16B	REV64 Vd.16B,Vn.16B	Vd.16B -> result	A64
 int8x8_t vrev32_s8(int8x8_t vec)	vec -> Vn.8B	REV32 Vd.8B,Vn.8B	Vd.8B -> result	v7/A32/A64
 int8x16_t vrev32q_s8(int8x16_t vec)	vec -> Vn.16B	REV32 Vd.16B,Vn.16B	Vd.16B -> result	v7/A32/A64
 int16x4_t vrev32_s16(int16x4_t vec)	vec -> Vn.4H	REV32 Vd.4H,Vn.4H	Vd.4H -> result	v7/A32/A64
@@ -3012,12 +3086,16 @@ poly8x8_t vrev32_p8(poly8x8_t vec)	vec -> Vn.8B	REV32 Vd.8B,Vn.8B	Vd.8B -> resul
 poly8x16_t vrev32q_p8(poly8x16_t vec)	vec -> Vn.16B	REV32 Vd.16B,Vn.16B	Vd.16B -> result	v7/A32/A64
 poly16x4_t vrev32_p16(poly16x4_t vec)	vec -> Vn.4H	REV32 Vd.4H,Vn.4H	Vd.4H -> result	v7/A32/A64
 poly16x8_t vrev32q_p16(poly16x8_t vec)	vec -> Vn.8H	REV32 Vd.8H,Vn.8H	Vd.8H -> result	v7/A32/A64
+mfloat8x8_t vrev32_mf8(mfloat8x8_t vec)	vec -> Vn.8B	REV32 Vd.8B,Vn.8B	Vd.8B -> result	A64
+mfloat8x16_t vrev32q_mf8(mfloat8x16_t vec)	vec -> Vn.16B	REV32 Vd.16B,Vn.16B	Vd.16B -> result	A64
 int8x8_t vrev16_s8(int8x8_t vec)	vec -> Vn.8B	REV16 Vd.8B,Vn.8B	Vd.8B -> result	v7/A32/A64
 int8x16_t vrev16q_s8(int8x16_t vec)	vec -> Vn.16B	REV16 Vd.16B,Vn.16B	Vd.16B -> result	v7/A32/A64
 uint8x8_t vrev16_u8(uint8x8_t vec)	vec -> Vn.8B	REV16 Vd.8B,Vn.8B	Vd.8B -> result	v7/A32/A64
 uint8x16_t vrev16q_u8(uint8x16_t vec)	vec -> Vn.16B	REV16 Vd.16B,Vn.16B	Vd.16B -> result	v7/A32/A64
 poly8x8_t vrev16_p8(poly8x8_t vec)	vec -> Vn.8B	REV16 Vd.8B,Vn.8B	Vd.8B -> result	v7/A32/A64
 poly8x16_t vrev16q_p8(poly8x16_t vec)	vec -> Vn.16B	REV16 Vd.16B,Vn.16B	Vd.16B -> result	v7/A32/A64
+mfloat8x8_t vrev16_mf8(mfloat8x8_t vec)	vec -> Vn.8B	REV16 Vd.8B,Vn.8B	Vd.8B -> result	A64
+mfloat8x16_t vrev16q_mf8(mfloat8x16_t vec)	vec -> Vn.16B	REV16 Vd.16B,Vn.16B	Vd.16B -> result	A64
 int8x8_t vzip1_s8(int8x8_t a, int8x8_t b)	a -> Vn.8B;b -> Vm.8B	ZIP1 Vd.8B,Vn.8B,Vm.8B	Vd.8B -> result	A64
 int8x16_t vzip1q_s8(int8x16_t a, int8x16_t b)	a -> Vn.16B;b -> Vm.16B	ZIP1 Vd.16B,Vn.16B,Vm.16B	Vd.16B -> result	A64
 int16x4_t vzip1_s16(int16x4_t a, int16x4_t b)	a -> Vn.4H;b -> Vm.4H	ZIP1 Vd.4H,Vn.4H,Vm.4H	Vd.4H -> result	A64
@@ -3040,6 +3118,8 @@ poly8x8_t vzip1_p8(poly8x8_t a, poly8x8_t b)	a -> Vn.8B;b -> Vm.8B	ZIP1 Vd.8B,Vn
 poly8x16_t vzip1q_p8(poly8x16_t a, poly8x16_t b)	a -> Vn.16B;b -> Vm.16B	ZIP1 Vd.16B,Vn.16B,Vm.16B	Vd.16B -> result	A64
 poly16x4_t vzip1_p16(poly16x4_t a, poly16x4_t b)	a -> Vn.4H;b -> Vm.4H	ZIP1 Vd.4H,Vn.4H,Vm.4H	Vd.4H -> result	A64
 poly16x8_t vzip1q_p16(poly16x8_t a, poly16x8_t b)	a -> Vn.8H;b -> Vm.8H	ZIP1 Vd.8H,Vn.8H,Vm.8H	Vd.8H -> result	A64
+mfloat8x8_t vzip1_mf8(mfloat8x8_t a, mfloat8x8_t b)	a -> Vn.8B;b -> Vm.8B	ZIP1 Vd.8B,Vn.8B,Vm.8B	Vd.8B -> result	A64
+mfloat8x16_t vzip1q_mf8(mfloat8x16_t a, mfloat8x16_t b)	a -> Vn.16B;b -> Vm.16B	ZIP1 Vd.16B,Vn.16B,Vm.16B	Vd.16B -> result	A64
 int8x8_t vzip2_s8(int8x8_t a, int8x8_t b)	a -> Vn.8B;b -> Vm.8B	ZIP2 Vd.8B,Vn.8B,Vm.8B	Vd.8B -> result	A64
 int8x16_t vzip2q_s8(int8x16_t a, int8x16_t b)	a -> Vn.16B;b -> Vm.16B	ZIP2 Vd.16B,Vn.16B,Vm.16B	Vd.16B -> result	A64
 int16x4_t vzip2_s16(int16x4_t a, int16x4_t b)	a -> Vn.4H;b -> Vm.4H	ZIP2 Vd.4H,Vn.4H,Vm.4H	Vd.4H -> result	A64
@@ -3062,6 +3142,8 @@ poly8x8_t vzip2_p8(poly8x8_t a, poly8x8_t b)	a -> Vn.8B;b -> Vm.8B	ZIP2 Vd.8B,Vn
 poly8x16_t vzip2q_p8(poly8x16_t a, poly8x16_t b)	a -> Vn.16B;b -> Vm.16B	ZIP2 Vd.16B,Vn.16B,Vm.16B	Vd.16B -> result	A64
 poly16x4_t vzip2_p16(poly16x4_t a, poly16x4_t b)	a -> Vn.4H;b -> Vm.4H	ZIP2 Vd.4H,Vn.4H,Vm.4H	Vd.4H -> result	A64
 poly16x8_t vzip2q_p16(poly16x8_t a, poly16x8_t b)	a -> Vn.8H;b -> Vm.8H	ZIP2 Vd.8H,Vn.8H,Vm.8H	Vd.8H -> result	A64
+mfloat8x8_t vzip2_mf8(mfloat8x8_t a, mfloat8x8_t b)	a -> Vn.8B;b -> Vm.8B	ZIP2 Vd.8B,Vn.8B,Vm.8B	Vd.8B -> result	A64
+mfloat8x16_t vzip2q_mf8(mfloat8x16_t a, mfloat8x16_t b)	a -> Vn.16B;b -> Vm.16B	ZIP2 Vd.16B,Vn.16B,Vm.16B	Vd.16B -> result	A64
 int8x8_t vuzp1_s8(int8x8_t a, int8x8_t b)	a -> Vn.8B;b -> Vm.8B	UZP1 Vd.8B,Vn.8B,Vm.8B	Vd.8B -> result	A64
 int8x16_t vuzp1q_s8(int8x16_t a, int8x16_t b)	a -> Vn.16B;b -> Vm.16B	UZP1 Vd.16B,Vn.16B,Vm.16B	Vd.16B -> result	A64
 int16x4_t vuzp1_s16(int16x4_t a, int16x4_t b)	a -> Vn.4H;b -> Vm.4H	UZP1 Vd.4H,Vn.4H,Vm.4H	Vd.4H -> result	A64
@@ -3084,6 +3166,8 @@ poly8x8_t vuzp1_p8(poly8x8_t a, poly8x8_t b)	a -> Vn.8B;b -> Vm.8B	UZP1 Vd.8B,Vn
 poly8x16_t vuzp1q_p8(poly8x16_t a, poly8x16_t b)	a -> Vn.16B;b -> Vm.16B	UZP1 Vd.16B,Vn.16B,Vm.16B	Vd.16B -> result	A64
 poly16x4_t vuzp1_p16(poly16x4_t a, poly16x4_t b)	a -> Vn.4H;b -> Vm.4H	UZP1 Vd.4H,Vn.4H,Vm.4H	Vd.4H -> result	A64
 poly16x8_t vuzp1q_p16(poly16x8_t a, poly16x8_t b)	a -> Vn.8H;b -> Vm.8H	UZP1 Vd.8H,Vn.8H,Vm.8H	Vd.8H -> result	A64
+mfloat8x8_t vuzp1_mf8(mfloat8x8_t a, mfloat8x8_t b)	a -> Vn.8B;b -> Vm.8B	UZP1 Vd.8B,Vn.8B,Vm.8B	Vd.8B -> result	A64
+mfloat8x16_t vuzp1q_mf8(mfloat8x16_t a, mfloat8x16_t b)	a -> Vn.16B;b -> Vm.16B	UZP1 Vd.16B,Vn.16B,Vm.16B	Vd.16B -> result	A64
 int8x8_t vuzp2_s8(int8x8_t a, int8x8_t b)	a -> Vn.8B;b -> Vm.8B	UZP2 Vd.8B,Vn.8B,Vm.8B	Vd.8B -> result	A64
 int8x16_t vuzp2q_s8(int8x16_t a, int8x16_t b)	a -> Vn.16B;b -> Vm.16B	UZP2 Vd.16B,Vn.16B,Vm.16B	Vd.16B -> result	A64
 int16x4_t vuzp2_s16(int16x4_t a, int16x4_t b)	a -> Vn.4H;b -> Vm.4H	UZP2 Vd.4H,Vn.4H,Vm.4H	Vd.4H -> result	A64
@@ -3106,6 +3190,8 @@ poly8x8_t vuzp2_p8(poly8x8_t a, poly8x8_t b)	a -> Vn.8B;b -> Vm.8B	UZP2 Vd.8B,Vn
 poly8x16_t vuzp2q_p8(poly8x16_t a, poly8x16_t b)	a -> Vn.16B;b -> Vm.16B	UZP2 Vd.16B,Vn.16B,Vm.16B	Vd.16B -> result	A64
 poly16x4_t vuzp2_p16(poly16x4_t a, poly16x4_t b)	a -> Vn.4H;b -> Vm.4H	UZP2 Vd.4H,Vn.4H,Vm.4H	Vd.4H -> result	A64
 poly16x8_t vuzp2q_p16(poly16x8_t a, poly16x8_t b)	a -> Vn.8H;b -> Vm.8H	UZP2 Vd.8H,Vn.8H,Vm.8H	Vd.8H -> result	A64
+mfloat8x8_t vuzp2_mf8(mfloat8x8_t a, mfloat8x8_t b)	a -> Vn.8B;b -> Vm.8B	UZP2 Vd.8B,Vn.8B,Vm.8B	Vd.8B -> result	A64
+mfloat8x16_t vuzp2q_mf8(mfloat8x16_t a, mfloat8x16_t b)	a -> Vn.16B;b -> Vm.16B	UZP2 Vd.16B,Vn.16B,Vm.16B	Vd.16B -> result	A64
 int8x8_t vtrn1_s8(int8x8_t a, int8x8_t b)	a -> Vn.8B;b -> Vm.8B	TRN1 Vd.8B,Vn.8B,Vm.8B	Vd.8B -> result	A64
 int8x16_t vtrn1q_s8(int8x16_t a, int8x16_t b)	a -> Vn.16B;b -> Vm.16B	TRN1 Vd.16B,Vn.16B,Vm.16B	Vd.16B -> result	A64
 int16x4_t vtrn1_s16(int16x4_t a, int16x4_t b)	a -> Vn.4H;b -> Vm.4H	TRN1 Vd.4H,Vn.4H,Vm.4H	Vd.4H -> result	A64
@@ -3128,6 +3214,8 @@ poly8x8_t vtrn1_p8(poly8x8_t a, poly8x8_t b)	a -> Vn.8B;b -> Vm.8B	TRN1 Vd.8B,Vn
 poly8x16_t vtrn1q_p8(poly8x16_t a, poly8x16_t b)	a -> Vn.16B;b -> Vm.16B	TRN1 Vd.16B,Vn.16B,Vm.16B	Vd.16B -> result	A64
 poly16x4_t vtrn1_p16(poly16x4_t a, poly16x4_t b)	a -> Vn.4H;b -> Vm.4H	TRN1 Vd.4H,Vn.4H,Vm.4H	Vd.4H -> result	A64
 poly16x8_t vtrn1q_p16(poly16x8_t a, poly16x8_t b)	a -> Vn.8H;b -> Vm.8H	TRN1 Vd.8H,Vn.8H,Vm.8H	Vd.8H -> result	A64
+mfloat8x8_t vtrn1_mf8(mfloat8x8_t a, mfloat8x8_t b)	a -> Vn.8B;b -> Vm.8B	TRN1 Vd.8B,Vn.8B,Vm.8B	Vd.8B -> result	A64
+mfloat8x16_t vtrn1q_mf8(mfloat8x16_t a, mfloat8x16_t b)	a -> Vn.16B;b -> Vm.16B	TRN1 Vd.16B,Vn.16B,Vm.16B	Vd.16B -> result	A64
 int8x8_t vtrn2_s8(int8x8_t a, int8x8_t b)	a -> Vn.8B;b -> Vm.8B	TRN2 Vd.8B,Vn.8B,Vm.8B	Vd.8B -> result	A64
 int8x16_t vtrn2q_s8(int8x16_t a, int8x16_t b)	a -> Vn.16B;b -> Vm.16B	TRN2 Vd.16B,Vn.16B,Vm.16B	Vd.16B -> result	A64
 int16x4_t vtrn2_s16(int16x4_t a, int16x4_t b)	a -> Vn.4H;b -> Vm.4H	TRN2 Vd.4H,Vn.4H,Vm.4H	Vd.4H -> result	A64
@@ -3150,78 +3238,104 @@ poly8x8_t vtrn2_p8(poly8x8_t a, poly8x8_t b)	a -> Vn.8B;b -> Vm.8B	TRN2 Vd.8B,Vn
 poly8x16_t vtrn2q_p8(poly8x16_t a, poly8x16_t b)	a -> Vn.16B;b -> Vm.16B	TRN2 Vd.16B,Vn.16B,Vm.16B	Vd.16B -> result	A64
 poly16x4_t vtrn2_p16(poly16x4_t a, poly16x4_t b)	a -> Vn.4H;b -> Vm.4H	TRN2 Vd.4H,Vn.4H,Vm.4H	Vd.4H -> result	A64
 poly16x8_t vtrn2q_p16(poly16x8_t a, poly16x8_t b)	a -> Vn.8H;b -> Vm.8H	TRN2 Vd.8H,Vn.8H,Vm.8H	Vd.8H -> result	A64
+mfloat8x8_t vtrn2_mf8(mfloat8x8_t a, mfloat8x8_t b)	a -> Vn.8B;b -> Vm.8B	TRN2 Vd.8B,Vn.8B,Vm.8B	Vd.8B -> result	A64
+mfloat8x16_t vtrn2q_mf8(mfloat8x16_t a, mfloat8x16_t b)	a -> Vn.16B;b -> Vm.16B	TRN2 Vd.16B,Vn.16B,Vm.16B	Vd.16B -> result	A64
 int8x8_t vtbl1_s8(int8x8_t a, int8x8_t idx)	Zeros(64):a -> Vn.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B},Vm.8B	Vd.8B -> result	v7/A32/A64
 uint8x8_t vtbl1_u8(uint8x8_t a, uint8x8_t idx)	Zeros(64):a -> Vn.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B},Vm.8B	Vd.8B -> result	v7/A32/A64
 poly8x8_t vtbl1_p8(poly8x8_t a, uint8x8_t idx)	Zeros(64):a -> Vn.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B},Vm.8B	Vd.8B -> result	v7/A32/A64
+mfloat8x8_t vtbl1_mf8(mfloat8x8_t a, uint8x8_t idx)	Zeros(64):a -> Vn.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B},Vm.8B	Vd.8B -> result	A64
 int8x8_t vtbx1_s8(int8x8_t a, int8x8_t b, int8x8_t idx)	Zeros(64):b -> Vn.16B;a -> Vd.8B;idx -> Vm.8B	MOVI Vtmp.8B,#8;CMHS Vtmp.8B,Vm.8B,Vtmp.8B;TBL Vtmp1.8B,{Vn.16B},Vm.8B;BIF Vd.8B,Vtmp1.8B,Vtmp.8B	Vd.8B -> result	v7/A32/A64
 uint8x8_t vtbx1_u8(uint8x8_t a, uint8x8_t b, uint8x8_t idx)	Zeros(64):b -> Vn.16B;a -> Vd.8B;idx -> Vm.8B	MOVI Vtmp.8B,#8;CMHS Vtmp.8B,Vm.8B,Vtmp.8B;TBL Vtmp1.8B,{Vn.16B},Vm.8B;BIF Vd.8B,Vtmp1.8B,Vtmp.8B	Vd.8B -> result	v7/A32/A64
 poly8x8_t vtbx1_p8(poly8x8_t a, poly8x8_t b, uint8x8_t idx)	Zeros(64):b -> Vn.16B;a -> Vd.8B;idx -> Vm.8B	MOVI Vtmp.8B,#8;CMHS Vtmp.8B,Vm.8B,Vtmp.8B;TBL Vtmp1.8B,{Vn.16B},Vm.8B;BIF Vd.8B,Vtmp1.8B, Vtmp.8B	Vd.8B -> result	v7/A32/A64
+mfloat8x8_t vtbx1_mf8(mfloat8x8_t a, mfloat8x8_t b, uint8x8_t idx)	Zeros(64):b -> Vn.16B;a -> Vd.8B;idx -> Vm.8B	MOVI Vtmp.8B,#8;CMHS Vtmp.8B,Vm.8B,Vtmp.8B;TBL Vtmp1.8B,{Vn.16B},Vm.8B;BIF Vd.8B,Vtmp1.8B, Vtmp.8B	Vd.8B -> result	A64
 int8x8_t vtbl2_s8(int8x8x2_t a, int8x8_t idx)	a.val[1]:a.val[0] -> Vn.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B},Vm.8B	Vd.8B -> result	v7/A32/A64
 uint8x8_t vtbl2_u8(uint8x8x2_t a, uint8x8_t idx)	a.val[1]:a.val[0] -> Vn.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B},Vm.8B	Vd.8B -> result	v7/A32/A64
 poly8x8_t vtbl2_p8(poly8x8x2_t a, uint8x8_t idx)	a.val[1]:a.val[0] -> Vn.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B},Vm.8B	Vd.8B -> result	v7/A32/A64
+mfloat8x8_t vtbl2_mf8(mfloat8x8x2_t a, uint8x8_t idx)	a.val[1]:a.val[0] -> Vn.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B},Vm.8B	Vd.8B -> result	A64
 int8x8_t vtbl3_s8(int8x8x3_t a, int8x8_t idx)	a.val[1]:a.val[0] -> Vn.16B;Zeros(64):a.val[2] -> Vn+1.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B	Vd.8B -> result	v7/A32/A64
 uint8x8_t vtbl3_u8(uint8x8x3_t a, uint8x8_t idx)	a.val[1]:a.val[0] -> Vn.16B;Zeros(64):a.val[2] -> Vn+1.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B	Vd.8B -> result	v7/A32/A64
 poly8x8_t vtbl3_p8(poly8x8x3_t a, uint8x8_t idx)	a.val[1]:a.val[0] -> Vn.16B;Zeros(64):a.val[2] -> Vn+1.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B	Vd.8B -> result	v7/A32/A64
+mfloat8x8_t vtbl3_mf8(mfloat8x8x3_t a, uint8x8_t idx)	a.val[1]:a.val[0] -> Vn.16B;Zeros(64):a.val[2] -> Vn+1.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B	Vd.8B -> result	A64
 int8x8_t vtbl4_s8(int8x8x4_t a, int8x8_t idx)	a.val[1]:a.val[0] -> Vn.16B;a.val[3]:a.val[2] -> Vn+1.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B	Vd.8B -> result	v7/A32/A64
 uint8x8_t vtbl4_u8(uint8x8x4_t a, uint8x8_t idx)	a.val[1]:a.val[0] -> Vn.16B;a.val[3]:a.val[2] -> Vn+1.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B	Vd.8B -> result	v7/A32/A64
 poly8x8_t vtbl4_p8(poly8x8x4_t a, uint8x8_t idx)	a.val[1]:a.val[0] -> Vn.16B;a.val[3]:a.val[2] -> Vn+1.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B	Vd.8B -> result	v7/A32/A64
+mfloat8x8_t vtbl4_mf8(mfloat8x8x4_t a, uint8x8_t idx)	a.val[1]:a.val[0] -> Vn.16B;a.val[3]:a.val[2] -> Vn+1.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B	Vd.8B -> result	A64
 int8x8_t vtbx2_s8(int8x8_t a, int8x8x2_t b, int8x8_t idx)	b.val[1]:b.val[0] -> Vn.16B;a -> Vd.8B;idx -> Vm.8B	TBX Vd.8B,{Vn.16B},Vm.8B	Vd.8B -> result	v7/A32/A64
 uint8x8_t vtbx2_u8(uint8x8_t a, uint8x8x2_t b, uint8x8_t idx)	b.val[1]:b.val[0] -> Vn.16B;a -> Vd.8B;idx -> Vm.8B	TBX Vd.8B,{Vn.16B},Vm.8B	Vd.8B -> result	v7/A32/A64
 poly8x8_t vtbx2_p8(poly8x8_t a, poly8x8x2_t b, uint8x8_t idx)	b.val[1]:b.val[0] -> Vn.16B;a -> Vd.8B;idx -> Vm.8B	TBX Vd.8B,{Vn.16B},Vm.8B	Vd.8B -> result	v7/A32/A64
+mfloat8x8_t vtbx2_mf8(mfloat8x8_t a, mfloat8x8x2_t b, uint8x8_t idx)	b.val[1]:b.val[0] -> Vn.16B;a -> Vd.8B;idx -> Vm.8B	TBX Vd.8B,{Vn.16B},Vm.8B	Vd.8B -> result	A64
 int8x8_t vtbx3_s8(int8x8_t a, int8x8x3_t b, int8x8_t idx)	b.val[1]:b.val[0] -> Vn.16B;Zeros(64):b.val[2] -> Vn+1.16B;a -> Vd.8B;idx -> Vm.8B	MOVI Vtmp.8B,#24;CMHS Vtmp.8B,Vm.8B,Vtmp.8B;TBL Vtmp1.8B,{Vn.16B,Vn+1.16B},Vm.8;BIF Vd.8B,Vtmp1.8B,Vtmp.8B	Vd.8B -> result	v7/A32/A64
 uint8x8_t vtbx3_u8(uint8x8_t a, uint8x8x3_t b, uint8x8_t idx)	b.val[1]:b.val[0] -> Vn.16B;Zeros(64):b.val[2] -> Vn+1.16B;a -> Vd.8B;idx -> Vm.8B	MOVI Vtmp.8B,#24;CMHS Vtmp.8B,Vm.8B,Vtmp.8B;TBL Vtmp1.8B,{Vn.16B,Vn+1.16B},Vm.8B;BIF Vd.8B,Vtmp1.8B,Vtmp.8B	Vd.8B -> result	v7/A32/A64
 poly8x8_t vtbx3_p8(poly8x8_t a, poly8x8x3_t b, uint8x8_t idx)	b.val[1]:b.val[0] -> Vn.16B;Zeros(64):b.val[2] -> Vn+1.16B;a -> Vd.8B;idx -> Vm.8B	MOVI Vtmp.8B,#24;CMHS Vtmp.8B,Vm.8B,Vtmp.8B;TBL Vtmp1.8B,{Vn.16B,Vn+1.16B},Vm.8B;BIF Vd.8B,Vtmp1.8B,Vtmp.8B	Vd.8B -> result	v7/A32/A64
+mfloat8x8_t vtbx3_mf8(mfloat8x8_t a, mfloat8x8x3_t b, uint8x8_t idx)	b.val[1]:b.val[0] -> Vn.16B;Zeros(64):b.val[2] -> Vn+1.16B;a -> Vd.8B;idx -> Vm.8B	MOVI Vtmp.8B,#24;CMHS Vtmp.8B,Vm.8B,Vtmp.8B;TBL Vtmp1.8B,{Vn.16B,Vn+1.16B},Vm.8B;BIF Vd.8B,Vtmp1.8B,Vtmp.8B	Vd.8B -> result	A64
 int8x8_t vtbx4_s8(int8x8_t a, int8x8x4_t b, int8x8_t idx)	b.val[1]:b.val[0] -> Vn.16B;b.val[3]:b.val[2] -> Vn+1.16B;a -> Vd.8B; c-> Vm.8B	TBX Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B	Vd.8B -> result	v7/A32/A64
 uint8x8_t vtbx4_u8(uint8x8_t a, uint8x8x4_t b, uint8x8_t idx)	b.val[1]:b.val[0] -> Vn.16B;b.val[3]:b.val[2] -> Vn+1.16B;a -> Vd.8B; c-> Vm.8B	TBX Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B	Vd.8B -> result	v7/A32/A64
 poly8x8_t vtbx4_p8(poly8x8_t a, poly8x8x4_t b, uint8x8_t idx)	b.val[1]:b.val[0] -> Vn.16B;b.val[3]:b.val[2] -> Vn+1.16B;a -> Vd.8B; c-> Vm.8B	TBX Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B	Vd.8B -> result	v7/A32/A64
+mfloat8x8_t vtbx4_mf8(mfloat8x8_t a, mfloat8x8x4_t b, uint8x8_t idx)	b.val[1]:b.val[0] -> Vn.16B;b.val[3]:b.val[2] -> Vn+1.16B;a -> Vd.8B; c-> Vm.8B	TBX Vd.8B,{Vn.16B,Vn+1.16B},Vm.8B	Vd.8B -> result	A64
 int8x8_t vqtbl1_s8(int8x16_t t, uint8x8_t idx)	t -> Vn.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B},Vm.8B	Vd.8B -> result	A64
 int8x16_t vqtbl1q_s8(int8x16_t t, uint8x16_t idx)	t -> Vn.16B;idx -> Vm.16B	TBL Vd.16B,{Vn.16B},Vm.16B	Vd.16B -> result	A64
 uint8x8_t vqtbl1_u8(uint8x16_t t, uint8x8_t idx)	t -> Vn.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B},Vm.8B	Vd.8B -> result	A64
 uint8x16_t vqtbl1q_u8(uint8x16_t t, uint8x16_t idx)	t -> Vn.16B;idx -> Vm.16B	TBL Vd.16B,{Vn.16B},Vm.16B	Vd.16B -> result	A64
 poly8x8_t vqtbl1_p8(poly8x16_t t, uint8x8_t idx)	t -> Vn.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B},Vm.8B	Vd.8B -> result	A64
 poly8x16_t vqtbl1q_p8(poly8x16_t t, uint8x16_t idx)	t -> Vn.16B;idx -> Vm.16B	TBL Vd.16B,{Vn.16B},Vm.16B	Vd.16B -> result	A64
+mfloat8x8_t vqtbl1_mf8(mfloat8x16_t t, uint8x8_t idx)	t -> Vn.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B},Vm.8B	Vd.8B -> result	A64
+mfloat8x16_t vqtbl1q_mf8(mfloat8x16_t t, uint8x16_t idx)	t -> Vn.16B;idx -> Vm.16B	TBL Vd.16B,{Vn.16B},Vm.16B	Vd.16B -> result	A64
 int8x8_t vqtbx1_s8(int8x8_t a, int8x16_t t, uint8x8_t idx)	a -> Vd.8B;t -> Vn.16B;idx -> Vm.8B	TBX Vd.8B,{Vn.16B},Vm.8B	Vd.8B -> result	A64
 int8x16_t vqtbx1q_s8(int8x16_t a, int8x16_t t, uint8x16_t idx)	a -> Vd.16B;t -> Vn.16B;idx -> Vm.16B	TBX Vd.16B,{Vn.16B},Vm.16B	Vd.16B -> result	A64
 uint8x8_t vqtbx1_u8(uint8x8_t a, uint8x16_t t, uint8x8_t idx)	a -> Vd.8B;t -> Vn.16B;idx -> Vm.8B	TBX Vd.8B,{Vn.16B},Vm.8B	Vd.8B -> result	A64
 uint8x16_t vqtbx1q_u8(uint8x16_t a, uint8x16_t t, uint8x16_t idx)	a -> Vd.16B;t -> Vn.16B;idx -> Vm.16B	TBX Vd.16B,{Vn.16B},Vm.16B	Vd.16B -> result	A64
 poly8x8_t vqtbx1_p8(poly8x8_t a, poly8x16_t t, uint8x8_t idx)	a -> Vd.8B;t -> Vn.16B;idx -> Vm.8B	TBX Vd.8B,{Vn.16B},Vm.8B	Vd.8B -> result	A64
 poly8x16_t vqtbx1q_p8(poly8x16_t a, poly8x16_t t, uint8x16_t idx)	a -> Vd.16B;t -> Vn.16B;idx -> Vm.16B	TBX Vd.16B,{Vn.16B},Vm.16B	Vd.16B -> result	A64
+mfloat8x8_t vqtbx1_mf8(mfloat8x8_t a, mfloat8x16_t t, uint8x8_t idx)	a -> Vd.8B;t -> Vn.16B;idx -> Vm.8B	TBX Vd.8B,{Vn.16B},Vm.8B	Vd.8B -> result	A64
+mfloat8x16_t vqtbx1q_mf8(mfloat8x16_t a, mfloat8x16_t t, uint8x16_t idx)	a -> Vd.16B;t -> Vn.16B;idx -> Vm.16B	TBX Vd.16B,{Vn.16B},Vm.16B	Vd.16B -> result	A64
 int8x8_t vqtbl2_s8(int8x16x2_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B - Vn+1.16B},Vm.8B	Vd.8B -> result	A64
 int8x16_t vqtbl2q_s8(int8x16x2_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;idx -> Vm.16B	TBL Vd.16B,{Vn.16B - Vn+1.16B},Vm.16B	Vd.16B -> result	A64
 uint8x8_t vqtbl2_u8(uint8x16x2_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B - Vn+1.16B},Vm.8B	Vd.8B -> result	A64
 uint8x16_t vqtbl2q_u8(uint8x16x2_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;idx -> Vm.16B	TBL Vd.16B,{Vn.16B - Vn+1.16B},Vm.16B	Vd.16B -> result	A64
 poly8x8_t vqtbl2_p8(poly8x16x2_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B - Vn+1.16B},Vm.8B	Vd.8B -> result	A64
 poly8x16_t vqtbl2q_p8(poly8x16x2_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;idx -> Vm.16B	TBL Vd.16B,{Vn.16B - Vn+1.16B},Vm.16B	Vd.16B -> result	A64
+mfloat8x8_t vqtbl2_mf8(mfloat8x16x2_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B - Vn+1.16B},Vm.8B	Vd.8B -> result	A64
+mfloat8x16_t vqtbl2q_mf8(mfloat8x16x2_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;idx -> Vm.16B	TBL Vd.16B,{Vn.16B - Vn+1.16B},Vm.16B	Vd.16B -> result	A64
 int8x8_t vqtbl3_s8(int8x16x3_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B - Vn+2.16B},Vm.8B	Vd.8B -> result	A64
 int8x16_t vqtbl3q_s8(int8x16x3_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;idx -> Vm.16B	TBL Vd.16B,{Vn.16B - Vn+2.16B},Vm.16B	Vd.16B -> result	A64
 uint8x8_t vqtbl3_u8(uint8x16x3_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B - Vn+2.16B},Vm.8B	Vd.8B -> result	A64
 uint8x16_t vqtbl3q_u8(uint8x16x3_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;idx -> Vm.16B	TBL Vd.16B,{Vn.16B - Vn+2.16B},Vm.16B	Vd.16B -> result	A64
 poly8x8_t vqtbl3_p8(poly8x16x3_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B - Vn+2.16B},Vm.8B	Vd.8B -> result	A64
 poly8x16_t vqtbl3q_p8(poly8x16x3_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;idx -> Vm.16B	TBL Vd.16B,{Vn.16B - Vn+2.16B},Vm.16B	Vd.16B -> result	A64
+mfloat8x8_t vqtbl3_mf8(mfloat8x16x3_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B - Vn+2.16B},Vm.8B	Vd.8B -> result	A64
+mfloat8x16_t vqtbl3q_mf8(mfloat8x16x3_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;idx -> Vm.16B	TBL Vd.16B,{Vn.16B - Vn+2.16B},Vm.16B	Vd.16B -> result	A64
 int8x8_t vqtbl4_s8(int8x16x4_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;t.val[3] -> Vn+3.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B	Vd.8B -> result	A64
 int8x16_t vqtbl4q_s8(int8x16x4_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;t.val[3] -> Vn+3.16B;idx -> Vm.16B	TBL Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B	Vd.16B -> result	A64
 uint8x8_t vqtbl4_u8(uint8x16x4_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;t.val[3] -> Vn+3.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B	Vd.8B -> result	A64
 uint8x16_t vqtbl4q_u8(uint8x16x4_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;t.val[3] -> Vn+3.16B;idx -> Vm.16B	TBL Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B	Vd.16B -> result	A64
 poly8x8_t vqtbl4_p8(poly8x16x4_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;t.val[3] -> Vn+3.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B	Vd.8B -> result	A64
 poly8x16_t vqtbl4q_p8(poly8x16x4_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;t.val[3] -> Vn+3.16B;idx -> Vm.16B	TBL Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B	Vd.16B -> result	A64
+mfloat8x8_t vqtbl4_mf8(mfloat8x16x4_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;t.val[3] -> Vn+3.16B;idx -> Vm.8B	TBL Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B	Vd.8B -> result	A64
+mfloat8x16_t vqtbl4q_mf8(mfloat8x16x4_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;t.val[3] -> Vn+3.16B;idx -> Vm.16B	TBL Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B	Vd.16B -> result	A64
 int8x8_t vqtbx2_s8(int8x8_t a, int8x16x2_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;idx -> Vm.8B;a -> Vd.8B	TBX Vd.8B,{Vn.16B - Vn+1.16B},Vm.8B	Vd.8B -> result	A64
 int8x16_t vqtbx2q_s8(int8x16_t a, int8x16x2_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;idx -> Vm.16B;a -> Vd.16B	TBX Vd.16B,{Vn.16B - Vn+1.16B},Vm.16B	Vd.16B -> result	A64
 uint8x8_t vqtbx2_u8(uint8x8_t a, uint8x16x2_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;idx -> Vm.8B;a -> Vd.8B	TBX Vd.8B,{Vn.16B - Vn+1.16B},Vm.8B	Vd.8B -> result	A64
 uint8x16_t vqtbx2q_u8(uint8x16_t a, uint8x16x2_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;idx -> Vm.16B;a -> Vd.16B	TBX Vd.16B,{Vn.16B - Vn+1.16B},Vm.16B	Vd.16B -> result	A64
 poly8x8_t vqtbx2_p8(poly8x8_t a, poly8x16x2_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;idx -> Vm.8B;a -> Vd.8B	TBX Vd.8B,{Vn.16B - Vn+1.16B},Vm.8B	Vd.8B -> result	A64
 poly8x16_t vqtbx2q_p8(poly8x16_t a, poly8x16x2_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;idx -> Vm.16B;a -> Vd.16B	TBX Vd.16B,{Vn.16B - Vn+1.16B},Vm.16B	Vd.16B -> result	A64
+mfloat8x8_t vqtbx2_mf8(mfloat8x8_t a, mfloat8x16x2_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;idx -> Vm.8B;a -> Vd.8B	TBX Vd.8B,{Vn.16B - Vn+1.16B},Vm.8B	Vd.8B -> result	A64
+mfloat8x16_t vqtbx2q_mf8(mfloat8x16_t a, mfloat8x16x2_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;idx -> Vm.16B;a -> Vd.16B	TBX Vd.16B,{Vn.16B - Vn+1.16B},Vm.16B	Vd.16B -> result	A64
 int8x8_t vqtbx3_s8(int8x8_t a, int8x16x3_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;idx -> Vm.8B;a -> Vd.8B	TBX Vd.8B,{Vn.16B - Vn+2.16B},Vm.8B	Vd.8B -> result	A64
 int8x16_t vqtbx3q_s8(int8x16_t a, int8x16x3_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;idx -> Vm.16B;a -> Vd.16B	TBX Vd.16B,{Vn.16B - Vn+2.16B},Vm.16B	Vd.16B -> result	A64
 uint8x8_t vqtbx3_u8(uint8x8_t a, uint8x16x3_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;idx -> Vm.8B;a -> Vd.8B	TBX Vd.8B,{Vn.16B - Vn+2.16B},Vm.8B	Vd.8B -> result	A64
 uint8x16_t vqtbx3q_u8(uint8x16_t a, uint8x16x3_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;idx -> Vm.16B;a -> Vd.16B	TBX Vd.16B,{Vn.16B - Vn+2.16B},Vm.16B	Vd.16B -> result	A64
 poly8x8_t vqtbx3_p8(poly8x8_t a, poly8x16x3_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;idx -> Vm.8B;a -> Vd.8B	TBX Vd.8B,{Vn.16B - Vn+2.16B},Vm.8B	Vd.8B -> result	A64
 poly8x16_t vqtbx3q_p8(poly8x16_t a, poly8x16x3_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;idx -> Vm.16B;a -> Vd.16B	TBX Vd.16B,{Vn.16B - Vn+2.16B},Vm.16B	Vd.16B -> result	A64
+mfloat8x8_t vqtbx3_mf8(mfloat8x8_t a, mfloat8x16x3_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;idx -> Vm.8B;a -> Vd.8B	TBX Vd.8B,{Vn.16B - Vn+2.16B},Vm.8B	Vd.8B -> result	A64
+mfloat8x16_t vqtbx3q_mf8(mfloat8x16_t a, mfloat8x16x3_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;idx -> Vm.16B;a -> Vd.16B	TBX Vd.16B,{Vn.16B - Vn+2.16B},Vm.16B	Vd.16B -> result	A64
 int8x8_t vqtbx4_s8(int8x8_t a, int8x16x4_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;t.val[3] -> Vn+3.16B;idx -> Vm.8B;a -> Vd.8B	TBX Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B	Vd.8B -> result	A64
 int8x16_t vqtbx4q_s8(int8x16_t a, int8x16x4_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;t.val[3] -> Vn+3.16B;idx -> Vm.16B;a -> Vd.16B	TBX Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B	Vd.16B -> result	A64
 uint8x8_t vqtbx4_u8(uint8x8_t a, uint8x16x4_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;t.val[3] -> Vn+3.16B;idx -> Vm.8B;a -> Vd.8B	TBX Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B	Vd.8B -> result	A64
 uint8x16_t vqtbx4q_u8(uint8x16_t a, uint8x16x4_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;t.val[3] -> Vn+3.16B;idx -> Vm.16B;a -> Vd.16B	TBX Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B	Vd.16B -> result	A64
 poly8x8_t vqtbx4_p8(poly8x8_t a, poly8x16x4_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;t.val[3] -> Vn+3.16B;idx -> Vm.8B;a -> Vd.8B	TBX Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B	Vd.8B -> result	A64
 poly8x16_t vqtbx4q_p8(poly8x16_t a, poly8x16x4_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;t.val[3] -> Vn+3.16B;idx -> Vm.16B;a -> Vd.16B	TBX Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B	Vd.16B -> result	A64
+mfloat8x8_t vqtbx4_mf8(mfloat8x8_t a, mfloat8x16x4_t t, uint8x8_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;t.val[3] -> Vn+3.16B;idx -> Vm.8B;a -> Vd.8B	TBX Vd.8B,{Vn.16B - Vn+3.16B},Vm.8B	Vd.8B -> result	A64
+mfloat8x16_t vqtbx4q_mf8(mfloat8x16_t a, mfloat8x16x4_t t, uint8x16_t idx)	t.val[0] -> Vn.16B;t.val[1] -> Vn+1.16B;t.val[2] -> Vn+2.16B;t.val[3] -> Vn+3.16B;idx -> Vm.16B;a -> Vd.16B	TBX Vd.16B,{Vn.16B - Vn+3.16B},Vm.16B	Vd.16B -> result	A64
 uint8_t vget_lane_u8(uint8x8_t v, __builtin_constant_p(lane))	0<=lane<=7;v -> Vn.8B	UMOV Rd,Vn.B[lane]	Rd -> result	v7/A32/A64
 uint16_t vget_lane_u16(uint16x4_t v, __builtin_constant_p(lane))	0<=lane<=3;v -> Vn.4H	UMOV Rd,Vn.H[lane]	Rd -> result	v7/A32/A64
 uint32_t vget_lane_u32(uint32x2_t v, __builtin_constant_p(lane))	0<=lane<=1;v -> Vn.2S	UMOV Rd,Vn.S[lane]	Rd -> result	v7/A32/A64
@@ -3265,6 +3379,7 @@ float16x4_t vset_lane_f16(float16_t a, float16x4_t v, __builtin_constant_p(lane)
 float16x8_t vsetq_lane_f16(float16_t a, float16x8_t v, __builtin_constant_p(lane))	0<=lane<=7;a -> VnH;v -> Vd.8H	MOV Vd.H[lane],Vn.H[0]	Vd.8H -> result	v7/A32/A64
 float32x2_t vset_lane_f32(float32_t a, float32x2_t v, __builtin_constant_p(lane))	0<=lane<=1;a -> Rn;v -> Vd.2S	MOV Vd.S[lane],Rn	Vd.2S -> result	v7/A32/A64
 float64x1_t vset_lane_f64(float64_t a, float64x1_t v, __builtin_constant_p(lane))	lane==0;a -> Rn;v -> Vd.1D	MOV Vd.D[lane],Rn	Vd.1D -> result	A64
+mfloat8x8_t vset_lane_mf8(mfloat8_t a, mfloat8x8_t v, __builtin_constant_p(lane))	0<=lane<=7;a -> Rn;v -> Vd.8B	MOV Vd.B[lane],Rn	Vd.8B -> result	A64
 uint8x16_t vsetq_lane_u8(uint8_t a, uint8x16_t v, __builtin_constant_p(lane))	0<=lane<=15;a -> Rn;v -> Vd.16B	MOV Vd.B[lane],Rn	Vd.16B -> result	v7/A32/A64
 uint16x8_t vsetq_lane_u16(uint16_t a, uint16x8_t v, __builtin_constant_p(lane))	0<=lane<=7;a -> Rn;v -> Vd.8H	MOV Vd.H[lane],Rn	Vd.8H -> result	v7/A32/A64
 uint32x4_t vsetq_lane_u32(uint32_t a, uint32x4_t v, __builtin_constant_p(lane))	0<=lane<=3;a -> Rn;v -> Vd.4S	MOV Vd.S[lane],Rn	Vd.4S -> result	v7/A32/A64
@@ -3278,6 +3393,7 @@ poly8x16_t vsetq_lane_p8(poly8_t a, poly8x16_t v, __builtin_constant_p(lane))	0<
 poly16x8_t vsetq_lane_p16(poly16_t a, poly16x8_t v, __builtin_constant_p(lane))	0<=lane<=7;a -> Rn;v -> Vd.8H	MOV Vd.H[lane],Rn	Vd.8H -> result	v7/A32/A64
 float32x4_t vsetq_lane_f32(float32_t a, float32x4_t v, __builtin_constant_p(lane))	0<=lane<=3;a -> Rn;v -> Vd.4S	MOV Vd.S[lane],Rn	Vd.4S -> result	v7/A32/A64
 float64x2_t vsetq_lane_f64(float64_t a, float64x2_t v, __builtin_constant_p(lane))	0<=lane<=1;a -> Rn;v -> Vd.2D	MOV Vd.D[lane],Rn	Vd.2D -> result	A64
+mfloat8x16_t vsetq_lane_mf8(mfloat8_t a, mfloat8x16_t v, __builtin_constant_p(lane))	0<=lane<=15;a -> Rn;v -> Vd.16B	MOV Vd.B[lane],Rn	Vd.16B -> result	A64
 float32_t vrecpxs_f32(float32_t a)	a -> Sn	FRECPX Sd,Sn	Sd -> result	A64
 float64_t vrecpxd_f64(float64_t a)	a -> Dn	FRECPX Dd,Dn	Dd -> result	A64
 float32x2_t vfma_n_f32(float32x2_t a, float32x2_t b, float32_t n)	n -> Vm.S[0];b -> Vn.2S;a -> Vd.2S	FMLA Vd.2S,Vn.2S,Vm.S[0]	Vd.2S -> result	v7/A32/A64
@@ -3297,6 +3413,7 @@ poly16x4x2_t vtrn_p16(poly16x4_t a, poly16x4_t b)	a -> Vn.4H;b -> Vm.4H	TRN1 Vd1
 int32x2x2_t vtrn_s32(int32x2_t a, int32x2_t b)	a -> Vn.2S;b -> Vm.2S	TRN1 Vd1.2S,Vn.2S,Vm.2S;TRN2 Vd2.2S,Vn.2S,Vm.2S	Vd1.2S -> result.val[0];Vd2.2S -> result.val[1]	v7/A32/A64
 float32x2x2_t vtrn_f32(float32x2_t a, float32x2_t b)	a -> Vn.2S;b -> Vm.2S	TRN1 Vd1.2S,Vn.2S,Vm.2S;TRN2 Vd2.2S,Vn.2S,Vm.2S	Vd1.2S -> result.val[0];Vd2.2S -> result.val[1]	v7/A32/A64
 uint32x2x2_t vtrn_u32(uint32x2_t a, uint32x2_t b)	a -> Vn.2S;b -> Vm.2S	TRN1 Vd1.2S,Vn.2S,Vm.2S;TRN2 Vd2.2S,Vn.2S,Vm.2S	Vd1.2S -> result.val[0];Vd2.2S -> result.val[1]	v7/A32/A64
+mfloat8x8x2_t vtrn_mf8(mfloat8x8_t a, mfloat8x8_t b)	a -> Vn.8B;b -> Vm.8B	TRN1 Vd1.8B,Vn.8B,Vm.8B;TRN2 Vd2.8B,Vn.8B,Vm.8B	Vd1.8B -> result.val[0];Vd2.8B -> result.val[1]	A64
 int8x16x2_t vtrnq_s8(int8x16_t a, int8x16_t b)	a -> Vn.16B;b -> Vm.16B	TRN1 Vd1.16B,Vn.16B,Vm.16B;TRN2 Vd2.16B,Vn.16B,Vm.16B	Vd1.16B -> result.val[0];Vd2.16B -> result.val[1]	v7/A32/A64
 int16x8x2_t vtrnq_s16(int16x8_t a, int16x8_t b)	a -> Vn.8H;b -> Vm.8H	TRN1 Vd1.8H,Vn.8H,Vm.8H;TRN2 Vd2.8H,Vn.8H,Vm.8H	Vd1.8H -> result.val[0];Vd2.8H -> result.val[1]	v7/A32/A64
 int32x4x2_t vtrnq_s32(int32x4_t a, int32x4_t b)	a -> Vn.4S;b -> Vm.4S	TRN1 Vd1.4S,Vn.4S,Vm.4S;TRN2 Vd2.4S,Vn.4S,Vm.4S	Vd1.4S -> result.val[0];Vd2.4S -> result.val[1]	v7/A32/A64
@@ -3306,12 +3423,14 @@ uint16x8x2_t vtrnq_u16(uint16x8_t a, uint16x8_t b)	a -> Vn.8H;b -> Vm.8H	TRN1 Vd
 uint32x4x2_t vtrnq_u32(uint32x4_t a, uint32x4_t b)	a -> Vn.4S;b -> Vm.4S	TRN1 Vd1.4S,Vn.4S,Vm.4S;TRN2 Vd2.4S,Vn.4S,Vm.4S	Vd1.4S -> result.val[0];Vd2.4S -> result.val[1]	v7/A32/A64
 poly8x16x2_t vtrnq_p8(poly8x16_t a, poly8x16_t b)	a -> Vn.16B;b -> Vm.16B	TRN1 Vd1.16B,Vn.16B,Vm.16B;TRN2 Vd2.16B,Vn.16B,Vm.16B	Vd1.16B -> result.val[0];Vd2.16B -> result.val[1]	v7/A32/A64
 poly16x8x2_t vtrnq_p16(poly16x8_t a, poly16x8_t b)	a -> Vn.8H;b -> Vm.8H	TRN1 Vd1.8H,Vn.8H,Vm.8H;TRN2 Vd2.8H,Vn.8H,Vm.8H	Vd1.8H -> result.val[0];Vd2.8H -> result.val[1]	v7/A32/A64
+mfloat8x16x2_t vtrnq_mf8(mfloat8x16_t a, mfloat8x16_t b)	a -> Vn.16B;b -> Vm.16B	TRN1 Vd1.16B,Vn.16B,Vm.16B;TRN2 Vd2.16B,Vn.16B,Vm.16B	Vd1.16B -> result.val[0];Vd2.16B -> result.val[1]	A64
 int8x8x2_t vzip_s8(int8x8_t a, int8x8_t b)	a -> Vn.8B;b -> Vm.8B	ZIP1 Vd1.8B,Vn.8B,Vm.8B;ZIP2 Vd2.8B,Vn.8B,Vm.8B	Vd1.8B -> result.val[0];Vd2.8B -> result.val[1]	v7/A32/A64
 int16x4x2_t vzip_s16(int16x4_t a, int16x4_t b)	a -> Vn.4H;b -> Vm.4H	ZIP1 Vd1.4H,Vn.4H,Vm.4H;ZIP2 Vd2.4H,Vn.4H,Vm.4H	Vd1.4H -> result.val[0];Vd2.4H -> result.val[1]	v7/A32/A64
 uint8x8x2_t vzip_u8(uint8x8_t a, uint8x8_t b)	a -> Vn.8B;b -> Vm.8B	ZIP1 Vd1.8B,Vn.8B,Vm.8B;ZIP2 Vd2.8B,Vn.8B,Vm.8B	Vd1.8B -> result.val[0];Vd2.8B -> result.val[1]	v7/A32/A64
 uint16x4x2_t vzip_u16(uint16x4_t a, uint16x4_t b)	a -> Vn.4H;b -> Vm.4H	ZIP1 Vd1.4H,Vn.4H,Vm.4H;ZIP2 Vd2.4H,Vn.4H,Vm.4H	Vd1.4H -> result.val[0];Vd2.4H -> result.val[1]	v7/A32/A64
 poly8x8x2_t vzip_p8(poly8x8_t a, poly8x8_t b)	a -> Vn.8B;b -> Vm.8B	ZIP1 Vd1.8B,Vn.8B,Vm.8B;ZIP2 Vd2.8B,Vn.8B,Vm.8B	Vd1.8B -> result.val[0];Vd2.8B -> result.val[1]	v7/A32/A64
 poly16x4x2_t vzip_p16(poly16x4_t a, poly16x4_t b)	a -> Vn.4H;b -> Vm.4H	ZIP1 Vd1.4H,Vn.4H,Vm.4H;ZIP2 Vd2.4H,Vn.4H,Vm.4H	Vd1.4H -> result.val[0];Vd2.4H -> result.val[1]	v7/A32/A64
+mfloat8x8x2_t vzip_mf8(mfloat8x8_t a, mfloat8x8_t b)	a -> Vn.8B;b -> Vm.8B	ZIP1 Vd1.8B,Vn.8B,Vm.8B;ZIP2 Vd2.8B,Vn.8B,Vm.8B	Vd1.8B -> result.val[0];Vd2.8B -> result.val[1]	A64
 int32x2x2_t vzip_s32(int32x2_t a, int32x2_t b)	a -> Vn.2S;b -> Vm.2S	ZIP1 Vd1.2S,Vn.2S,Vm.2S;ZIP2 Vd2.2S,Vn.2S,Vm.2S	Vd1.2S -> result.val[0];Vd2.2S -> result.val[1]	v7/A32/A64
 float32x2x2_t vzip_f32(float32x2_t a, float32x2_t b)	a -> Vn.2S;b -> Vm.2S	ZIP1 Vd1.2S,Vn.2S,Vm.2S;ZIP2 Vd2.2S,Vn.2S,Vm.2S	Vd1.2S -> result.val[0];Vd2.2S -> result.val[1]	v7/A32/A64
 uint32x2x2_t vzip_u32(uint32x2_t a, uint32x2_t b)	a -> Vn.2S;b -> Vm.2S	ZIP1 Vd1.2S,Vn.2S,Vm.2S;ZIP2 Vd2.2S,Vn.2S,Vm.2S	Vd1.2S -> result.val[0];Vd2.2S -> result.val[1]	v7/A32/A64
@@ -3324,6 +3443,7 @@ uint16x8x2_t vzipq_u16(uint16x8_t a, uint16x8_t b)	a -> Vn.8H;b -> Vm.8H	ZIP1 Vd
 uint32x4x2_t vzipq_u32(uint32x4_t a, uint32x4_t b)	a -> Vn.4S;b -> Vm.4S	ZIP1 Vd1.4S,Vn.4S,Vm.4S;ZIP2 Vd2.4S,Vn.4S,Vm.4S	Vd1.4S -> result.val[0];Vd2.4S -> result.val[1]	v7/A32/A64
 poly8x16x2_t vzipq_p8(poly8x16_t a, poly8x16_t b)	a -> Vn.16B;b -> Vm.16B	ZIP1 Vd1.16B,Vn.16B,Vm.16B;ZIP2 Vd2.16B,Vn.16B,Vm.16B	Vd1.16B -> result.val[0];Vd2.16B -> result.val[1]	v7/A32/A64
 poly16x8x2_t vzipq_p16(poly16x8_t a, poly16x8_t b)	a -> Vn.8H;b -> Vm.8H	ZIP1 Vd1.8H,Vn.8H,Vm.8H;ZIP2 Vd2.8H,Vn.8H,Vm.8H	Vd1.8H -> result.val[0];Vd2.8H -> result.val[1]	v7/A32/A64
+mfloat8x16x2_t vzipq_mf8(mfloat8x16_t a, mfloat8x16_t b)	a -> Vn.16B;b -> Vm.16B	ZIP1 Vd1.16B,Vn.16B,Vm.16B;ZIP2 Vd2.16B,Vn.16B,Vm.16B	Vd1.16B -> result.val[0];Vd2.16B -> result.val[1]	A64
 int8x8x2_t vuzp_s8(int8x8_t a, int8x8_t b)	a -> Vn.8B;b -> Vm.8B	UZP1 Vd1.8B,Vn.8B,Vm.8B;UZP2 Vd2.8B,Vn.8B,Vm.8B	Vd1.8B -> result.val[0];Vd2.8B -> result.val[1]	v7/A32/A64
 int16x4x2_t vuzp_s16(int16x4_t a, int16x4_t b)	a -> Vn.4H;b -> Vm.4H	UZP1 Vd1.4H,Vn.4H,Vm.4H;UZP2 Vd2.4H,Vn.4H,Vm.4H	Vd1.4H -> result.val[0];Vd2.4H -> result.val[1]	v7/A32/A64
 int32x2x2_t vuzp_s32(int32x2_t a, int32x2_t b)	a -> Vn.2S;b -> Vm.2S	UZP1 Vd1.2S,Vn.2S,Vm.2S;UZP2 Vd2.2S,Vn.2S,Vm.2S	Vd1.2S -> result.val[0];Vd2.2S -> result.val[1]	v7/A32/A64
@@ -3333,6 +3453,7 @@ uint16x4x2_t vuzp_u16(uint16x4_t a, uint16x4_t b)	a -> Vn.4H;b -> Vm.4H	UZP1 Vd1
 uint32x2x2_t vuzp_u32(uint32x2_t a, uint32x2_t b)	a -> Vn.2S;b -> Vm.2S	UZP1 Vd1.2S,Vn.2S,Vm.2S;UZP2 Vd2.2S,Vn.2S,Vm.2S	Vd1.2S -> result.val[0];Vd2.2S -> result.val[1]	v7/A32/A64
 poly8x8x2_t vuzp_p8(poly8x8_t a, poly8x8_t b)	a -> Vn.8B;b -> Vm.8B	UZP1 Vd1.8B,Vn.8B,Vm.8B;UZP2 Vd2.8B,Vn.8B,Vm.8B	Vd1.8B -> result.val[0];Vd2.8B -> result.val[1]	v7/A32/A64
 poly16x4x2_t vuzp_p16(poly16x4_t a, poly16x4_t b)	a -> Vn.4H;b -> Vm.4H	UZP1 Vd1.4H,Vn.4H,Vm.4H;UZP2 Vd2.4H,Vn.4H,Vm.4H	Vd1.4H -> result.val[0];Vd2.4H -> result.val[1]	v7/A32/A64
+mfloat8x8x2_t vuzp_mf8(mfloat8x8_t a, mfloat8x8_t b)	a -> Vn.8B;b -> Vm.8B	UZP1 Vd1.8B,Vn.8B,Vm.8B;UZP2 Vd2.8B,Vn.8B,Vm.8B	Vd1.8B -> result.val[0];Vd2.8B -> result.val[1]	A64
 int8x16x2_t vuzpq_s8(int8x16_t a, int8x16_t b)	a -> Vn.16B;b -> Vm.16B	UZP1 Vd1.16B,Vn.16B,Vm.16B;UZP2 Vd2.16B,Vn.16B,Vm.16B	Vd1.16B -> result.val[0];Vd2.16B -> result.val[1]	v7/A32/A64
 int16x8x2_t vuzpq_s16(int16x8_t a, int16x8_t b)	a -> Vn.8H;b -> Vm.8H	UZP1 Vd1.8H,Vn.8H,Vm.8H;UZP2 Vd2.8H,Vn.8H,Vm.8H	Vd1.8H -> result.val[0];Vd2.8H -> result.val[1]	v7/A32/A64
 int32x4x2_t vuzpq_s32(int32x4_t a, int32x4_t b)	a -> Vn.4S;b -> Vm.4S	UZP1 Vd1.4S,Vn.4S,Vm.4S;UZP2 Vd2.4S,Vn.4S,Vm.4S	Vd1.4S -> result.val[0];Vd2.4S -> result.val[1]	v7/A32/A64
@@ -3342,6 +3463,7 @@ uint16x8x2_t vuzpq_u16(uint16x8_t a, uint16x8_t b)	a -> Vn.8H;b -> Vm.8H	UZP1 Vd
 uint32x4x2_t vuzpq_u32(uint32x4_t a, uint32x4_t b)	a -> Vn.4S;b -> Vm.4S	UZP1 Vd1.4S,Vn.4S,Vm.4S;UZP2 Vd2.4S,Vn.4S,Vm.4S	Vd1.4S -> result.val[0];Vd2.4S -> result.val[1]	v7/A32/A64
 poly8x16x2_t vuzpq_p8(poly8x16_t a, poly8x16_t b)	a -> Vn.16B;b -> Vm.16B	UZP1 Vd1.16B,Vn.16B,Vm.16B;UZP2 Vd2.16B,Vn.16B,Vm.16B	Vd1.16B -> result.val[0];Vd2.16B -> result.val[1]	v7/A32/A64
 poly16x8x2_t vuzpq_p16(poly16x8_t a, poly16x8_t b)	a -> Vn.8H;b -> Vm.8H	UZP1 Vd1.8H,Vn.8H,Vm.8H;UZP2 Vd2.8H,Vn.8H,Vm.8H	Vd1.8H -> result.val[0];Vd2.8H -> result.val[1]	v7/A32/A64
+mfloat8x16x2_t vuzpq_mf8(mfloat8x16_t a, mfloat8x16_t b)	a -> Vn.16B;b -> Vm.16B	UZP1 Vd1.16B,Vn.16B,Vm.16B;UZP2 Vd2.16B,Vn.16B,Vm.16B	Vd1.16B -> result.val[0];Vd2.16B -> result.val[1]	A64
 int16x4_t vreinterpret_s16_s8(int8x8_t a)	a -> Vd.8B	NOP	Vd.4H -> result	v7/A32/A64
 int32x2_t vreinterpret_s32_s8(int8x8_t a)	a -> Vd.8B	NOP	Vd.2S -> result	v7/A32/A64
 float32x2_t vreinterpret_f32_s8(int8x8_t a)	a -> Vd.8B	NOP	Vd.2S -> result	v7/A32/A64
@@ -3350,6 +3472,7 @@ uint16x4_t vreinterpret_u16_s8(int8x8_t a)	a -> Vd.8B	NOP	Vd.4H -> result	v7/A32
 uint32x2_t vreinterpret_u32_s8(int8x8_t a)	a -> Vd.8B	NOP	Vd.2S -> result	v7/A32/A64
 poly8x8_t vreinterpret_p8_s8(int8x8_t a)	a -> Vd.8B	NOP	Vd.8B -> result	v7/A32/A64
 poly16x4_t vreinterpret_p16_s8(int8x8_t a)	a -> Vd.8B	NOP	Vd.4H -> result	v7/A32/A64
+mfloat8x8_t vreinterpret_mf8_s8(int8x8_t a)	a -> Vd.8B	NOP	Vd.8B -> result	A64
 uint64x1_t vreinterpret_u64_s8(int8x8_t a)	a -> Vd.8B	NOP	Vd.1D -> result	v7/A32/A64
 int64x1_t vreinterpret_s64_s8(int8x8_t a)	a -> Vd.8B	NOP	Vd.1D -> result	v7/A32/A64
 float64x1_t vreinterpret_f64_s8(int8x8_t a)	a -> Vd.8B	NOP	Vd.1D -> result	A64
@@ -3363,6 +3486,7 @@ uint16x4_t vreinterpret_u16_s16(int16x4_t a)	a -> Vd.4H	NOP	Vd.4H -> result	v7/A
 uint32x2_t vreinterpret_u32_s16(int16x4_t a)	a -> Vd.4H	NOP	Vd.2S -> result	v7/A32/A64
 poly8x8_t vreinterpret_p8_s16(int16x4_t a)	a -> Vd.4H	NOP	Vd.8B -> result	v7/A32/A64
 poly16x4_t vreinterpret_p16_s16(int16x4_t a)	a -> Vd.4H	NOP	Vd.4H -> result	v7/A32/A64
+mfloat8x8_t vreinterpret_mf8_s16(int16x4_t a)	a -> Vd.4H	NOP	Vd.8B -> result	A64
 uint64x1_t vreinterpret_u64_s16(int16x4_t a)	a -> Vd.4H	NOP	Vd.1D -> result	v7/A32/A64
 int64x1_t vreinterpret_s64_s16(int16x4_t a)	a -> Vd.4H	NOP	Vd.1D -> result	v7/A32/A64
 float64x1_t vreinterpret_f64_s16(int16x4_t a)	a -> Vd.4H	NOP	Vd.1D -> result	A64
@@ -3376,6 +3500,7 @@ uint16x4_t vreinterpret_u16_s32(int32x2_t a)	a -> Vd.2S	NOP	Vd.4H -> result	v7/A
 uint32x2_t vreinterpret_u32_s32(int32x2_t a)	a -> Vd.2S	NOP	Vd.2S -> result	v7/A32/A64
 poly8x8_t vreinterpret_p8_s32(int32x2_t a)	a -> Vd.2S	NOP	Vd.8B -> result	v7/A32/A64
 poly16x4_t vreinterpret_p16_s32(int32x2_t a)	a -> Vd.2S	NOP	Vd.4H -> result	v7/A32/A64
+mfloat8x8_t vreinterpret_mf8_s32(int32x2_t a)	a -> Vd.2S	NOP	Vd.8B -> result	A64
 uint64x1_t vreinterpret_u64_s32(int32x2_t a)	a -> Vd.2S	NOP	Vd.1D -> result	v7/A32/A64
 int64x1_t vreinterpret_s64_s32(int32x2_t a)	a -> Vd.2S	NOP	Vd.1D -> result	v7/A32/A64
 float64x1_t vreinterpret_f64_s32(int32x2_t a)	a -> Vd.2S	NOP	Vd.1D -> result	A64
@@ -3389,6 +3514,7 @@ uint16x4_t vreinterpret_u16_f32(float32x2_t a)	a -> Vd.2S	NOP	Vd.4H -> result	v7
 uint32x2_t vreinterpret_u32_f32(float32x2_t a)	a -> Vd.2S	NOP	Vd.2S -> result	v7/A32/A64
 poly8x8_t vreinterpret_p8_f32(float32x2_t a)	a -> Vd.2S	NOP	Vd.8B -> result	v7/A32/A64
 poly16x4_t vreinterpret_p16_f32(float32x2_t a)	a -> Vd.2S	NOP	Vd.4H -> result	v7/A32/A64
+mfloat8x8_t vreinterpret_mf8_f32(float32x2_t a)	a -> Vd.2S	NOP	Vd.8B -> result	A64
 uint64x1_t vreinterpret_u64_f32(float32x2_t a)	a -> Vd.2S	NOP	Vd.1D -> result	v7/A32/A64
 int64x1_t vreinterpret_s64_f32(float32x2_t a)	a -> Vd.2S	NOP	Vd.1D -> result	v7/A32/A64
 float64x1_t vreinterpret_f64_f32(float32x2_t a)	a -> Vd.2S	NOP	Vd.1D -> result	A64
@@ -3403,6 +3529,7 @@ uint16x4_t vreinterpret_u16_u8(uint8x8_t a)	a -> Vd.8B	NOP	Vd.4H -> result	v7/A3
 uint32x2_t vreinterpret_u32_u8(uint8x8_t a)	a -> Vd.8B	NOP	Vd.2S -> result	v7/A32/A64
 poly8x8_t vreinterpret_p8_u8(uint8x8_t a)	a -> Vd.8B	NOP	Vd.8B -> result	v7/A32/A64
 poly16x4_t vreinterpret_p16_u8(uint8x8_t a)	a -> Vd.8B	NOP	Vd.4H -> result	v7/A32/A64
+mfloat8x8_t vreinterpret_mf8_u8(uint8x8_t a)	a -> Vd.8B	NOP	Vd.8B -> result	A64
 uint64x1_t vreinterpret_u64_u8(uint8x8_t a)	a -> Vd.8B	NOP	Vd.1D -> result	v7/A32/A64
 int64x1_t vreinterpret_s64_u8(uint8x8_t a)	a -> Vd.8B	NOP	Vd.1D -> result	v7/A32/A64
 float64x1_t vreinterpret_f64_u8(uint8x8_t a)	a -> Vd.8B	NOP	Vd.1D -> result	A64
@@ -3416,6 +3543,7 @@ uint8x8_t vreinterpret_u8_u16(uint16x4_t a)	a -> Vd.4H	NOP	Vd.8B -> result	v7/A3
 uint32x2_t vreinterpret_u32_u16(uint16x4_t a)	a -> Vd.4H	NOP	Vd.2S -> result	v7/A32/A64
 poly8x8_t vreinterpret_p8_u16(uint16x4_t a)	a -> Vd.4H	NOP	Vd.8B -> result	v7/A32/A64
 poly16x4_t vreinterpret_p16_u16(uint16x4_t a)	a -> Vd.4H	NOP	Vd.4H -> result	v7/A32/A64
+mfloat8x8_t vreinterpret_mf8_u16(uint16x4_t a)	a -> Vd.4H	NOP	Vd.8B -> result	A64
 uint64x1_t vreinterpret_u64_u16(uint16x4_t a)	a -> Vd.4H	NOP	Vd.1D -> result	v7/A32/A64
 int64x1_t vreinterpret_s64_u16(uint16x4_t a)	a -> Vd.4H	NOP	Vd.1D -> result	v7/A32/A64
 float64x1_t vreinterpret_f64_u16(uint16x4_t a)	a -> Vd.4H	NOP	Vd.1D -> result	A64
@@ -3429,6 +3557,7 @@ uint8x8_t vreinterpret_u8_u32(uint32x2_t a)	a -> Vd.2S	NOP	Vd.8B -> result	v7/A3
 uint16x4_t vreinterpret_u16_u32(uint32x2_t a)	a -> Vd.2S	NOP	Vd.4H -> result	v7/A32/A64
 poly8x8_t vreinterpret_p8_u32(uint32x2_t a)	a -> Vd.2S	NOP	Vd.8B -> result	v7/A32/A64
 poly16x4_t vreinterpret_p16_u32(uint32x2_t a)	a -> Vd.2S	NOP	Vd.4H -> result	v7/A32/A64
+mfloat8x8_t vreinterpret_mf8_u32(uint32x2_t a)	a -> Vd.2S	NOP	Vd.8B -> result	A64
 uint64x1_t vreinterpret_u64_u32(uint32x2_t a)	a -> Vd.2S	NOP	Vd.1D -> result	v7/A32/A64
 int64x1_t vreinterpret_s64_u32(uint32x2_t a)	a -> Vd.2S	NOP	Vd.1D -> result	v7/A32/A64
 float64x1_t vreinterpret_f64_u32(uint32x2_t a)	a -> Vd.2S	NOP	Vd.1D -> result	A64
@@ -3447,6 +3576,19 @@ int64x1_t vreinterpret_s64_p8(poly8x8_t a)	a -> Vd.8B	NOP	Vd.1D -> result	v7/A32
 float64x1_t vreinterpret_f64_p8(poly8x8_t a)	a -> Vd.8B	NOP	Vd.1D -> result	A64
 poly64x1_t vreinterpret_p64_p8(poly8x8_t a)	a -> Vd.8B	NOP	Vd.1D -> result	A32/A64
 float16x4_t vreinterpret_f16_p8(poly8x8_t a)	a -> Vd.8B	NOP	Vd.4H -> result	v7/A32/A64
+int8x8_t vreinterpret_s8_mf8(mfloat8x8_t a)	a -> Vd.8B	NOP	Vd.8B -> result	A64
+int16x4_t vreinterpret_s16_mf8(mfloat8x8_t a)	a -> Vd.8B	NOP	Vd.4H -> result	A64
+int32x2_t vreinterpret_s32_mf8(mfloat8x8_t a)	a -> Vd.8B	NOP	Vd.2S -> result	A64
+float32x2_t vreinterpret_f32_mf8(mfloat8x8_t a)	a -> Vd.8B	NOP	Vd.2S -> result	A64
+uint8x8_t vreinterpret_u8_mf8(mfloat8x8_t a)	a -> Vd.8B	NOP	Vd.8B -> result	A64
+uint16x4_t vreinterpret_u16_mf8(mfloat8x8_t a)	a -> Vd.8B	NOP	Vd.4H -> result	A64
+uint32x2_t vreinterpret_u32_mf8(mfloat8x8_t a)	a -> Vd.8B	NOP	Vd.2S -> result	A64
+poly16x4_t vreinterpret_p16_mf8(mfloat8x8_t a)	a -> Vd.8B	NOP	Vd.4H -> result	A64
+uint64x1_t vreinterpret_u64_mf8(mfloat8x8_t a)	a -> Vd.8B	NOP	Vd.1D -> result	A64
+int64x1_t vreinterpret_s64_mf8(mfloat8x8_t a)	a -> Vd.8B	NOP	Vd.1D -> result	A64
+float64x1_t vreinterpret_f64_mf8(mfloat8x8_t a)	a -> Vd.8B	NOP	Vd.1D -> result	A64
+poly64x1_t vreinterpret_p64_mf8(mfloat8x8_t a)	a -> Vd.8B	NOP	Vd.1D -> result	A64
+float16x4_t vreinterpret_f16_mf8(mfloat8x8_t a)	a -> Vd.8B	NOP	Vd.4H -> result	A64
 int8x8_t vreinterpret_s8_p16(poly16x4_t a)	a -> Vd.4H	NOP	Vd.8B -> result	v7/A32/A64
 int16x4_t vreinterpret_s16_p16(poly16x4_t a)	a -> Vd.4H	NOP	Vd.4H -> result	v7/A32/A64
 int32x2_t vreinterpret_s32_p16(poly16x4_t a)	a -> Vd.4H	NOP	Vd.2S -> result	v7/A32/A64
@@ -3455,6 +3597,7 @@ uint8x8_t vreinterpret_u8_p16(poly16x4_t a)	a -> Vd.4H	NOP	Vd.8B -> result	v7/A3
 uint16x4_t vreinterpret_u16_p16(poly16x4_t a)	a -> Vd.4H	NOP	Vd.4H -> result	v7/A32/A64
 uint32x2_t vreinterpret_u32_p16(poly16x4_t a)	a -> Vd.4H	NOP	Vd.2S -> result	v7/A32/A64
 poly8x8_t vreinterpret_p8_p16(poly16x4_t a)	a -> Vd.4H	NOP	Vd.8B -> result	v7/A32/A64
+mfloat8x8_t vreinterpret_mf8_p16(poly16x4_t a)	a -> Vd.4H	NOP	Vd.8B -> result	A64
 uint64x1_t vreinterpret_u64_p16(poly16x4_t a)	a -> Vd.4H	NOP	Vd.1D -> result	v7/A32/A64
 int64x1_t vreinterpret_s64_p16(poly16x4_t a)	a -> Vd.4H	NOP	Vd.1D -> result	v7/A32/A64
 float64x1_t vreinterpret_f64_p16(poly16x4_t a)	a -> Vd.4H	NOP	Vd.1D -> result	A64
@@ -3469,6 +3612,7 @@ uint16x4_t vreinterpret_u16_u64(uint64x1_t a)	a -> Vd.1D	NOP	Vd.4H -> result	v7/
 uint32x2_t vreinterpret_u32_u64(uint64x1_t a)	a -> Vd.1D	NOP	Vd.2S -> result	v7/A32/A64
 poly8x8_t vreinterpret_p8_u64(uint64x1_t a)	a -> Vd.1D	NOP	Vd.8B -> result	v7/A32/A64
 poly16x4_t vreinterpret_p16_u64(uint64x1_t a)	a -> Vd.1D	NOP	Vd.4H -> result	v7/A32/A64
+mfloat8x8_t vreinterpret_mf8_u64(uint64x1_t a)	a -> Vd.1D	NOP	Vd.8B -> result	A64
 int64x1_t vreinterpret_s64_u64(uint64x1_t a)	a -> Vd.1D	NOP	Vd.1D -> result	v7/A32/A64
 float64x1_t vreinterpret_f64_u64(uint64x1_t a)	a -> Vd.1D	NOP	Vd.1D -> result	A64
 poly64x1_t vreinterpret_p64_u64(uint64x1_t a)	a -> Vd.1D	NOP	Vd.1D -> result	A32/A64
@@ -3482,6 +3626,7 @@ uint16x4_t vreinterpret_u16_s64(int64x1_t a)	a -> Vd.1D	NOP	Vd.4H -> result	v7/A
 uint32x2_t vreinterpret_u32_s64(int64x1_t a)	a -> Vd.1D	NOP	Vd.2S -> result	v7/A32/A64
 poly8x8_t vreinterpret_p8_s64(int64x1_t a)	a -> Vd.1D	NOP	Vd.8B -> result	v7/A32/A64
 poly16x4_t vreinterpret_p16_s64(int64x1_t a)	a -> Vd.1D	NOP	Vd.4H -> result	v7/A32/A64
+mfloat8x8_t vreinterpret_mf8_s64(int64x1_t a)	a -> Vd.1D	NOP	Vd.8B -> result	A64
 uint64x1_t vreinterpret_u64_s64(int64x1_t a)	a -> Vd.1D	NOP	Vd.1D -> result	v7/A32/A64
 float64x1_t vreinterpret_f64_s64(int64x1_t a)	a -> Vd.1D	NOP	Vd.1D -> result	A64
 uint64x1_t vreinterpret_u64_p64(poly64x1_t a)	a -> Vd.1D	NOP	Vd.1D -> result	A32/A64
@@ -3495,6 +3640,7 @@ uint16x4_t vreinterpret_u16_f16(float16x4_t a)	a -> Vd.4H	NOP	Vd.4H -> result	v7
 uint32x2_t vreinterpret_u32_f16(float16x4_t a)	a -> Vd.4H	NOP	Vd.2S -> result	v7/A32/A64
 poly8x8_t vreinterpret_p8_f16(float16x4_t a)	a -> Vd.4H	NOP	Vd.8B -> result	v7/A32/A64
 poly16x4_t vreinterpret_p16_f16(float16x4_t a)	a -> Vd.4H	NOP	Vd.4H -> result	v7/A32/A64
+mfloat8x8_t vreinterpret_mf8_f16(float16x4_t a)	a -> Vd.4H	NOP	Vd.8B -> result	A64
 uint64x1_t vreinterpret_u64_f16(float16x4_t a)	a -> Vd.4H	NOP	Vd.1D -> result	v7/A32/A64
 int64x1_t vreinterpret_s64_f16(float16x4_t a)	a -> Vd.4H	NOP	Vd.1D -> result	v7/A32/A64
 float64x1_t vreinterpret_f64_f16(float16x4_t a)	a -> Vd.4H	NOP	Vd.1D -> result	A64
@@ -3507,6 +3653,7 @@ uint16x8_t vreinterpretq_u16_s8(int8x16_t a)	a -> Vd.16B	NOP	Vd.8H -> result	v7/
 uint32x4_t vreinterpretq_u32_s8(int8x16_t a)	a -> Vd.16B	NOP	Vd.4S -> result	v7/A32/A64
 poly8x16_t vreinterpretq_p8_s8(int8x16_t a)	a -> Vd.16B	NOP	Vd.16B -> result	v7/A32/A64
 poly16x8_t vreinterpretq_p16_s8(int8x16_t a)	a -> Vd.16B	NOP	Vd.8H -> result	v7/A32/A64
+mfloat8x16_t vreinterpretq_mf8_s8(int8x16_t a)	a -> Vd.16B	NOP	Vd.16B -> result	A64
 uint64x2_t vreinterpretq_u64_s8(int8x16_t a)	a -> Vd.16B	NOP	Vd.2D -> result	v7/A32/A64
 int64x2_t vreinterpretq_s64_s8(int8x16_t a)	a -> Vd.16B	NOP	Vd.2D -> result	v7/A32/A64
 float64x2_t vreinterpretq_f64_s8(int8x16_t a)	a -> Vd.16B	NOP	Vd.2D -> result	A64
@@ -3521,6 +3668,7 @@ uint16x8_t vreinterpretq_u16_s16(int16x8_t a)	a -> Vd.8H	NOP	Vd.8H -> result	v7/
 uint32x4_t vreinterpretq_u32_s16(int16x8_t a)	a -> Vd.8H	NOP	Vd.4S -> result	v7/A32/A64
 poly8x16_t vreinterpretq_p8_s16(int16x8_t a)	a -> Vd.8H	NOP	Vd.16B -> result	v7/A32/A64
 poly16x8_t vreinterpretq_p16_s16(int16x8_t a)	a -> Vd.8H	NOP	Vd.8H -> result	v7/A32/A64
+mfloat8x16_t vreinterpretq_mf8_s16(int16x8_t a)	a -> Vd.8H	NOP	Vd.16B -> result	A64
 uint64x2_t vreinterpretq_u64_s16(int16x8_t a)	a -> Vd.8H	NOP	Vd.2D -> result	v7/A32/A64
 int64x2_t vreinterpretq_s64_s16(int16x8_t a)	a -> Vd.8H	NOP	Vd.2D -> result	v7/A32/A64
 float64x2_t vreinterpretq_f64_s16(int16x8_t a)	a -> Vd.8H	NOP	Vd.2D -> result	A64
@@ -3535,6 +3683,7 @@ uint16x8_t vreinterpretq_u16_s32(int32x4_t a)	a -> Vd.4S	NOP	Vd.8H -> result	v7/
 uint32x4_t vreinterpretq_u32_s32(int32x4_t a)	a -> Vd.4S	NOP	Vd.4S -> result	v7/A32/A64
 poly8x16_t vreinterpretq_p8_s32(int32x4_t a)	a -> Vd.4S	NOP	Vd.16B -> result	v7/A32/A64
 poly16x8_t vreinterpretq_p16_s32(int32x4_t a)	a -> Vd.4S	NOP	Vd.8H -> result	v7/A32/A64
+mfloat8x16_t vreinterpretq_mf8_s32(int32x4_t a)	a -> Vd.4S	NOP	Vd.16B -> result	A64
 uint64x2_t vreinterpretq_u64_s32(int32x4_t a)	a -> Vd.4S	NOP	Vd.2D -> result	v7/A32/A64
 int64x2_t vreinterpretq_s64_s32(int32x4_t a)	a -> Vd.4S	NOP	Vd.2D -> result	v7/A32/A64
 float64x2_t vreinterpretq_f64_s32(int32x4_t a)	a -> Vd.4S	NOP	Vd.2D -> result	A64
@@ -3549,6 +3698,7 @@ uint16x8_t vreinterpretq_u16_f32(float32x4_t a)	a -> Vd.4S	NOP	Vd.8H -> result	v
 uint32x4_t vreinterpretq_u32_f32(float32x4_t a)	a -> Vd.4S	NOP	Vd.4S -> result	v7/A32/A64
 poly8x16_t vreinterpretq_p8_f32(float32x4_t a)	a -> Vd.4S	NOP	Vd.16B -> result	v7/A32/A64
 poly16x8_t vreinterpretq_p16_f32(float32x4_t a)	a -> Vd.4S	NOP	Vd.8H -> result	v7/A32/A64
+mfloat8x16_t vreinterpretq_mf8_f32(float32x4_t a)	a -> Vd.4S	NOP	Vd.16B -> result	A64
 uint64x2_t vreinterpretq_u64_f32(float32x4_t a)	a -> Vd.4S	NOP	Vd.2D -> result	v7/A32/A64
 int64x2_t vreinterpretq_s64_f32(float32x4_t a)	a -> Vd.4S	NOP	Vd.2D -> result	v7/A32/A64
 float64x2_t vreinterpretq_f64_f32(float32x4_t a)	a -> Vd.4S	NOP	Vd.2D -> result	A64
@@ -3565,6 +3715,7 @@ uint16x8_t vreinterpretq_u16_u8(uint8x16_t a)	a -> Vd.16B	NOP	Vd.8H -> result	v7
 uint32x4_t vreinterpretq_u32_u8(uint8x16_t a)	a -> Vd.16B	NOP	Vd.4S -> result	v7/A32/A64
 poly8x16_t vreinterpretq_p8_u8(uint8x16_t a)	a -> Vd.16B	NOP	Vd.16B -> result	v7/A32/A64
 poly16x8_t vreinterpretq_p16_u8(uint8x16_t a)	a -> Vd.16B	NOP	Vd.8H -> result	v7/A32/A64
+mfloat8x16_t vreinterpretq_mf8_u8(uint8x16_t a)	a -> Vd.16B	NOP	Vd.16B -> result	A64
 uint64x2_t vreinterpretq_u64_u8(uint8x16_t a)	a -> Vd.16B	NOP	Vd.2D -> result	v7/A32/A64
 int64x2_t vreinterpretq_s64_u8(uint8x16_t a)	a -> Vd.16B	NOP	Vd.2D -> result	v7/A32/A64
 float64x2_t vreinterpretq_f64_u8(uint8x16_t a)	a -> Vd.16B	NOP	Vd.2D -> result	A64
@@ -3579,6 +3730,7 @@ uint8x16_t vreinterpretq_u8_u16(uint16x8_t a)	a -> Vd.8H	NOP	Vd.16B -> result	v7
 uint32x4_t vreinterpretq_u32_u16(uint16x8_t a)	a -> Vd.8H	NOP	Vd.4S -> result	v7/A32/A64
 poly8x16_t vreinterpretq_p8_u16(uint16x8_t a)	a -> Vd.8H	NOP	Vd.16B -> result	v7/A32/A64
 poly16x8_t vreinterpretq_p16_u16(uint16x8_t a)	a -> Vd.8H	NOP	Vd.8H -> result	v7/A32/A64
+mfloat8x16_t vreinterpretq_mf8_u16(uint16x8_t a)	a -> Vd.8H	NOP	Vd.16B -> result	A64
 uint64x2_t vreinterpretq_u64_u16(uint16x8_t a)	a -> Vd.8H	NOP	Vd.2D -> result	v7/A32/A64
 int64x2_t vreinterpretq_s64_u16(uint16x8_t a)	a -> Vd.8H	NOP	Vd.2D -> result	v7/A32/A64
 float64x2_t vreinterpretq_f64_u16(uint16x8_t a)	a -> Vd.8H	NOP	Vd.2D -> result	A64
@@ -3593,6 +3745,7 @@ uint8x16_t vreinterpretq_u8_u32(uint32x4_t a)	a -> Vd.4S	NOP	Vd.16B -> result	v7
 uint16x8_t vreinterpretq_u16_u32(uint32x4_t a)	a -> Vd.4S	NOP	Vd.8H -> result	v7/A32/A64
 poly8x16_t vreinterpretq_p8_u32(uint32x4_t a)	a -> Vd.4S	NOP	Vd.16B -> result	v7/A32/A64
 poly16x8_t vreinterpretq_p16_u32(uint32x4_t a)	a -> Vd.4S	NOP	Vd.8H -> result	v7/A32/A64
+mfloat8x16_t vreinterpretq_mf8_u32(uint32x4_t a)	a -> Vd.4S	NOP	Vd.16B -> result	A64
 uint64x2_t vreinterpretq_u64_u32(uint32x4_t a)	a -> Vd.4S	NOP	Vd.2D -> result	v7/A32/A64
 int64x2_t vreinterpretq_s64_u32(uint32x4_t a)	a -> Vd.4S	NOP	Vd.2D -> result	v7/A32/A64
 float64x2_t vreinterpretq_f64_u32(uint32x4_t a)	a -> Vd.4S	NOP	Vd.2D -> result	A64
@@ -3613,6 +3766,20 @@ float64x2_t vreinterpretq_f64_p8(poly8x16_t a)	a -> Vd.16B	NOP	Vd.2D -> result	A
 poly64x2_t vreinterpretq_p64_p8(poly8x16_t a)	a -> Vd.16B	NOP	Vd.2D -> result	A32/A64
 poly128_t vreinterpretq_p128_p8(poly8x16_t a)	a -> Vd.16B	NOP	Vd.1Q -> result	A32/A64
 float16x8_t vreinterpretq_f16_p8(poly8x16_t a)	a -> Vd.16B	NOP	Vd.8H -> result	v7/A32/A64
+int8x16_t vreinterpretq_s8_mf8(mfloat8x16_t a)	a -> Vd.16B	NOP	Vd.16B -> result	A64
+int16x8_t vreinterpretq_s16_mf8(mfloat8x16_t a)	a -> Vd.16B	NOP	Vd.8H -> result	A64
+int32x4_t vreinterpretq_s32_mf8(mfloat8x16_t a)	a -> Vd.16B	NOP	Vd.4S -> result	A64
+float32x4_t vreinterpretq_f32_mf8(mfloat8x16_t a)	a -> Vd.16B	NOP	Vd.4S -> result	A64
+uint8x16_t vreinterpretq_u8_mf8(mfloat8x16_t a)	a -> Vd.16B	NOP	Vd.16B -> result	A64
+uint16x8_t vreinterpretq_u16_mf8(mfloat8x16_t a)	a -> Vd.16B	NOP	Vd.8H -> result	A64
+uint32x4_t vreinterpretq_u32_mf8(mfloat8x16_t a)	a -> Vd.16B	NOP	Vd.4S -> result	A64
+poly16x8_t vreinterpretq_p16_mf8(mfloat8x16_t a)	a -> Vd.16B	NOP	Vd.8H -> result	A64
+uint64x2_t vreinterpretq_u64_mf8(mfloat8x16_t a)	a -> Vd.16B	NOP	Vd.2D -> result	A64
+int64x2_t vreinterpretq_s64_mf8(mfloat8x16_t a)	a -> Vd.16B	NOP	Vd.2D -> result	A64
+float64x2_t vreinterpretq_f64_mf8(mfloat8x16_t a)	a -> Vd.16B	NOP	Vd.2D -> result	A64
+poly64x2_t vreinterpretq_p64_mf8(mfloat8x16_t a)	a -> Vd.16B	NOP	Vd.2D -> result	A64
+poly128_t vreinterpretq_p128_mf8(mfloat8x16_t a)	a -> Vd.16B	NOP	Vd.1Q -> result	A64
+float16x8_t vreinterpretq_f16_mf8(mfloat8x16_t a)	a -> Vd.16B	NOP	Vd.8H -> result	A64
 int8x16_t vreinterpretq_s8_p16(poly16x8_t a)	a -> Vd.8H	NOP	Vd.16B -> result	v7/A32/A64
 int16x8_t vreinterpretq_s16_p16(poly16x8_t a)	a -> Vd.8H	NOP	Vd.8H -> result	v7/A32/A64
 int32x4_t vreinterpretq_s32_p16(poly16x8_t a)	a -> Vd.8H	NOP	Vd.4S -> result	v7/A32/A64
@@ -3621,6 +3788,7 @@ uint8x16_t vreinterpretq_u8_p16(poly16x8_t a)	a -> Vd.8H	NOP	Vd.16B -> result	v7
 uint16x8_t vreinterpretq_u16_p16(poly16x8_t a)	a -> Vd.8H	NOP	Vd.8H -> result	v7/A32/A64
 uint32x4_t vreinterpretq_u32_p16(poly16x8_t a)	a -> Vd.8H	NOP	Vd.4S -> result	v7/A32/A64
 poly8x16_t vreinterpretq_p8_p16(poly16x8_t a)	a -> Vd.8H	NOP	Vd.16B -> result	v7/A32/A64
+mfloat8x16_t vreinterpretq_mf8_p16(poly16x8_t a)	a -> Vd.8H	NOP	Vd.16B -> result	A64
 uint64x2_t vreinterpretq_u64_p16(poly16x8_t a)	a -> Vd.8H	NOP	Vd.2D -> result	v7/A32/A64
 int64x2_t vreinterpretq_s64_p16(poly16x8_t a)	a -> Vd.8H	NOP	Vd.2D -> result	v7/A32/A64
 float64x2_t vreinterpretq_f64_p16(poly16x8_t a)	a -> Vd.8H	NOP	Vd.2D -> result	A64
@@ -3636,6 +3804,7 @@ uint16x8_t vreinterpretq_u16_u64(uint64x2_t a)	a -> Vd.2D	NOP	Vd.8H -> result	v7
 uint32x4_t vreinterpretq_u32_u64(uint64x2_t a)	a -> Vd.2D	NOP	Vd.4S -> result	v7/A32/A64
 poly8x16_t vreinterpretq_p8_u64(uint64x2_t a)	a -> Vd.2D	NOP	Vd.16B -> result	v7/A32/A64
 poly16x8_t vreinterpretq_p16_u64(uint64x2_t a)	a -> Vd.2D	NOP	Vd.8H -> result	v7/A32/A64
+mfloat8x16_t vreinterpretq_mf8_u64(uint64x2_t a)	a -> Vd.2D	NOP	Vd.16B -> result	A64
 int64x2_t vreinterpretq_s64_u64(uint64x2_t a)	a -> Vd.2D	NOP	Vd.2D -> result	v7/A32/A64
 float64x2_t vreinterpretq_f64_u64(uint64x2_t a)	a -> Vd.2D	NOP	Vd.2D -> result	v7/A32/A64
 float64x2_t vreinterpretq_f64_s64(int64x2_t a)	a -> Vd.2D	NOP	Vd.2D -> result	A64
@@ -3653,6 +3822,7 @@ uint16x8_t vreinterpretq_u16_s64(int64x2_t a)	a -> Vd.2D	NOP	Vd.8H -> result	v7/
 uint32x4_t vreinterpretq_u32_s64(int64x2_t a)	a -> Vd.2D	NOP	Vd.4S -> result	v7/A32/A64
 poly8x16_t vreinterpretq_p8_s64(int64x2_t a)	a -> Vd.2D	NOP	Vd.16B -> result	v7/A32/A64
 poly16x8_t vreinterpretq_p16_s64(int64x2_t a)	a -> Vd.2D	NOP	Vd.8H -> result	v7/A32/A64
+mfloat8x16_t vreinterpretq_mf8_s64(int64x2_t a)	a -> Vd.2D	NOP	Vd.16B -> result	A64
 uint64x2_t vreinterpretq_u64_s64(int64x2_t a)	a -> Vd.2D	NOP	Vd.2D -> result	v7/A32/A64
 uint64x2_t vreinterpretq_u64_p64(poly64x2_t a)	a -> Vd.2D	NOP	Vd.2D -> result	A32/A64
 float16x8_t vreinterpretq_f16_s64(int64x2_t a)	a -> Vd.2D	NOP	Vd.8H -> result	v7/A32/A64
@@ -3665,6 +3835,7 @@ uint16x8_t vreinterpretq_u16_f16(float16x8_t a)	a -> Vd.8H	NOP	Vd.8H -> result	v
 uint32x4_t vreinterpretq_u32_f16(float16x8_t a)	a -> Vd.8H	NOP	Vd.4S -> result	v7/A32/A64
 poly8x16_t vreinterpretq_p8_f16(float16x8_t a)	a -> Vd.8H	NOP	Vd.16B -> result	v7/A32/A64
 poly16x8_t vreinterpretq_p16_f16(float16x8_t a)	a -> Vd.8H	NOP	Vd.8H -> result	v7/A32/A64
+mfloat8x16_t vreinterpretq_mf8_f16(float16x8_t a)	a -> Vd.8H	NOP	Vd.16B -> result	A64
 uint64x2_t vreinterpretq_u64_f16(float16x8_t a)	a -> Vd.8H	NOP	Vd.2D -> result	v7/A32/A64
 int64x2_t vreinterpretq_s64_f16(float16x8_t a)	a -> Vd.8H	NOP	Vd.2D -> result	v7/A32/A64
 float64x2_t vreinterpretq_f64_f16(float16x8_t a)	a -> Vd.8H	NOP	Vd.2D -> result	A64
@@ -3678,6 +3849,7 @@ uint16x4_t vreinterpret_u16_f64(float64x1_t a)	a -> Vd.1D	NOP	Vd.4H -> result	A6
 uint32x2_t vreinterpret_u32_f64(float64x1_t a)	a -> Vd.1D	NOP	Vd.2S -> result	A64
 poly8x8_t vreinterpret_p8_f64(float64x1_t a)	a -> Vd.1D	NOP	Vd.8B -> result	A64
 poly16x4_t vreinterpret_p16_f64(float64x1_t a)	a -> Vd.1D	NOP	Vd.4H -> result	A64
+mfloat8x8_t vreinterpret_mf8_f64(float64x1_t a)	a -> Vd.1D	NOP	Vd.8B -> result	A64
 uint64x1_t vreinterpret_u64_f64(float64x1_t a)	a -> Vd.1D	NOP	Vd.1D -> result	A64
 int64x1_t vreinterpret_s64_f64(float64x1_t a)	a -> Vd.1D	NOP	Vd.1D -> result	A64
 float16x4_t vreinterpret_f16_f64(float64x1_t a)	a -> Vd.1D	NOP	Vd.4H -> result	A64
@@ -3690,6 +3862,7 @@ uint16x8_t vreinterpretq_u16_f64(float64x2_t a)	a -> Vd.2D	NOP	Vd.8H -> result	A
 uint32x4_t vreinterpretq_u32_f64(float64x2_t a)	a -> Vd.2D	NOP	Vd.4S -> result	A64
 poly8x16_t vreinterpretq_p8_f64(float64x2_t a)	a -> Vd.2D	NOP	Vd.16B -> result	A64
 poly16x8_t vreinterpretq_p16_f64(float64x2_t a)	a -> Vd.2D	NOP	Vd.8H -> result	A64
+mfloat8x16_t vreinterpretq_mf8_f64(float64x2_t a)	a -> Vd.2D	NOP	Vd.16B -> result	A64
 uint64x2_t vreinterpretq_u64_f64(float64x2_t a)	a -> Vd.2D	NOP	Vd.2D -> result	A64
 int64x2_t vreinterpretq_s64_f64(float64x2_t a)	a -> Vd.2D	NOP	Vd.2D -> result	A64
 float16x8_t vreinterpretq_f16_f64(float64x2_t a)	a -> Vd.2D	NOP	Vd.8H -> result	A64
@@ -3702,6 +3875,7 @@ uint16x4_t vreinterpret_u16_p64(poly64x1_t a)	a -> Vd.1D	NOP	Vd.4H -> result	A32
 uint32x2_t vreinterpret_u32_p64(poly64x1_t a)	a -> Vd.1D	NOP	Vd.2S -> result	A32/A64
 poly8x8_t vreinterpret_p8_p64(poly64x1_t a)	a -> Vd.1D	NOP	Vd.8B -> result	A32/A64
 poly16x4_t vreinterpret_p16_p64(poly64x1_t a)	a -> Vd.1D	NOP	Vd.4H -> result	A32/A64
+mfloat8x8_t vreinterpret_mf8_p64(poly64x1_t a)	a -> Vd.1D	NOP	Vd.8B -> result	A32/A64
 int64x1_t vreinterpret_s64_p64(poly64x1_t a)	a -> Vd.1D	NOP	Vd.1D -> result	A32/A64
 float64x1_t vreinterpret_f64_p64(poly64x1_t a)	a -> Vd.1D	NOP	Vd.1D -> result	A64
 float16x4_t vreinterpret_f16_p64(poly64x1_t a)	a -> Vd.1D	NOP	Vd.4H -> result	A32/A64
@@ -3713,6 +3887,7 @@ uint16x8_t vreinterpretq_u16_p64(poly64x2_t a)	a -> Vd.2D	NOP	Vd.8H -> result	A3
 uint32x4_t vreinterpretq_u32_p64(poly64x2_t a)	a -> Vd.2D	NOP	Vd.4S -> result	A32/A64
 poly8x16_t vreinterpretq_p8_p64(poly64x2_t a)	a -> Vd.2D	NOP	Vd.16B -> result	A32/A64
 poly16x8_t vreinterpretq_p16_p64(poly64x2_t a)	a -> Vd.2D	NOP	Vd.8H -> result	A32/A64
+mfloat8x16_t vreinterpretq_mf8_p64(poly64x2_t a)	a -> Vd.2D	NOP	Vd.16B -> result	A64
 int64x2_t vreinterpretq_s64_p64(poly64x2_t a)	a -> Vd.2D	NOP	Vd.2D -> result	A32/A64
 float64x2_t vreinterpretq_f64_p64(poly64x2_t a)	a -> Vd.2D	NOP	Vd.2D -> result	A64
 float16x8_t vreinterpretq_f16_p64(poly64x2_t a)	a -> Vd.2D	NOP	Vd.8H -> result	A32/A64
@@ -3724,10 +3899,15 @@ uint16x8_t vreinterpretq_u16_p128(poly128_t a)	a -> Vd.1Q	NOP	Vd.8H -> result	A3
 uint32x4_t vreinterpretq_u32_p128(poly128_t a)	a -> Vd.1Q	NOP	Vd.4S -> result	A32/A64
 poly8x16_t vreinterpretq_p8_p128(poly128_t a)	a -> Vd.1Q	NOP	Vd.16B -> result	A32/A64
 poly16x8_t vreinterpretq_p16_p128(poly128_t a)	a -> Vd.1Q	NOP	Vd.8H -> result	A32/A64
+mfloat8x16_t vreinterpretq_mf8_p128(poly128_t a)	a -> Vd.1Q	NOP	Vd.16B -> result	A64
 uint64x2_t vreinterpretq_u64_p128(poly128_t a)	a -> Vd.1Q	NOP	Vd.2D -> result	A32/A64
 int64x2_t vreinterpretq_s64_p128(poly128_t a)	a -> Vd.1Q	NOP	Vd.2D -> result	A32/A64
 float64x2_t vreinterpretq_f64_p128(poly128_t a)	a -> Vd.1Q	NOP	Vd.2D -> result	A64
 float16x8_t vreinterpretq_f16_p128(poly128_t a)	a -> Vd.1Q	NOP	Vd.8H -> result	A32/A64
+mfloat8x8_t vreinterpret_mf8_u8(uint8x8_t a)	a -> Vd.8B	NOP	Vd.8B -> result	A64
+mfloat8x16_t vreinterpretq_mf8_u8(uint8x16_t a)	a -> Vd.16B	NOP	Vd.16B -> result	A64
+uint8x8_t vreinterpret_u8_mf8(mfloat8x8_t a)	a -> Vd.8B	NOP	Vd.8B -> result	A64
+uint8x16_t vreinterpretq_u8_mf8(mfloat8x16_t a)	a -> Vd.16B	NOP	Vd.16B -> result	A64
 poly128_t vldrq_p128(poly128_t const *ptr)	ptr -> Xn	LDR Qd,[Xn]	Qd -> result	A32/A64
 void vstrq_p128(poly128_t *ptr, poly128_t val)	val -> Qt;ptr -> Xn	STR Qt,[Xn]		A32/A64
 
@@ -4470,6 +4650,7 @@ bfloat16x4_t vreinterpret_bf16_u16(uint16x4_t a)	a -> Vd.4H	NOP	Vd.4H -> result
 bfloat16x4_t vreinterpret_bf16_u32(uint32x2_t a)	a -> Vd.2S	NOP	Vd.4H -> result	A32/A64
 bfloat16x4_t vreinterpret_bf16_p8(poly8x8_t a)	a -> Vd.8B	NOP	Vd.4H -> result	A32/A64
 bfloat16x4_t vreinterpret_bf16_p16(poly16x4_t a)	a -> Vd.4H	NOP	Vd.4H -> result	A32/A64
+bfloat16x4_t vreinterpret_bf16_mf8(mfloat8x8_t a)	a -> Vd.8B	NOP	Vd.4H -> result	A64
 bfloat16x4_t vreinterpret_bf16_u64(uint64x1_t a)	a -> Vd.1D	NOP	Vd.4H -> result	A32/A64
 bfloat16x4_t vreinterpret_bf16_s64(int64x1_t a)	a -> Vd.1D	NOP	Vd.4H -> result	A32/A64
 bfloat16x8_t vreinterpretq_bf16_s8(int8x16_t a)	a -> Vd.16B	NOP	Vd.8H -> result	A32/A64
@@ -4481,6 +4662,7 @@ bfloat16x8_t vreinterpretq_bf16_u16(uint16x8_t a)	a -> Vd.8H	NOP	Vd.8H -> result
 bfloat16x8_t vreinterpretq_bf16_u32(uint32x4_t a)	a -> Vd.4S	NOP	Vd.8H -> result	A32/A64
 bfloat16x8_t vreinterpretq_bf16_p8(poly8x16_t a)	a -> Vd.16B	NOP	Vd.8H -> result	A32/A64
 bfloat16x8_t vreinterpretq_bf16_p16(poly16x8_t a)	a -> Vd.8H	NOP	Vd.8H -> result	A32/A64
+bfloat16x8_t vreinterpretq_bf16_mf8(mfloat8x16_t a)	a -> Vd.16B	NOP	Vd.8H -> result	A64
 bfloat16x8_t vreinterpretq_bf16_u64(uint64x2_t a)	a -> Vd.2D	NOP	Vd.8H -> result	A32/A64
 bfloat16x8_t vreinterpretq_bf16_s64(int64x2_t a)	a -> Vd.2D	NOP	Vd.8H -> result	A32/A64
 bfloat16x4_t vreinterpret_bf16_f64(float64x1_t a)	a -> Vd.1D	NOP	Vd.4H -> result	A64
@@ -4498,6 +4680,7 @@ uint16x4_t vreinterpret_u16_bf16(bfloat16x4_t a)	a -> Vd.4H	NOP	Vd.4H -> result
 uint32x2_t vreinterpret_u32_bf16(bfloat16x4_t a)	a -> Vd.4H	NOP	Vd.2S -> result	A32/A64
 poly8x8_t vreinterpret_p8_bf16(bfloat16x4_t a)	a -> Vd.4H	NOP	Vd.8B -> result	A32/A64
 poly16x4_t vreinterpret_p16_bf16(bfloat16x4_t a)	a -> Vd.4H	NOP	Vd.4H -> result	A32/A64
+mfloat8x8_t vreinterpret_mf8_bf16(bfloat16x4_t a)	a -> Vd.4H	NOP	Vd.8B -> result	A64
 uint64x1_t vreinterpret_u64_bf16(bfloat16x4_t a)	a -> Vd.4H	NOP	Vd.1D -> result	A32/A64
 int64x1_t vreinterpret_s64_bf16(bfloat16x4_t a)	a -> Vd.4H	NOP	Vd.1D -> result	A32/A64
 float64x1_t vreinterpret_f64_bf16(bfloat16x4_t a)	a -> Vd.4H	NOP	Vd.1D -> result	A64
@@ -4511,6 +4694,7 @@ uint16x8_t vreinterpretq_u16_bf16(bfloat16x8_t a)	a -> Vd.8H	NOP	Vd.8H -> result
 uint32x4_t vreinterpretq_u32_bf16(bfloat16x8_t a)	a -> Vd.8H	NOP	Vd.4S -> result	A32/A64
 poly8x16_t vreinterpretq_p8_bf16(bfloat16x8_t a)	a -> Vd.8H	NOP	Vd.16B -> result	A32/A64
 poly16x8_t vreinterpretq_p16_bf16(bfloat16x8_t a)	a -> Vd.8H	NOP	Vd.8H -> result	A32/A64
+mfloat8x16_t vreinterpretq_mf8_bf16(bfloat16x8_t a)	a -> Vd.8H	NOP	Vd.16B -> result	A64
 uint64x2_t vreinterpretq_u64_bf16(bfloat16x8_t a)	a -> Vd.8H	NOP	Vd.2D -> result	A32/A64
 int64x2_t vreinterpretq_s64_bf16(bfloat16x8_t a)	a -> Vd.8H	NOP	Vd.2D -> result	A32/A64
 float64x2_t vreinterpretq_f64_bf16(bfloat16x8_t a)	a -> Vd.8H	NOP	Vd.2D -> result	A64
@@ -4547,4 +4731,70 @@ float32x4_t vbfmlaltq_f32(float32x4_t r, bfloat16x8_t a, bfloat16x8_t b)	r -> Vd
 float32x4_t vbfmlalbq_lane_f32(float32x4_t r, bfloat16x8_t a, bfloat16x4_t b, __builtin_constant_p(lane))	r -> Vd.4S;a -> Vn.8H;b -> Vm.4H;0 <= lane <= 3	BFMLALB Vd.4S,Vn.8H,Vm.H[lane]	Vd.4S -> result	A32/A64
 float32x4_t vbfmlalbq_laneq_f32(float32x4_t r, bfloat16x8_t a, bfloat16x8_t b, __builtin_constant_p(lane))	r -> Vd.4S;a -> Vn.8H;b -> Vm.8H;0 <= lane <= 7	BFMLALB Vd.4S,Vn.8H,Vm.H[lane]	Vd.4S -> result	A32/A64
 float32x4_t vbfmlaltq_lane_f32(float32x4_t r, bfloat16x8_t a, bfloat16x4_t b, __builtin_constant_p(lane))	r -> Vd.4S;a -> Vn.8H;b -> Vm.4H;0 <= lane <= 3	BFMLALT Vd.4S,Vn.8H,Vm.H[lane]	Vd.4S -> result	A32/A64
-float32x4_t vbfmlaltq_laneq_f32(float32x4_t r, bfloat16x8_t a, bfloat16x8_t b, __builtin_constant_p(lane))	r -> Vd.4S;a -> Vn.8H;b -> Vm.8H;0 <= lane <= 7	BFMLALT Vd.4S,Vn.8H,Vm.H[lane]	Vd.4S -> result	A32/A64
\ No newline at end of file
+float32x4_t vbfmlaltq_laneq_f32(float32x4_t r, bfloat16x8_t a, bfloat16x8_t b, __builtin_constant_p(lane))	r -> Vd.4S;a -> Vn.8H;b -> Vm.8H;0 <= lane <= 7	BFMLALT Vd.4S,Vn.8H,Vm.H[lane]	Vd.4S -> result	A32/A64
+<SECTION>	Modal 8-bit floating-point intrinsics
+bfloat16x8_t vcvt1_bf16_mf8_fpm(mfloat8x8_t vn, fpm_t fpm)	vn -> Vn.8B	BF1CVTL Vd.8H,Vn.8B	Vd.8H -> result	A64
+bfloat16x8_t vcvt1_low_bf16_mf8_fpm(mfloat8x16_t vn, fpm_t fpm)	vn -> Vn.8B	BF1CVTL Vd.8H,Vn.8B	Vd.8H -> result	A64
+bfloat16x8_t vcvt2_bf16_mf8_fpm(mfloat8x8_t vn, fpm_t fpm)	vn -> Vn.8B	BF2CVTL Vd.8H,Vn.8B	Vd.8H -> result	A64
+bfloat16x8_t vcvt2_low_bf16_mf8_fpm(mfloat8x16_t vn, fpm_t fpm)	vn -> Vn.8B	BF2CVTL Vd.8H,Vn.8B	Vd.8H -> result	A64
+
+bfloat16x8_t vcvt1_high_bf16_mf8_fpm(mfloat8x16_t vn, fpm_t fpm)	vn -> Vn.16B	BF1CVTL2 Vd.8H,Vn.16B	Vd.8H -> result	A64
+bfloat16x8_t vcvt2_high_bf16_mf8_fpm(mfloat8x16_t vn, fpm_t fpm)	vn -> Vn.16B	BF2CVTL2 Vd.8H,Vn.16B	Vd.8H -> result	A64
+
+float16x8_t vcvt1_f16_mf8_fpm(mfloat8x8_t vn, fpm_t fpm)	vn -> Vn.8B	F1CVTL Vd.8H,Vn.8B	Vd.8H -> result	A64
+float16x8_t vcvt1_low_f16_mf8_fpm(mfloat8x16_t vn, fpm_t fpm)	vn -> Vn.8B	F1CVTL Vd.8H,Vn.8B	Vd.8H -> result	A64
+float16x8_t vcvt2_f16_mf8_fpm(mfloat8x8_t vn, fpm_t fpm)	vn -> Vn.8B	F2CVTL Vd.8H,Vn.8B	Vd.8H -> result	A64
+float16x8_t vcvt2_low_f16_mf8_fpm(mfloat8x16_t vn, fpm_t fpm)	vn -> Vn.8B	F2CVTL Vd.8H,Vn.8B	Vd.8H -> result	A64
+
+float16x8_t vcvt1_high_f16_mf8_fpm(mfloat8x16_t vn, fpm_t fpm)	vn -> Vn.16B	F1CVTL2 Vd.8H,Vn.16B	Vd.8H -> result	A64
+float16x8_t vcvt2_high_f16_mf8_fpm(mfloat8x16_t vn, fpm_t fpm)	vn -> Vn.16B	F2CVTL2 Vd.8H,Vn.16B	Vd.8H -> result	A64
+
+mfloat8x8_t vcvt_mf8_f32_fpm(float32x4_t vn, float32x4_t vm, fpm_t fpm)	vn -> Vn.4S;vm -> Vm.4S	FCVTN Vd.8B, Vn.4S, Vm.4S	Vd.8B -> result	A64
+mfloat8x16_t vcvt_high_mf8_f32_fpm(mfloat8x8_t vd, float32x4_t vn, float32x4_t vm, fpm_t fpm)	vn -> Vn.4S;vm -> Vm.4S	FCVTN2 Vd.16B, Vn.4S, Vm.4S	Vd.16B -> result	A64
+
+mfloat8x8_t vcvt_mf8_f16_fpm(float16x4_t vn, float16x4_t vm, fpm_t fpm)	vn -> Vn.4H;vm -> Vm.4H	FCVTN Vd.8B, Vn.4H, Vm.4H	Vd.8B -> result	A64
+mfloat8x16_t vcvtq_mf8_f16_fpm(float16x8_t vn, float16x8_t vm, fpm_t fpm)	vn -> Vn.8H;vm -> Vm.8H	FCVTN Vd.16B, Vn.8H, Vm.8H	Vd.16B -> result	A64
+
+float16x4_t vscale_f16(float16x4_t vn, int16x4_t vm)	vn -> Vn.4H;vm -> Vm.4H	FSCALE Vd.4H, Vn.4H, Vm.4H	Vd.4H -> result	A64
+float16x8_t vscaleq_f16(float16x8_t vn, int16x8_t vm)	vn -> Vn.8H;vm -> Vm.8H	FSCALE Vd.8H, Vn.8H, Vm.8H	Vd.8H -> result	A64
+float32x2_t vscale_f32(float32x2_t vn, int32x2_t vm)	vn -> Vn.2S;vm -> Vm.2S	FSCALE Vd.2S, Vn.2S, Vm.2S	Vd.2S -> result	A64
+float32x4_t vscaleq_f32(float32x4_t vn, int32x4_t vm)	vn -> Vn.4S;vm -> Vm.4S	FSCALE Vd.4S, Vn.4S, Vm.4S	Vd.4S -> result	A64
+float64x2_t vscaleq_f64(float64x2_t vn, int64x2_t vm)	vn -> Vn.2D;vm -> Vm.2D	FSCALE Vd.2D, Vn.2D, Vm.2D	Vd.2D -> result	A64
+
+float32x2_t vdot_f32_mf8_fpm(float32x2_t vd, mfloat8x8_t vn, mfloat8x8_t vm, fpm_t fpm)	vd -> Vd.2S;vn -> Vn.8B;vm -> Vm.8B	FDOT Vd.2S, Vn.8B, Vm.8B	Vd.2S -> result	A64
+float32x4_t vdotq_f32_mf8_fpm(float32x4_t vd, mfloat8x16_t vn, mfloat8x16_t vm, fpm_t fpm)	vd -> Vd.4S;vn -> Vn.16B;vm -> Vm.16B	FDOT Vd.4S, Vn.16B, Vm.16B	Vd.4S -> result	A64
+
+float32x2_t vdot_lane_f32_mf8_fpm(float32x2_t vd, mfloat8x8_t vn, mfloat8x8_t vm, __builtin_constant_p(lane), fpm_t fpm)	vd -> Vd.2S;vn -> Vn.8B;vm -> Vm.4B;0 <= lane <= 1	FDOT Vd.2S, Vn.8B, Vm.4B[lane]	Vd.2S -> result	A64
+float32x2_t vdot_laneq_f32_mf8_fpm(float32x2_t vd, mfloat8x8_t vn, mfloat8x16_t vm, __builtin_constant_p(lane), fpm_t fpm)	vd -> Vd.2S;vn -> Vn.16B;vm -> Vm.4B;0 <= lane <= 3	FDOT Vd.2S, Vn.8B, Vm.4B[lane]	Vd.2S -> result	A64
+float32x4_t vdotq_lane_f32_mf8_fpm(float32x4_t vd, mfloat8x16_t vn, mfloat8x8_t vm, __builtin_constant_p(lane), fpm_t fpm)	vd -> Vd.4S;vn -> Vn.8B;vm -> Vm.4B;0 <= lane <= 1	FDOT Vd.4S, Vn.8B, Vm.4B[lane]	Vd.4S -> result	A64
+float32x4_t vdotq_laneq_f32_mf8_fpm(float32x4_t vd, mfloat8x16_t vn, mfloat8x16_t vm, __builtin_constant_p(lane), fpm_t fpm)	vd -> Vd.4S;vn -> Vn.16;vm -> Vm.4B;0 <= lane <= 3	FDOT Vd.4S, Vn.8B, Vm.4B[lane]	Vd.4SB -> result	A64
+
+float16x4_t vdot_f16_mf8_fpm(float16x4_t vd, mfloat8x8_t vn, mfloat8x8_t vm, fpm_t fpm)	vd -> Vd.4H;vn -> Vn.8B;vm -> Vm.8B	FDOT Vd.4H, Vn.8B, Vm.8B	Vd.4H -> result	A64
+float16x8_t vdotq_f16_mf8_fpm(float16x8_t vd, mfloat8x16_t vn, mfloat8x16_t vm, fpm_t fpm)	vd -> Vd.8H;vn -> Vn.16B;vm -> Vm.16B	FDOT Vd.8H, Vn.16B, Vm.16B	Vd.8H -> result	A64
+
+float16x4_t vdot_lane_f16_mf8_fpm(float16x4_t vd, mfloat8x8_t vn, mfloat8x8_t vm, __builtin_constant_p(lane), fpm_t fpm)	vd -> Vd.4H;vn -> Vn.8B;vm -> Vm.2B;0 <= lane <= 3	FDOT Vd.4H, Vn.8B, Vm.2B[lane]	Vd.4H -> result	A64
+float16x4_t vdot_laneq_f16_mf8_fpm(float16x4_t vd, mfloat8x8_t vn, mfloat8x16_t vm, __builtin_constant_p(lane), fpm_t fpm)	vd -> Vd.4H;vn -> Vn.8B;vm -> Vm.2B;0 <= lane <= 7	FDOT Vd.4H, Vn.8B, Vm.2B[lane]	Vd.4H -> result	A64
+float16x8_t vdotq_lane_f16_mf8_fpm(float16x8_t vd, mfloat8x16_t vn, mfloat8x8_t vm, __builtin_constant_p(lane), fpm_t fpm)	vd -> Vd.8H;vn -> Vn.16B;vm -> Vm.2B;0 <= lane <= 3	FDOT Vd.8H, Vn.16B, Vm.2B[lane]	Vd.8H -> result	A64
+float16x8_t vdotq_laneq_f16_mf8_fpm(float16x8_t vd, mfloat8x16_t vn, mfloat8x16_t vm, __builtin_constant_p(lane), fpm_t fpm)	vd -> Vd.8H;vn -> Vn.16B;vm -> Vm.2B;0 <= lane <= 7	FDOT Vd.8H, Vn.16B, Vm.2B[lane]	Vd.8H -> result	A64
+
+float16x8_t vmlalbq_f16_mf8_fpm(float16x8_t vd, mfloat8x16_t vn, mfloat8x16_t vm, fpm_t fpm)	vd -> Vd.8H;vn -> Vn.16B;vm -> Vm.16B	FMLALB Vd.8H, Vn.16B, Vm.16B	Vd.8H -> result	A64
+float16x8_t vmlaltq_f16_mf8_fpm(float16x8_t vd, mfloat8x16_t vn, mfloat8x16_t vm, fpm_t fpm)	vd -> Vd.8H;vn -> Vn.16B;vm -> Vm.16B	FMLALT Vd.8H, Vn.16B, Vm.16B	Vd.8H -> result	A64
+
+float16x8_t vmlalbq_lane_f16_mf8_fpm(float16x8_t vd, mfloat8x16_t vn, mfloat8x8_t vm, __builtin_constant_p(lane), fpm_t fpm)	vd -> Vd.8H;vn -> Vn.16B;vm -> Vm.B;0 <= lane <= 7	FMLALB Vd.8H, Vn.16B, Vm.B[lane]	Vd.8H -> result	A64
+float16x8_t vmlalbq_laneq_f16_mf8_fpm(float16x8_t vd, mfloat8x16_t vn, mfloat8x16_t vm, __builtin_constant_p(lane), fpm_t fpm)	vd -> Vd.8H;vn -> Vn.16B;vm -> Vm.B;0 <= lane <= 15	FMLALB Vd.8H, Vn.16B, Vm.B[lane]	Vd.8H -> result	A64
+float16x8_t vmlaltq_lane_f16_mf8_fpm(float16x8_t vd, mfloat8x16_t vn, mfloat8x8_t vm, __builtin_constant_p(lane), fpm_t fpm)	vd -> Vd.8H;vn -> Vn.16B;vm -> Vm.B;0 <= lane <= 7	FMLALT Vd.8H, Vn.16B, Vm.B[lane]	Vd.8H -> result	A64
+float16x8_t vmlaltq_laneq_f16_mf8_fpm(float16x8_t vd, mfloat8x16_t vn, mfloat8x16_t vm, __builtin_constant_p(lane), fpm_t fpm)	vd -> Vd.8H;vn -> Vn.16B;vm -> Vm.B;0 <= lane <= 15	FMLALT Vd.8H, Vn.16B, Vm.B[lane]	Vd.8H -> result	A64
+
+float32x4_t vmlallbbq_f32_mf8_fpm(float32x4_t vd, mfloat8x16_t vn, mfloat8x16_t vm, fpm_t fpm)	vd -> Vd.4S;vn -> Vn.16B;vm -> Vm.16B	FMLALLBB Vd.4S, Vn.16B, Vm.16B	Vd.4S -> result	A64
+float32x4_t vmlallbtq_f32_mf8_fpm(float32x4_t vd, mfloat8x16_t vn, mfloat8x16_t vm, fpm_t fpm)	vd -> Vd.4S;vn -> Vn.16B;vm -> Vm.16B	FMLALLBT Vd.4S, Vn.16B, Vm.16B	Vd.4S -> result	A64
+float32x4_t vmlalltbq_f32_mf8_fpm(float32x4_t vd, mfloat8x16_t vn, mfloat8x16_t vm, fpm_t fpm)	vd -> Vd.4S;vn -> Vn.16B;vm -> Vm.16B	FMLALLTB Vd.4S, Vn.16B, Vm.16B	Vd.4S -> result	A64
+float32x4_t vmlallttq_f32_mf8_fpm(float32x4_t vd, mfloat8x16_t vn, mfloat8x16_t vm, fpm_t fpm)	vd -> Vd.4S;vn -> Vn.16B;vm -> Vm.16B	FMLALLTT Vd.4S, Vn.16B, Vm.16B	Vd.4S -> result	A64
+
+float32x4_t vmlallbbq_lane_f32_mf8_fpm(float32x4_t vd, mfloat8x16_t vn, mfloat8x8_t vm, __builtin_constant_p(lane), fpm_t fpm)	vd -> Vd.4S;vm -> Vn.16B; vm -> Vm.B; 0 <= lane <= 7	FMLALLBB Vd.4S, Vn.16B, Vm.B[lane]	Vd.4S -> result	A64
+float32x4_t vmlallbbq_laneq_f32_mf8_fpm(float32x4_t vd, mfloat8x16_t vn, mfloat8x16_t vm, __builtin_constant_p(lane), fpm_t fpm)	vd -> Vd.4S;vm -> Vn.16B; vm -> Vm.B; 0 <= lane <= 15	FMLALLBB Vd.4S, Vn.16B, Vm.B[lane]	Vd.4S -> result	A64
+float32x4_t vmlallbtq_lane_f32_mf8_fpm(float32x4_t vd, mfloat8x16_t vn, mfloat8x8_t vm, __builtin_constant_p(lane), fpm_t fpm)	vd -> Vd.4S;vm -> Vn.16B; vm -> Vm.B; 0 <= lane <= 7	FMLALLBB Vd.4S, Vn.16B, Vm.B[lane]	Vd.4S -> result	A64
+float32x4_t vmlallbtq_laneq_f32_mf8_fpm(float32x4_t vd, mfloat8x16_t vn, mfloat8x16_t vm, __builtin_constant_p(lane), fpm_t fpm)	vd -> Vd.4S;vm -> Vn.16B; vm -> Vm.B; 0 <= lane <= 15	FMLALLBB Vd.4S, Vn.16B, Vm.B[lane]	Vd.4S -> result	A64
+float32x4_t vmlalltbq_lane_f32_mf8_fpm(float32x4_t vd, mfloat8x16_t vn, mfloat8x8_t vm, __builtin_constant_p(lane), fpm_t fpm)	vd -> Vd.4S;vm -> Vn.16B; vm -> Vm.B; 0 <= lane <= 7	FMLALLBB Vd.4S, Vn.16B, Vm.B[lane]	Vd.4S -> result	A64
+float32x4_t vmlalltbq_laneq_f32_mf8_fpm(float32x4_t vd, mfloat8x16_t vn, mfloat8x16_t vm, __builtin_constant_p(lane), fpm_t fpm)	vd -> Vd.4S;vm -> Vn.16B; vm -> Vm.B; 0 <= lane <= 15	FMLALLBB Vd.4S, Vn.16B, Vm.B[lane]	Vd.4S -> result	A64
+float32x4_t vmlallttq_lane_f32_mf8_fpm(float32x4_t vd, mfloat8x16_t vn, mfloat8x8_t vm, __builtin_constant_p(lane), fpm_t fpm)	vd -> Vd.4S;vm -> Vn.16B; vm -> Vm.B; 0 <= lane <= 7	FMLALLBB Vd.4S, Vn.16B, Vm.B[lane]	Vd.4S -> result	A64
+float32x4_t vmlallttq_laneq_f32_mf8_fpm(float32x4_t vd, mfloat8x16_t vn, mfloat8x16_t vm, __builtin_constant_p(lane), fpm_t fpm)	vd -> Vd.4S;vm -> Vn.16B; vm -> Vm.B; 0 <= lane <= 15	FMLALLBB Vd.4S, Vn.16B, Vm.B[lane]	Vd.4S -> result	A64
diff --git a/tools/intrinsic_db/advsimd_classification.csv b/tools/intrinsic_db/advsimd_classification.csv
index 5a22e518..ddfe70ed 100644
--- a/tools/intrinsic_db/advsimd_classification.csv
+++ b/tools/intrinsic_db/advsimd_classification.csv
@@ -1843,6 +1843,8 @@ vcopy_lane_p8	Vector manipulation|Copy vector lane
 vcopyq_lane_p8	Vector manipulation|Copy vector lane
 vcopy_lane_p16	Vector manipulation|Copy vector lane
 vcopyq_lane_p16	Vector manipulation|Copy vector lane
+vcopy_lane_mf8	Vector manipulation|Copy vector lane
+vcopyq_lane_mf8	Vector manipulation|Copy vector lane
 vcopy_laneq_s8	Vector manipulation|Copy vector lane
 vcopyq_laneq_s8	Vector manipulation|Copy vector lane
 vcopy_laneq_s16	Vector manipulation|Copy vector lane
@@ -1869,6 +1871,8 @@ vcopy_laneq_p8	Vector manipulation|Copy vector lane
 vcopyq_laneq_p8	Vector manipulation|Copy vector lane
 vcopy_laneq_p16	Vector manipulation|Copy vector lane
 vcopyq_laneq_p16	Vector manipulation|Copy vector lane
+vcopy_laneq_mf8	Vector manipulation|Copy vector lane
+vcopyq_laneq_mf8	Vector manipulation|Copy vector lane
 vrbit_s8	Vector manipulation|Reverse bits within elements
 vrbitq_s8	Vector manipulation|Reverse bits within elements
 vrbit_u8	Vector manipulation|Reverse bits within elements
@@ -1889,6 +1893,7 @@ vcreate_f32	Vector manipulation|Create vector
 vcreate_p8	Vector manipulation|Create vector
 vcreate_p16	Vector manipulation|Create vector
 vcreate_f64	Vector manipulation|Create vector
+vcreate_mf8	Vector manipulation|Create vector
 vdup_n_s8	Vector manipulation|Set all lanes to the same value
 vdupq_n_s8	Vector manipulation|Set all lanes to the same value
 vdup_n_s16	Vector manipulation|Set all lanes to the same value
@@ -1915,6 +1920,8 @@ vdup_n_p16	Vector manipulation|Set all lanes to the same value
 vdupq_n_p16	Vector manipulation|Set all lanes to the same value
 vdup_n_f64	Vector manipulation|Set all lanes to the same value
 vdupq_n_f64	Vector manipulation|Set all lanes to the same value
+vdup_n_mf8	Vector manipulation|Set all lanes to the same value
+vdupq_n_mf8	Vector manipulation|Set all lanes to the same value
 vmov_n_s8	Vector manipulation|Set all lanes to the same value
 vmovq_n_s8	Vector manipulation|Set all lanes to the same value
 vmov_n_s16	Vector manipulation|Set all lanes to the same value
@@ -1939,6 +1946,8 @@ vmov_n_p16	Vector manipulation|Set all lanes to the same value
 vmovq_n_p16	Vector manipulation|Set all lanes to the same value
 vmov_n_f64	Vector manipulation|Set all lanes to the same value
 vmovq_n_f64	Vector manipulation|Set all lanes to the same value
+vmov_n_mf8	Vector manipulation|Set all lanes to the same value
+vmovq_n_mf8	Vector manipulation|Set all lanes to the same value
 vdup_lane_s8	Vector manipulation|Set all lanes to the same value
 vdupq_lane_s8	Vector manipulation|Set all lanes to the same value
 vdup_lane_s16	Vector manipulation|Set all lanes to the same value
@@ -1965,6 +1974,8 @@ vdup_lane_p16	Vector manipulation|Set all lanes to the same value
 vdupq_lane_p16	Vector manipulation|Set all lanes to the same value
 vdup_lane_f64	Vector manipulation|Set all lanes to the same value
 vdupq_lane_f64	Vector manipulation|Set all lanes to the same value
+vdup_lane_mf8	Vector manipulation|Set all lanes to the same value
+vdupq_lane_mf8	Vector manipulation|Set all lanes to the same value
 vdup_laneq_s8	Vector manipulation|Set all lanes to the same value
 vdupq_laneq_s8	Vector manipulation|Set all lanes to the same value
 vdup_laneq_s16	Vector manipulation|Set all lanes to the same value
@@ -1991,6 +2002,8 @@ vdup_laneq_p16	Vector manipulation|Set all lanes to the same value
 vdupq_laneq_p16	Vector manipulation|Set all lanes to the same value
 vdup_laneq_f64	Vector manipulation|Set all lanes to the same value
 vdupq_laneq_f64	Vector manipulation|Set all lanes to the same value
+vdup_laneq_mf8	Vector manipulation|Set all lanes to the same value
+vdupq_laneq_mf8	Vector manipulation|Set all lanes to the same value
 vcombine_s8	Vector manipulation|Combine vectors
 vcombine_s16	Vector manipulation|Combine vectors
 vcombine_s32	Vector manipulation|Combine vectors
@@ -2005,6 +2018,7 @@ vcombine_f32	Vector manipulation|Combine vectors
 vcombine_p8	Vector manipulation|Combine vectors
 vcombine_p16	Vector manipulation|Combine vectors
 vcombine_f64	Vector manipulation|Combine vectors
+vcombine_mf8	Vector manipulation|Combine vectors
 vget_high_s8	Vector manipulation|Split vectors
 vget_high_s16	Vector manipulation|Split vectors
 vget_high_s32	Vector manipulation|Split vectors
@@ -2019,6 +2033,7 @@ vget_high_f32	Vector manipulation|Split vectors
 vget_high_p8	Vector manipulation|Split vectors
 vget_high_p16	Vector manipulation|Split vectors
 vget_high_f64	Vector manipulation|Split vectors
+vget_high_mf8	Vector manipulation|Split vectors
 vget_low_s8	Vector manipulation|Split vectors
 vget_low_s16	Vector manipulation|Split vectors
 vget_low_s32	Vector manipulation|Split vectors
@@ -2033,6 +2048,7 @@ vget_low_f32	Vector manipulation|Split vectors
 vget_low_p8	Vector manipulation|Split vectors
 vget_low_p16	Vector manipulation|Split vectors
 vget_low_f64	Vector manipulation|Split vectors
+vget_low_mf8	Vector manipulation|Split vectors
 vdupb_lane_s8	Vector manipulation|Extract one element from vector
 vduph_lane_s16	Vector manipulation|Extract one element from vector
 vdups_lane_s32	Vector manipulation|Extract one element from vector
@@ -2045,6 +2061,7 @@ vdups_lane_f32	Vector manipulation|Extract one element from vector
 vdupd_lane_f64	Vector manipulation|Extract one element from vector
 vdupb_lane_p8	Vector manipulation|Extract one element from vector
 vduph_lane_p16	Vector manipulation|Extract one element from vector
+vdupb_lane_mf8	Vector manipulation|Extract one element from vector
 vdupb_laneq_s8	Vector manipulation|Extract one element from vector
 vduph_laneq_s16	Vector manipulation|Extract one element from vector
 vdups_laneq_s32	Vector manipulation|Extract one element from vector
@@ -2057,6 +2074,7 @@ vdups_laneq_f32	Vector manipulation|Extract one element from vector
 vdupd_laneq_f64	Vector manipulation|Extract one element from vector
 vdupb_laneq_p8	Vector manipulation|Extract one element from vector
 vduph_laneq_p16	Vector manipulation|Extract one element from vector
+vdupb_laneq_mf8	Vector manipulation|Extract one element from vector
 vld1_s8	Load|Stride
 vld1q_s8	Load|Stride
 vld1_s16	Load|Stride
@@ -2085,6 +2103,8 @@ vld1_p16	Load|Stride
 vld1q_p16	Load|Stride
 vld1_f64	Load|Stride
 vld1q_f64	Load|Stride
+vld1_mf8	Load|Stride
+vld1q_mf8	Load|Stride
 vld1_lane_s8	Load|Stride
 vld1q_lane_s8	Load|Stride
 vld1_lane_s16	Load|Stride
@@ -2113,6 +2133,8 @@ vld1_lane_p16	Load|Stride
 vld1q_lane_p16	Load|Stride
 vld1_lane_f64	Load|Stride
 vld1q_lane_f64	Load|Stride
+vld1_lane_mf8	Load|Stride
+vld1q_lane_mf8	Load|Stride
 vldap1q_lane_u64	Load|Stride
 vldap1q_lane_s64	Load|Stride
 vldap1q_lane_f64	Load|Stride
@@ -2157,6 +2179,8 @@ vld1_dup_p16	Load|Stride
 vld1q_dup_p16	Load|Stride
 vld1_dup_f64	Load|Stride
 vld1q_dup_f64	Load|Stride
+vld1_dup_mf8	Load|Stride
+vld1q_dup_mf8	Load|Stride
 vst1_s8	Store|Stride
 vst1q_s8	Store|Stride
 vst1_s16	Store|Stride
@@ -2185,6 +2209,8 @@ vst1_p16	Store|Stride
 vst1q_p16	Store|Stride
 vst1_f64	Store|Stride
 vst1q_f64	Store|Stride
+vst1_mf8	Store|Stride
+vst1q_mf8	Store|Stride
 vst1_lane_s8	Store|Stride
 vst1q_lane_s8	Store|Stride
 vst1_lane_s16	Store|Stride
@@ -2213,6 +2239,8 @@ vst1_lane_p16	Store|Stride
 vst1q_lane_p16	Store|Stride
 vst1_lane_f64	Store|Stride
 vst1q_lane_f64	Store|Stride
+vst1_lane_mf8	Store|Stride
+vst1q_lane_mf8	Store|Stride
 vld2_s8	Load|Stride
 vld2q_s8	Load|Stride
 vld2_s16	Load|Stride
@@ -2241,6 +2269,8 @@ vld2q_u64	Load|Stride
 vld2q_p64	Load|Stride
 vld2_f64	Load|Stride
 vld2q_f64	Load|Stride
+vld2_mf8	Load|Stride
+vld2q_mf8	Load|Stride
 vld3_s8	Load|Stride
 vld3q_s8	Load|Stride
 vld3_s16	Load|Stride
@@ -2269,6 +2299,8 @@ vld3q_u64	Load|Stride
 vld3q_p64	Load|Stride
 vld3_f64	Load|Stride
 vld3q_f64	Load|Stride
+vld3_mf8	Load|Stride
+vld3q_mf8	Load|Stride
 vld4_s8	Load|Stride
 vld4q_s8	Load|Stride
 vld4_s16	Load|Stride
@@ -2297,6 +2329,8 @@ vld4q_u64	Load|Stride
 vld4q_p64	Load|Stride
 vld4_f64	Load|Stride
 vld4q_f64	Load|Stride
+vld4_mf8	Load|Stride
+vld4q_mf8	Load|Stride
 vld2_dup_s8	Load|Stride
 vld2q_dup_s8	Load|Stride
 vld2_dup_s16	Load|Stride
@@ -2325,6 +2359,8 @@ vld2q_dup_u64	Load|Stride
 vld2q_dup_p64	Load|Stride
 vld2_dup_f64	Load|Stride
 vld2q_dup_f64	Load|Stride
+vld2_dup_mf8	Load|Stride
+vld2q_dup_mf8	Load|Stride
 vld3_dup_s8	Load|Stride
 vld3q_dup_s8	Load|Stride
 vld3_dup_s16	Load|Stride
@@ -2353,6 +2389,8 @@ vld3q_dup_u64	Load|Stride
 vld3q_dup_p64	Load|Stride
 vld3_dup_f64	Load|Stride
 vld3q_dup_f64	Load|Stride
+vld3_dup_mf8	Load|Stride
+vld3q_dup_mf8	Load|Stride
 vld4_dup_s8	Load|Stride
 vld4q_dup_s8	Load|Stride
 vld4_dup_s16	Load|Stride
@@ -2381,6 +2419,8 @@ vld4q_dup_u64	Load|Stride
 vld4q_dup_p64	Load|Stride
 vld4_dup_f64	Load|Stride
 vld4q_dup_f64	Load|Stride
+vld4_dup_mf8	Load|Stride
+vld4q_dup_mf8	Load|Stride
 vst2_s8	Store|Stride
 vst2q_s8	Store|Stride
 vst2_s16	Store|Stride
@@ -2409,6 +2449,8 @@ vst2q_u64	Store|Stride
 vst2q_p64	Store|Stride
 vst2_f64	Store|Stride
 vst2q_f64	Store|Stride
+vst2_mf8	Store|Stride
+vst2q_mf8	Store|Stride
 vst3_s8	Store|Stride
 vst3q_s8	Store|Stride
 vst3_s16	Store|Stride
@@ -2437,6 +2479,8 @@ vst3q_u64	Store|Stride
 vst3q_p64	Store|Stride
 vst3_f64	Store|Stride
 vst3q_f64	Store|Stride
+vst3_mf8	Store|Stride
+vst3q_mf8	Store|Stride
 vst4_s8	Store|Stride
 vst4q_s8	Store|Stride
 vst4_s16	Store|Stride
@@ -2465,6 +2509,8 @@ vst4q_u64	Store|Stride
 vst4q_p64	Store|Stride
 vst4_f64	Store|Stride
 vst4q_f64	Store|Stride
+vst4_mf8	Store|Stride
+vst4q_mf8	Store|Stride
 vld2_lane_s16	Load|Stride
 vld2q_lane_s16	Load|Stride
 vld2_lane_s32	Load|Stride
@@ -2493,6 +2539,8 @@ vld2_lane_p64	Load|Stride
 vld2q_lane_p64	Load|Stride
 vld2_lane_f64	Load|Stride
 vld2q_lane_f64	Load|Stride
+vld2_lane_mf8	Load|Stride
+vld2q_lane_mf8	Load|Stride
 vld3_lane_s16	Load|Stride
 vld3q_lane_s16	Load|Stride
 vld3_lane_s32	Load|Stride
@@ -2521,6 +2569,8 @@ vld3_lane_p64	Load|Stride
 vld3q_lane_p64	Load|Stride
 vld3_lane_f64	Load|Stride
 vld3q_lane_f64	Load|Stride
+vld3_lane_mf8	Load|Stride
+vld3q_lane_mf8	Load|Stride
 vld4_lane_s16	Load|Stride
 vld4q_lane_s16	Load|Stride
 vld4_lane_s32	Load|Stride
@@ -2549,15 +2599,20 @@ vld4_lane_p64	Load|Stride
 vld4q_lane_p64	Load|Stride
 vld4_lane_f64	Load|Stride
 vld4q_lane_f64	Load|Stride
+vld4_lane_mf8	Load|Stride
+vld4q_lane_mf8	Load|Stride
 vst2_lane_s8	Store|Stride
 vst2_lane_u8	Store|Stride
 vst2_lane_p8	Store|Stride
+vst2_lane_mf8	Store|Stride
 vst3_lane_s8	Store|Stride
 vst3_lane_u8	Store|Stride
 vst3_lane_p8	Store|Stride
+vst3_lane_mf8	Store|Stride
 vst4_lane_s8	Store|Stride
 vst4_lane_u8	Store|Stride
 vst4_lane_p8	Store|Stride
+vst4_lane_mf8	Store|Stride
 vst2_lane_s16	Store|Stride
 vst2q_lane_s16	Store|Stride
 vst2_lane_s32	Store|Stride
@@ -2583,6 +2638,7 @@ vst2_lane_p64	Store|Stride
 vst2q_lane_p64	Store|Stride
 vst2_lane_f64	Store|Stride
 vst2q_lane_f64	Store|Stride
+vst2q_lane_mf8	Store|Stride
 vst3_lane_s16	Store|Stride
 vst3q_lane_s16	Store|Stride
 vst3_lane_s32	Store|Stride
@@ -2608,6 +2664,7 @@ vst3_lane_p64	Store|Stride
 vst3q_lane_p64	Store|Stride
 vst3_lane_f64	Store|Stride
 vst3q_lane_f64	Store|Stride
+vst3q_lane_mf8	Store|Stride
 vst4_lane_s16	Store|Stride
 vst4q_lane_s16	Store|Stride
 vst4_lane_s32	Store|Stride
@@ -2633,6 +2690,7 @@ vst4_lane_p64	Store|Stride
 vst4q_lane_p64	Store|Stride
 vst4_lane_f64	Store|Stride
 vst4q_lane_f64	Store|Stride
+vst4q_lane_mf8	Store|Stride
 vst1_s8_x2	Store|Stride
 vst1q_s8_x2	Store|Stride
 vst1_s16_x2	Store|Stride
@@ -2661,6 +2719,8 @@ vst1q_u64_x2	Store|Stride
 vst1q_p64_x2	Store|Stride
 vst1_f64_x2	Store|Stride
 vst1q_f64_x2	Store|Stride
+vst1_mf8_x2	Store|Stride
+vst1q_mf8_x2	Store|Stride
 vst1_s8_x3	Store|Stride
 vst1q_s8_x3	Store|Stride
 vst1_s16_x3	Store|Stride
@@ -2689,6 +2749,8 @@ vst1q_u64_x3	Store|Stride
 vst1q_p64_x3	Store|Stride
 vst1_f64_x3	Store|Stride
 vst1q_f64_x3	Store|Stride
+vst1_mf8_x3	Store|Stride
+vst1q_mf8_x3	Store|Stride
 vst1_s8_x4	Store|Stride
 vst1q_s8_x4	Store|Stride
 vst1_s16_x4	Store|Stride
@@ -2717,6 +2779,8 @@ vst1q_u64_x4	Store|Stride
 vst1q_p64_x4	Store|Stride
 vst1_f64_x4	Store|Stride
 vst1q_f64_x4	Store|Stride
+vst1_mf8_x4	Store|Stride
+vst1q_mf8_x4	Store|Stride
 vld1_s8_x2	Load|Stride
 vld1q_s8_x2	Load|Stride
 vld1_s16_x2	Load|Stride
@@ -2745,6 +2809,8 @@ vld1q_u64_x2	Load|Stride
 vld1q_p64_x2	Load|Stride
 vld1_f64_x2	Load|Stride
 vld1q_f64_x2	Load|Stride
+vld1_mf8_x2	Load|Stride
+vld1q_mf8_x2	Load|Stride
 vld1_s8_x3	Load|Stride
 vld1q_s8_x3	Load|Stride
 vld1_s16_x3	Load|Stride
@@ -2773,6 +2839,8 @@ vld1q_u64_x3	Load|Stride
 vld1q_p64_x3	Load|Stride
 vld1_f64_x3	Load|Stride
 vld1q_f64_x3	Load|Stride
+vld1_mf8_x3	Load|Stride
+vld1q_mf8_x3	Load|Stride
 vld1_s8_x4	Load|Stride
 vld1q_s8_x4	Load|Stride
 vld1_s16_x4	Load|Stride
@@ -2801,6 +2869,8 @@ vld1q_u64_x4	Load|Stride
 vld1q_p64_x4	Load|Stride
 vld1_f64_x4	Load|Stride
 vld1q_f64_x4	Load|Stride
+vld1_mf8_x4	Load|Stride
+vld1q_mf8_x4	Load|Stride
 vpadd_s8	Vector arithmetic|Pairwise arithmetic|Pairwise addition
 vpadd_s16	Vector arithmetic|Pairwise arithmetic|Pairwise addition
 vpadd_s32	Vector arithmetic|Pairwise arithmetic|Pairwise addition
@@ -2981,6 +3051,8 @@ vext_p8	Vector manipulation|Extract vector from a pair of vectors
 vextq_p8	Vector manipulation|Extract vector from a pair of vectors
 vext_p16	Vector manipulation|Extract vector from a pair of vectors
 vextq_p16	Vector manipulation|Extract vector from a pair of vectors
+vext_mf8	Vector manipulation|Extract vector from a pair of vectors
+vextq_mf8	Vector manipulation|Extract vector from a pair of vectors
 vrev64_s8	Vector manipulation|Reverse elements
 vrev64q_s8	Vector manipulation|Reverse elements
 vrev64_s16	Vector manipulation|Reverse elements
@@ -2999,6 +3071,8 @@ vrev64_p8	Vector manipulation|Reverse elements
 vrev64q_p8	Vector manipulation|Reverse elements
 vrev64_p16	Vector manipulation|Reverse elements
 vrev64q_p16	Vector manipulation|Reverse elements
+vrev64_mf8	Vector manipulation|Reverse elements
+vrev64q_mf8	Vector manipulation|Reverse elements
 vrev32_s8	Vector manipulation|Reverse elements
 vrev32q_s8	Vector manipulation|Reverse elements
 vrev32_s16	Vector manipulation|Reverse elements
@@ -3011,12 +3085,16 @@ vrev32_p8	Vector manipulation|Reverse elements
 vrev32q_p8	Vector manipulation|Reverse elements
 vrev32_p16	Vector manipulation|Reverse elements
 vrev32q_p16	Vector manipulation|Reverse elements
+vrev32_mf8	Vector manipulation|Reverse elements
+vrev32q_mf8	Vector manipulation|Reverse elements
 vrev16_s8	Vector manipulation|Reverse elements
 vrev16q_s8	Vector manipulation|Reverse elements
 vrev16_u8	Vector manipulation|Reverse elements
 vrev16q_u8	Vector manipulation|Reverse elements
 vrev16_p8	Vector manipulation|Reverse elements
 vrev16q_p8	Vector manipulation|Reverse elements
+vrev16_mf8	Vector manipulation|Reverse elements
+vrev16q_mf8	Vector manipulation|Reverse elements
 vzip1_s8	Vector manipulation|Zip elements
 vzip1q_s8	Vector manipulation|Zip elements
 vzip1_s16	Vector manipulation|Zip elements
@@ -3039,6 +3117,8 @@ vzip1_p8	Vector manipulation|Zip elements
 vzip1q_p8	Vector manipulation|Zip elements
 vzip1_p16	Vector manipulation|Zip elements
 vzip1q_p16	Vector manipulation|Zip elements
+vzip1_mf8	Vector manipulation|Zip elements
+vzip1q_mf8	Vector manipulation|Zip elements
 vzip2_s8	Vector manipulation|Zip elements
 vzip2q_s8	Vector manipulation|Zip elements
 vzip2_s16	Vector manipulation|Zip elements
@@ -3061,6 +3141,8 @@ vzip2_p8	Vector manipulation|Zip elements
 vzip2q_p8	Vector manipulation|Zip elements
 vzip2_p16	Vector manipulation|Zip elements
 vzip2q_p16	Vector manipulation|Zip elements
+vzip2_mf8	Vector manipulation|Zip elements
+vzip2q_mf8	Vector manipulation|Zip elements
 vuzp1_s8	Vector manipulation|Unzip elements
 vuzp1q_s8	Vector manipulation|Unzip elements
 vuzp1_s16	Vector manipulation|Unzip elements
@@ -3083,6 +3165,8 @@ vuzp1_p8	Vector manipulation|Unzip elements
 vuzp1q_p8	Vector manipulation|Unzip elements
 vuzp1_p16	Vector manipulation|Unzip elements
 vuzp1q_p16	Vector manipulation|Unzip elements
+vuzp1_mf8	Vector manipulation|Unzip elements
+vuzp1q_mf8	Vector manipulation|Unzip elements
 vuzp2_s8	Vector manipulation|Unzip elements
 vuzp2q_s8	Vector manipulation|Unzip elements
 vuzp2_s16	Vector manipulation|Unzip elements
@@ -3105,6 +3189,8 @@ vuzp2_p8	Vector manipulation|Unzip elements
 vuzp2q_p8	Vector manipulation|Unzip elements
 vuzp2_p16	Vector manipulation|Unzip elements
 vuzp2q_p16	Vector manipulation|Unzip elements
+vuzp2_mf8	Vector manipulation|Unzip elements
+vuzp2q_mf8	Vector manipulation|Unzip elements
 vtrn1_s8	Vector manipulation|Transpose elements
 vtrn1q_s8	Vector manipulation|Transpose elements
 vtrn1_s16	Vector manipulation|Transpose elements
@@ -3127,6 +3213,8 @@ vtrn1_p8	Vector manipulation|Transpose elements
 vtrn1q_p8	Vector manipulation|Transpose elements
 vtrn1_p16	Vector manipulation|Transpose elements
 vtrn1q_p16	Vector manipulation|Transpose elements
+vtrn1_mf8	Vector manipulation|Transpose elements
+vtrn1q_mf8	Vector manipulation|Transpose elements
 vtrn2_s8	Vector manipulation|Transpose elements
 vtrn2q_s8	Vector manipulation|Transpose elements
 vtrn2_s16	Vector manipulation|Transpose elements
@@ -3149,78 +3237,104 @@ vtrn2_p8	Vector manipulation|Transpose elements
 vtrn2q_p8	Vector manipulation|Transpose elements
 vtrn2_p16	Vector manipulation|Transpose elements
 vtrn2q_p16	Vector manipulation|Transpose elements
+vtrn2_mf8	Vector manipulation|Transpose elements
+vtrn2q_mf8	Vector manipulation|Transpose elements
 vtbl1_s8	Table lookup|Table lookup
 vtbl1_u8	Table lookup|Table lookup
 vtbl1_p8	Table lookup|Table lookup
+vtbl1_mf8	Table lookup|Table lookup
 vtbx1_s8	Table lookup|Table lookup
 vtbx1_u8	Table lookup|Table lookup
 vtbx1_p8	Table lookup|Table lookup
+vtbx1_mf8	Table lookup|Table lookup
 vtbl2_s8	Table lookup|Table lookup
 vtbl2_u8	Table lookup|Table lookup
 vtbl2_p8	Table lookup|Table lookup
+vtbl2_mf8	Table lookup|Table lookup
 vtbl3_s8	Table lookup|Table lookup
 vtbl3_u8	Table lookup|Table lookup
 vtbl3_p8	Table lookup|Table lookup
+vtbl3_mf8	Table lookup|Table lookup
 vtbl4_s8	Table lookup|Table lookup
 vtbl4_u8	Table lookup|Table lookup
 vtbl4_p8	Table lookup|Table lookup
+vtbl4_mf8	Table lookup|Table lookup
 vtbx2_s8	Table lookup|Extended table lookup
 vtbx2_u8	Table lookup|Extended table lookup
 vtbx2_p8	Table lookup|Extended table lookup
+vtbx2_mf8	Table lookup|Extended table lookup
 vtbx3_s8	Table lookup|Extended table lookup
 vtbx3_u8	Table lookup|Extended table lookup
 vtbx3_p8	Table lookup|Extended table lookup
+vtbx3_mf8	Table lookup|Extended table lookup
 vtbx4_s8	Table lookup|Extended table lookup
 vtbx4_u8	Table lookup|Extended table lookup
 vtbx4_p8	Table lookup|Extended table lookup
+vtbx4_mf8	Table lookup|Extended table lookup
 vqtbl1_s8	Table lookup|Table lookup
 vqtbl1q_s8	Table lookup|Table lookup
 vqtbl1_u8	Table lookup|Table lookup
 vqtbl1q_u8	Table lookup|Table lookup
 vqtbl1_p8	Table lookup|Table lookup
 vqtbl1q_p8	Table lookup|Table lookup
+vqtbl1_mf8	Table lookup|Table lookup
+vqtbl1q_mf8	Table lookup|Table lookup
 vqtbx1_s8	Table lookup|Extended table lookup
 vqtbx1q_s8	Table lookup|Extended table lookup
 vqtbx1_u8	Table lookup|Extended table lookup
 vqtbx1q_u8	Table lookup|Extended table lookup
 vqtbx1_p8	Table lookup|Extended table lookup
 vqtbx1q_p8	Table lookup|Extended table lookup
+vqtbx1_mf8	Table lookup|Extended table lookup
+vqtbx1q_mf8	Table lookup|Extended table lookup
 vqtbl2_s8	Table lookup|Table lookup
 vqtbl2q_s8	Table lookup|Table lookup
 vqtbl2_u8	Table lookup|Table lookup
 vqtbl2q_u8	Table lookup|Table lookup
 vqtbl2_p8	Table lookup|Table lookup
 vqtbl2q_p8	Table lookup|Table lookup
+vqtbl2_mf8	Table lookup|Table lookup
+vqtbl2q_mf8	Table lookup|Table lookup
 vqtbl3_s8	Table lookup|Table lookup
 vqtbl3q_s8	Table lookup|Table lookup
 vqtbl3_u8	Table lookup|Table lookup
 vqtbl3q_u8	Table lookup|Table lookup
 vqtbl3_p8	Table lookup|Table lookup
 vqtbl3q_p8	Table lookup|Table lookup
+vqtbl3_mf8	Table lookup|Table lookup
+vqtbl3q_mf8	Table lookup|Table lookup
 vqtbl4_s8	Table lookup|Table lookup
 vqtbl4q_s8	Table lookup|Table lookup
 vqtbl4_u8	Table lookup|Table lookup
 vqtbl4q_u8	Table lookup|Table lookup
 vqtbl4_p8	Table lookup|Table lookup
 vqtbl4q_p8	Table lookup|Table lookup
+vqtbl4_mf8	Table lookup|Table lookup
+vqtbl4q_mf8	Table lookup|Table lookup
 vqtbx2_s8	Table lookup|Extended table lookup
 vqtbx2q_s8	Table lookup|Extended table lookup
 vqtbx2_u8	Table lookup|Extended table lookup
 vqtbx2q_u8	Table lookup|Extended table lookup
 vqtbx2_p8	Table lookup|Extended table lookup
 vqtbx2q_p8	Table lookup|Extended table lookup
+vqtbx2_mf8	Table lookup|Extended table lookup
+vqtbx2q_mf8	Table lookup|Extended table lookup
 vqtbx3_s8	Table lookup|Extended table lookup
 vqtbx3q_s8	Table lookup|Extended table lookup
 vqtbx3_u8	Table lookup|Extended table lookup
 vqtbx3q_u8	Table lookup|Extended table lookup
 vqtbx3_p8	Table lookup|Extended table lookup
 vqtbx3q_p8	Table lookup|Extended table lookup
+vqtbx3_mf8	Table lookup|Extended table lookup
+vqtbx3q_mf8	Table lookup|Extended table lookup
 vqtbx4_s8	Table lookup|Extended table lookup
 vqtbx4q_s8	Table lookup|Extended table lookup
 vqtbx4_u8	Table lookup|Extended table lookup
 vqtbx4q_u8	Table lookup|Extended table lookup
 vqtbx4_p8	Table lookup|Extended table lookup
 vqtbx4q_p8	Table lookup|Extended table lookup
+vqtbx4_mf8	Table lookup|Extended table lookup
+vqtbx4q_mf8	Table lookup|Extended table lookup
 vget_lane_u8	Vector manipulation|Extract one element from vector
 vget_lane_u16	Vector manipulation|Extract one element from vector
 vget_lane_u32	Vector manipulation|Extract one element from vector
@@ -3277,6 +3391,8 @@ vsetq_lane_p8	Vector manipulation|Set vector lane
 vsetq_lane_p16	Vector manipulation|Set vector lane
 vsetq_lane_f32	Vector manipulation|Set vector lane
 vsetq_lane_f64	Vector manipulation|Set vector lane
+vset_lane_mf8	Vector manipulation|Set vector lane
+vsetq_lane_mf8	Vector manipulation|Set vector lane
 vrecpxs_f32	Vector arithmetic|Reciprocal|Reciprocal exponent
 vrecpxd_f64	Vector arithmetic|Reciprocal|Reciprocal exponent
 vfma_n_f32	Scalar arithmetic|Fused multiply-accumulate by scalar
@@ -3296,6 +3412,7 @@ vtrn_p16	Vector manipulation|Transpose elements
 vtrn_s32	Vector manipulation|Transpose elements
 vtrn_f32	Vector manipulation|Transpose elements
 vtrn_u32	Vector manipulation|Transpose elements
+vtrn_mf8	Vector manipulation|Transpose elements
 vtrnq_s8	Vector manipulation|Transpose elements
 vtrnq_s16	Vector manipulation|Transpose elements
 vtrnq_s32	Vector manipulation|Transpose elements
@@ -3305,12 +3422,14 @@ vtrnq_u16	Vector manipulation|Transpose elements
 vtrnq_u32	Vector manipulation|Transpose elements
 vtrnq_p8	Vector manipulation|Transpose elements
 vtrnq_p16	Vector manipulation|Transpose elements
+vtrnq_mf8	Vector manipulation|Transpose elements
 vzip_s8	Vector manipulation|Zip elements
 vzip_s16	Vector manipulation|Zip elements
 vzip_u8	Vector manipulation|Zip elements
 vzip_u16	Vector manipulation|Zip elements
 vzip_p8	Vector manipulation|Zip elements
 vzip_p16	Vector manipulation|Zip elements
+vzip_mf8	Vector manipulation|Zip elements
 vzip_s32	Vector manipulation|Zip elements
 vzip_f32	Vector manipulation|Zip elements
 vzip_u32	Vector manipulation|Zip elements
@@ -3323,6 +3442,7 @@ vzipq_u16	Vector manipulation|Zip elements
 vzipq_u32	Vector manipulation|Zip elements
 vzipq_p8	Vector manipulation|Zip elements
 vzipq_p16	Vector manipulation|Zip elements
+vzipq_mf8	Vector manipulation|Zip elements
 vuzp_s8	Vector manipulation|Unzip elements
 vuzp_s16	Vector manipulation|Unzip elements
 vuzp_s32	Vector manipulation|Unzip elements
@@ -3332,15 +3452,17 @@ vuzp_u16	Vector manipulation|Unzip elements
 vuzp_u32	Vector manipulation|Unzip elements
 vuzp_p8	Vector manipulation|Unzip elements
 vuzp_p16	Vector manipulation|Unzip elements
+vuzp_mf8	Vector manipulation|Unzip elements
 vuzpq_s8	Vector manipulation|Unzip elements
 vuzpq_s16	Vector manipulation|Unzip elements
 vuzpq_s32	Vector manipulation|Unzip elements
 vuzpq_f32	Vector manipulation|Unzip elements
 vuzpq_u8	Vector manipulation|Unzip elements
-vuzpq_u16	Vector manipulation|Unzip elements
+vuzpq_u16	Vector manipulation|Unzip elements`
 vuzpq_u32	Vector manipulation|Unzip elements
 vuzpq_p8	Vector manipulation|Unzip elements
 vuzpq_p16	Vector manipulation|Unzip elements
+vuzpq_mf8	Vector manipulation|Unzip elements
 vreinterpret_s16_s8	Data type conversion|Reinterpret casts
 vreinterpret_s32_s8	Data type conversion|Reinterpret casts
 vreinterpret_f32_s8	Data type conversion|Reinterpret casts
@@ -3349,6 +3471,7 @@ vreinterpret_u16_s8	Data type conversion|Reinterpret casts
 vreinterpret_u32_s8	Data type conversion|Reinterpret casts
 vreinterpret_p8_s8	Data type conversion|Reinterpret casts
 vreinterpret_p16_s8	Data type conversion|Reinterpret casts
+vreinterpret_mf8_s8	Data type conversion|Reinterpret casts
 vreinterpret_u64_s8	Data type conversion|Reinterpret casts
 vreinterpret_s64_s8	Data type conversion|Reinterpret casts
 vreinterpret_f64_s8	Data type conversion|Reinterpret casts
@@ -3362,6 +3485,7 @@ vreinterpret_u16_s16	Data type conversion|Reinterpret casts
 vreinterpret_u32_s16	Data type conversion|Reinterpret casts
 vreinterpret_p8_s16	Data type conversion|Reinterpret casts
 vreinterpret_p16_s16	Data type conversion|Reinterpret casts
+vreinterpret_mf8_s16	Data type conversion|Reinterpret casts
 vreinterpret_u64_s16	Data type conversion|Reinterpret casts
 vreinterpret_s64_s16	Data type conversion|Reinterpret casts
 vreinterpret_f64_s16	Data type conversion|Reinterpret casts
@@ -3375,6 +3499,7 @@ vreinterpret_u16_s32	Data type conversion|Reinterpret casts
 vreinterpret_u32_s32	Data type conversion|Reinterpret casts
 vreinterpret_p8_s32	Data type conversion|Reinterpret casts
 vreinterpret_p16_s32	Data type conversion|Reinterpret casts
+vreinterpret_mf8_s32	Data type conversion|Reinterpret casts
 vreinterpret_u64_s32	Data type conversion|Reinterpret casts
 vreinterpret_s64_s32	Data type conversion|Reinterpret casts
 vreinterpret_f64_s32	Data type conversion|Reinterpret casts
@@ -3388,6 +3513,7 @@ vreinterpret_u16_f32	Data type conversion|Reinterpret casts
 vreinterpret_u32_f32	Data type conversion|Reinterpret casts
 vreinterpret_p8_f32	Data type conversion|Reinterpret casts
 vreinterpret_p16_f32	Data type conversion|Reinterpret casts
+vreinterpret_mf8_f32	Data type conversion|Reinterpret casts
 vreinterpret_u64_f32	Data type conversion|Reinterpret casts
 vreinterpret_s64_f32	Data type conversion|Reinterpret casts
 vreinterpret_f64_f32	Data type conversion|Reinterpret casts
@@ -3402,6 +3528,7 @@ vreinterpret_u16_u8	Data type conversion|Reinterpret casts
 vreinterpret_u32_u8	Data type conversion|Reinterpret casts
 vreinterpret_p8_u8	Data type conversion|Reinterpret casts
 vreinterpret_p16_u8	Data type conversion|Reinterpret casts
+vreinterpret_mf8_u8	Data type conversion|Reinterpret casts
 vreinterpret_u64_u8	Data type conversion|Reinterpret casts
 vreinterpret_s64_u8	Data type conversion|Reinterpret casts
 vreinterpret_f64_u8	Data type conversion|Reinterpret casts
@@ -3415,6 +3542,7 @@ vreinterpret_u8_u16	Data type conversion|Reinterpret casts
 vreinterpret_u32_u16	Data type conversion|Reinterpret casts
 vreinterpret_p8_u16	Data type conversion|Reinterpret casts
 vreinterpret_p16_u16	Data type conversion|Reinterpret casts
+vreinterpret_mf8_u16	Data type conversion|Reinterpret casts
 vreinterpret_u64_u16	Data type conversion|Reinterpret casts
 vreinterpret_s64_u16	Data type conversion|Reinterpret casts
 vreinterpret_f64_u16	Data type conversion|Reinterpret casts
@@ -3428,6 +3556,7 @@ vreinterpret_u8_u32	Data type conversion|Reinterpret casts
 vreinterpret_u16_u32	Data type conversion|Reinterpret casts
 vreinterpret_p8_u32	Data type conversion|Reinterpret casts
 vreinterpret_p16_u32	Data type conversion|Reinterpret casts
+vreinterpret_mf8_u32	Data type conversion|Reinterpret casts
 vreinterpret_u64_u32	Data type conversion|Reinterpret casts
 vreinterpret_s64_u32	Data type conversion|Reinterpret casts
 vreinterpret_f64_u32	Data type conversion|Reinterpret casts
@@ -3446,6 +3575,21 @@ vreinterpret_s64_p8	Data type conversion|Reinterpret casts
 vreinterpret_f64_p8	Data type conversion|Reinterpret casts
 vreinterpret_p64_p8	Data type conversion|Reinterpret casts
 vreinterpret_f16_p8	Data type conversion|Reinterpret casts
+
+vreinterpret_s8_mf8	Data type conversion|Reinterpret casts
+vreinterpret_s16_mf8	Data type conversion|Reinterpret casts
+vreinterpret_s32_mf8	Data type conversion|Reinterpret casts
+vreinterpret_f32_mf8	Data type conversion|Reinterpret casts
+vreinterpret_u8_mf8	Data type conversion|Reinterpret casts
+vreinterpret_u16_mf8	Data type conversion|Reinterpret casts
+vreinterpret_u32_mf8	Data type conversion|Reinterpret casts
+vreinterpret_p16_mf8	Data type conversion|Reinterpret casts
+vreinterpret_u64_mf8	Data type conversion|Reinterpret casts
+vreinterpret_s64_mf8	Data type conversion|Reinterpret casts
+vreinterpret_f64_mf8	Data type conversion|Reinterpret casts
+vreinterpret_p64_mf8	Data type conversion|Reinterpret casts
+vreinterpret_f16_mf8	Data type conversion|Reinterpret casts
+
 vreinterpret_s8_p16	Data type conversion|Reinterpret casts
 vreinterpret_s16_p16	Data type conversion|Reinterpret casts
 vreinterpret_s32_p16	Data type conversion|Reinterpret casts
@@ -3454,6 +3598,7 @@ vreinterpret_u8_p16	Data type conversion|Reinterpret casts
 vreinterpret_u16_p16	Data type conversion|Reinterpret casts
 vreinterpret_u32_p16	Data type conversion|Reinterpret casts
 vreinterpret_p8_p16	Data type conversion|Reinterpret casts
+vreinterpret_mf8_p16	Data type conversion|Reinterpret casts
 vreinterpret_u64_p16	Data type conversion|Reinterpret casts
 vreinterpret_s64_p16	Data type conversion|Reinterpret casts
 vreinterpret_f64_p16	Data type conversion|Reinterpret casts
@@ -3468,6 +3613,7 @@ vreinterpret_u16_u64	Data type conversion|Reinterpret casts
 vreinterpret_u32_u64	Data type conversion|Reinterpret casts
 vreinterpret_p8_u64	Data type conversion|Reinterpret casts
 vreinterpret_p16_u64	Data type conversion|Reinterpret casts
+vreinterpret_mf8_u64	Data type conversion|Reinterpret casts
 vreinterpret_s64_u64	Data type conversion|Reinterpret casts
 vreinterpret_f64_u64	Data type conversion|Reinterpret casts
 vreinterpret_p64_u64	Data type conversion|Reinterpret casts
@@ -3481,6 +3627,7 @@ vreinterpret_u16_s64	Data type conversion|Reinterpret casts
 vreinterpret_u32_s64	Data type conversion|Reinterpret casts
 vreinterpret_p8_s64	Data type conversion|Reinterpret casts
 vreinterpret_p16_s64	Data type conversion|Reinterpret casts
+vreinterpret_mf8_s64	Data type conversion|Reinterpret casts
 vreinterpret_u64_s64	Data type conversion|Reinterpret casts
 vreinterpret_f64_s64	Data type conversion|Reinterpret casts
 vreinterpret_u64_p64	Data type conversion|Reinterpret casts
@@ -3494,6 +3641,7 @@ vreinterpret_u16_f16	Data type conversion|Reinterpret casts
 vreinterpret_u32_f16	Data type conversion|Reinterpret casts
 vreinterpret_p8_f16	Data type conversion|Reinterpret casts
 vreinterpret_p16_f16	Data type conversion|Reinterpret casts
+vreinterpret_mf8_f16	Data type conversion|Reinterpret casts
 vreinterpret_u64_f16	Data type conversion|Reinterpret casts
 vreinterpret_s64_f16	Data type conversion|Reinterpret casts
 vreinterpret_f64_f16	Data type conversion|Reinterpret casts
@@ -3506,6 +3654,7 @@ vreinterpretq_u16_s8	Data type conversion|Reinterpret casts
 vreinterpretq_u32_s8	Data type conversion|Reinterpret casts
 vreinterpretq_p8_s8	Data type conversion|Reinterpret casts
 vreinterpretq_p16_s8	Data type conversion|Reinterpret casts
+vreinterpretq_mf8_s8	Data type conversion|Reinterpret casts
 vreinterpretq_u64_s8	Data type conversion|Reinterpret casts
 vreinterpretq_s64_s8	Data type conversion|Reinterpret casts
 vreinterpretq_f64_s8	Data type conversion|Reinterpret casts
@@ -3520,6 +3669,7 @@ vreinterpretq_u16_s16	Data type conversion|Reinterpret casts
 vreinterpretq_u32_s16	Data type conversion|Reinterpret casts
 vreinterpretq_p8_s16	Data type conversion|Reinterpret casts
 vreinterpretq_p16_s16	Data type conversion|Reinterpret casts
+vreinterpretq_mf8_s16	Data type conversion|Reinterpret casts
 vreinterpretq_u64_s16	Data type conversion|Reinterpret casts
 vreinterpretq_s64_s16	Data type conversion|Reinterpret casts
 vreinterpretq_f64_s16	Data type conversion|Reinterpret casts
@@ -3534,6 +3684,7 @@ vreinterpretq_u16_s32	Data type conversion|Reinterpret casts
 vreinterpretq_u32_s32	Data type conversion|Reinterpret casts
 vreinterpretq_p8_s32	Data type conversion|Reinterpret casts
 vreinterpretq_p16_s32	Data type conversion|Reinterpret casts
+vreinterpretq_mf8_s32	Data type conversion|Reinterpret casts
 vreinterpretq_u64_s32	Data type conversion|Reinterpret casts
 vreinterpretq_s64_s32	Data type conversion|Reinterpret casts
 vreinterpretq_f64_s32	Data type conversion|Reinterpret casts
@@ -3548,6 +3699,7 @@ vreinterpretq_u16_f32	Data type conversion|Reinterpret casts
 vreinterpretq_u32_f32	Data type conversion|Reinterpret casts
 vreinterpretq_p8_f32	Data type conversion|Reinterpret casts
 vreinterpretq_p16_f32	Data type conversion|Reinterpret casts
+vreinterpretq_mf8_f32	Data type conversion|Reinterpret casts
 vreinterpretq_u64_f32	Data type conversion|Reinterpret casts
 vreinterpretq_s64_f32	Data type conversion|Reinterpret casts
 vreinterpretq_f64_f32	Data type conversion|Reinterpret casts
@@ -3564,6 +3716,7 @@ vreinterpretq_u16_u8	Data type conversion|Reinterpret casts
 vreinterpretq_u32_u8	Data type conversion|Reinterpret casts
 vreinterpretq_p8_u8	Data type conversion|Reinterpret casts
 vreinterpretq_p16_u8	Data type conversion|Reinterpret casts
+vreinterpretq_mf8_u8	Data type conversion|Reinterpret casts
 vreinterpretq_u64_u8	Data type conversion|Reinterpret casts
 vreinterpretq_s64_u8	Data type conversion|Reinterpret casts
 vreinterpretq_f64_u8	Data type conversion|Reinterpret casts
@@ -3578,6 +3731,7 @@ vreinterpretq_u8_u16	Data type conversion|Reinterpret casts
 vreinterpretq_u32_u16	Data type conversion|Reinterpret casts
 vreinterpretq_p8_u16	Data type conversion|Reinterpret casts
 vreinterpretq_p16_u16	Data type conversion|Reinterpret casts
+vreinterpretq_mf8_u16	Data type conversion|Reinterpret casts
 vreinterpretq_u64_u16	Data type conversion|Reinterpret casts
 vreinterpretq_s64_u16	Data type conversion|Reinterpret casts
 vreinterpretq_f64_u16	Data type conversion|Reinterpret casts
@@ -3592,6 +3746,7 @@ vreinterpretq_u8_u32	Data type conversion|Reinterpret casts
 vreinterpretq_u16_u32	Data type conversion|Reinterpret casts
 vreinterpretq_p8_u32	Data type conversion|Reinterpret casts
 vreinterpretq_p16_u32	Data type conversion|Reinterpret casts
+vreinterpretq_mf8_u32	Data type conversion|Reinterpret casts
 vreinterpretq_u64_u32	Data type conversion|Reinterpret casts
 vreinterpretq_s64_u32	Data type conversion|Reinterpret casts
 vreinterpretq_f64_u32	Data type conversion|Reinterpret casts
@@ -3612,6 +3767,22 @@ vreinterpretq_f64_p8	Data type conversion|Reinterpret casts
 vreinterpretq_p64_p8	Data type conversion|Reinterpret casts
 vreinterpretq_p128_p8	Data type conversion|Reinterpret casts
 vreinterpretq_f16_p8	Data type conversion|Reinterpret casts
+
+vreinterpretq_s8_mf8	Data type conversion|Reinterpret casts
+vreinterpretq_s16_mf8	Data type conversion|Reinterpret casts
+vreinterpretq_s32_mf8	Data type conversion|Reinterpret casts
+vreinterpretq_f32_mf8	Data type conversion|Reinterpret casts
+vreinterpretq_u8_mf8	Data type conversion|Reinterpret casts
+vreinterpretq_u16_mf8	Data type conversion|Reinterpret casts
+vreinterpretq_u32_mf8	Data type conversion|Reinterpret casts
+vreinterpretq_p16_mf8	Data type conversion|Reinterpret casts
+vreinterpretq_u64_mf8	Data type conversion|Reinterpret casts
+vreinterpretq_s64_mf8	Data type conversion|Reinterpret casts
+vreinterpretq_f64_mf8	Data type conversion|Reinterpret casts
+vreinterpretq_p64_mf8	Data type conversion|Reinterpret casts
+vreinterpretq_p128_mf8	Data type conversion|Reinterpret casts
+vreinterpretq_f16_mf8	Data type conversion|Reinterpret casts
+
 vreinterpretq_s8_p16	Data type conversion|Reinterpret casts
 vreinterpretq_s16_p16	Data type conversion|Reinterpret casts
 vreinterpretq_s32_p16	Data type conversion|Reinterpret casts
@@ -3620,6 +3791,7 @@ vreinterpretq_u8_p16	Data type conversion|Reinterpret casts
 vreinterpretq_u16_p16	Data type conversion|Reinterpret casts
 vreinterpretq_u32_p16	Data type conversion|Reinterpret casts
 vreinterpretq_p8_p16	Data type conversion|Reinterpret casts
+vreinterpretq_mf8_p16	Data type conversion|Reinterpret casts
 vreinterpretq_u64_p16	Data type conversion|Reinterpret casts
 vreinterpretq_s64_p16	Data type conversion|Reinterpret casts
 vreinterpretq_f64_p16	Data type conversion|Reinterpret casts
@@ -3635,6 +3807,7 @@ vreinterpretq_u16_u64	Data type conversion|Reinterpret casts
 vreinterpretq_u32_u64	Data type conversion|Reinterpret casts
 vreinterpretq_p8_u64	Data type conversion|Reinterpret casts
 vreinterpretq_p16_u64	Data type conversion|Reinterpret casts
+vreinterpretq_mf8_u64	Data type conversion|Reinterpret casts
 vreinterpretq_s64_u64	Data type conversion|Reinterpret casts
 vreinterpretq_f64_u64	Data type conversion|Reinterpret casts
 vreinterpretq_f64_s64	Data type conversion|Reinterpret casts
@@ -3652,6 +3825,7 @@ vreinterpretq_u16_s64	Data type conversion|Reinterpret casts
 vreinterpretq_u32_s64	Data type conversion|Reinterpret casts
 vreinterpretq_p8_s64	Data type conversion|Reinterpret casts
 vreinterpretq_p16_s64	Data type conversion|Reinterpret casts
+vreinterpretq_mf8_s64	Data type conversion|Reinterpret casts
 vreinterpretq_u64_s64	Data type conversion|Reinterpret casts
 vreinterpretq_u64_p64	Data type conversion|Reinterpret casts
 vreinterpretq_f16_s64	Data type conversion|Reinterpret casts
@@ -3664,6 +3838,7 @@ vreinterpretq_u16_f16	Data type conversion|Reinterpret casts
 vreinterpretq_u32_f16	Data type conversion|Reinterpret casts
 vreinterpretq_p8_f16	Data type conversion|Reinterpret casts
 vreinterpretq_p16_f16	Data type conversion|Reinterpret casts
+vreinterpretq_mf8_f16	Data type conversion|Reinterpret casts
 vreinterpretq_u64_f16	Data type conversion|Reinterpret casts
 vreinterpretq_s64_f16	Data type conversion|Reinterpret casts
 vreinterpretq_f64_f16	Data type conversion|Reinterpret casts
@@ -3677,6 +3852,7 @@ vreinterpret_u16_f64	Data type conversion|Reinterpret casts
 vreinterpret_u32_f64	Data type conversion|Reinterpret casts
 vreinterpret_p8_f64	Data type conversion|Reinterpret casts
 vreinterpret_p16_f64	Data type conversion|Reinterpret casts
+vreinterpret_mf8_f64	Data type conversion|Reinterpret casts
 vreinterpret_u64_f64	Data type conversion|Reinterpret casts
 vreinterpret_s64_f64	Data type conversion|Reinterpret casts
 vreinterpret_f16_f64	Data type conversion|Reinterpret casts
@@ -3689,6 +3865,7 @@ vreinterpretq_u16_f64	Data type conversion|Reinterpret casts
 vreinterpretq_u32_f64	Data type conversion|Reinterpret casts
 vreinterpretq_p8_f64	Data type conversion|Reinterpret casts
 vreinterpretq_p16_f64	Data type conversion|Reinterpret casts
+vreinterpretq_mf8_f64	Data type conversion|Reinterpret casts
 vreinterpretq_u64_f64	Data type conversion|Reinterpret casts
 vreinterpretq_s64_f64	Data type conversion|Reinterpret casts
 vreinterpretq_f16_f64	Data type conversion|Reinterpret casts
@@ -3701,6 +3878,7 @@ vreinterpret_u16_p64	Data type conversion|Reinterpret casts
 vreinterpret_u32_p64	Data type conversion|Reinterpret casts
 vreinterpret_p8_p64	Data type conversion|Reinterpret casts
 vreinterpret_p16_p64	Data type conversion|Reinterpret casts
+vreinterpret_mf8_p64	Data type conversion|Reinterpret casts
 vreinterpret_s64_p64	Data type conversion|Reinterpret casts
 vreinterpret_f64_p64	Data type conversion|Reinterpret casts
 vreinterpret_f16_p64	Data type conversion|Reinterpret casts
@@ -3712,6 +3890,7 @@ vreinterpretq_u16_p64	Data type conversion|Reinterpret casts
 vreinterpretq_u32_p64	Data type conversion|Reinterpret casts
 vreinterpretq_p8_p64	Data type conversion|Reinterpret casts
 vreinterpretq_p16_p64	Data type conversion|Reinterpret casts
+vreinterpretq_mf8_p64	Data type conversion|Reinterpret casts
 vreinterpretq_s64_p64	Data type conversion|Reinterpret casts
 vreinterpretq_f64_p64	Data type conversion|Reinterpret casts
 vreinterpretq_f16_p64	Data type conversion|Reinterpret casts
@@ -3723,10 +3902,15 @@ vreinterpretq_u16_p128	Data type conversion|Reinterpret casts
 vreinterpretq_u32_p128	Data type conversion|Reinterpret casts
 vreinterpretq_p8_p128	Data type conversion|Reinterpret casts
 vreinterpretq_p16_p128	Data type conversion|Reinterpret casts
+vreinterpretq_mf8_p128	Data type conversion|Reinterpret casts
 vreinterpretq_u64_p128	Data type conversion|Reinterpret casts
 vreinterpretq_s64_p128	Data type conversion|Reinterpret casts
 vreinterpretq_f64_p128	Data type conversion|Reinterpret casts
 vreinterpretq_f16_p128	Data type conversion|Reinterpret casts
+vreinterpret_mf8_u8	Data type conversion|Reinterpret casts
+vreinterpretq_mf8_u8	Data type conversion|Reinterpret casts
+vreinterpret_u8_mf8	Data type conversion|Reinterpret casts
+vreinterpretq_u8_mf8	Data type conversion|Reinterpret casts
 vldrq_p128	Load|Load
 vstrq_p128	Store|Store
 vaeseq_u8	Cryptography|AES
@@ -4320,6 +4504,7 @@ vreinterpret_bf16_u16	Data type conversion|Reinterpret casts
 vreinterpret_bf16_u32	Data type conversion|Reinterpret casts
 vreinterpret_bf16_p8	Data type conversion|Reinterpret casts
 vreinterpret_bf16_p16	Data type conversion|Reinterpret casts
+vreinterpret_bf16_mf8	Data type conversion|Reinterpret casts
 vreinterpret_bf16_u64	Data type conversion|Reinterpret casts
 vreinterpret_bf16_s64	Data type conversion|Reinterpret casts
 vreinterpretq_bf16_s8	Data type conversion|Reinterpret casts
@@ -4331,6 +4516,7 @@ vreinterpretq_bf16_u16	Data type conversion|Reinterpret casts
 vreinterpretq_bf16_u32	Data type conversion|Reinterpret casts
 vreinterpretq_bf16_p8	Data type conversion|Reinterpret casts
 vreinterpretq_bf16_p16	Data type conversion|Reinterpret casts
+vreinterpretq_bf16_mf8	Data type conversion|Reinterpret casts
 vreinterpretq_bf16_u64	Data type conversion|Reinterpret casts
 vreinterpretq_bf16_s64	Data type conversion|Reinterpret casts
 vreinterpret_bf16_f64	Data type conversion|Reinterpret casts
@@ -4347,6 +4533,7 @@ vreinterpret_u16_bf16	Data type conversion|Reinterpret casts
 vreinterpret_u32_bf16	Data type conversion|Reinterpret casts
 vreinterpret_p8_bf16	Data type conversion|Reinterpret casts
 vreinterpret_p16_bf16	Data type conversion|Reinterpret casts
+vreinterpret_mf8_bf16	Data type conversion|Reinterpret casts
 vreinterpret_u64_bf16	Data type conversion|Reinterpret casts
 vreinterpret_s64_bf16	Data type conversion|Reinterpret casts
 vreinterpret_f64_bf16	Data type conversion|Reinterpret casts
@@ -4360,6 +4547,7 @@ vreinterpretq_u16_bf16	Data type conversion|Reinterpret casts
 vreinterpretq_u32_bf16	Data type conversion|Reinterpret casts
 vreinterpretq_p8_bf16	Data type conversion|Reinterpret casts
 vreinterpretq_p16_bf16	Data type conversion|Reinterpret casts
+vreinterpretq_mf8_bf16	Data type conversion|Reinterpret casts
 vreinterpretq_u64_bf16	Data type conversion|Reinterpret casts
 vreinterpretq_s64_bf16	Data type conversion|Reinterpret casts
 vreinterpretq_f64_bf16	Data type conversion|Reinterpret casts
@@ -4447,4 +4635,55 @@ vluti4q_lane_bf16_x2	Table lookup|Lookup table read with 4-bit indices
 vluti4q_lane_p16_x2	Table lookup|Lookup table read with 4-bit indices
 vluti4q_lane_u8	Table lookup|Lookup table read with 4-bit indices
 vluti4q_lane_s8	Table lookup|Lookup table read with 4-bit indices
-vluti4q_lane_p8	Table lookup|Lookup table read with 4-bit indices
\ No newline at end of file
+vluti4q_lane_p8	Table lookup|Lookup table read with 4-bit indices
+vcvt1_bf16_mf8_fpm	Data type conversion|Conversions
+vcvt1_low_bf16_mf8_fpm	Data type conversion|Conversions
+vcvt2_bf16_mf8_fpm	Data type conversion|Conversions
+vcvt2_low_bf16_mf8_fpm	Data type conversion|Conversions
+vcvt1_high_bf16_mf8_fpm	Data type conversion|Conversions
+vcvt2_high_bf16_mf8_fpm	Data type conversion|Conversions
+vcvt1_f16_mf8_fpm	Data type conversion|Conversions
+vcvt1_low_f16_mf8_fpm	Data type conversion|Conversions
+vcvt2_f16_mf8_fpm	Data type conversion|Conversions
+vcvt2_low_f16_mf8_fpm	Data type conversion|Conversions
+vcvt1_high_f16_mf8_fpm	Data type conversion|Conversions
+vcvt2_high_f16_mf8_fpm	Data type conversion|Conversions
+vcvt_mf8_f32_fpm	Data type conversion|Conversions
+vcvt_high_mf8_f32_fpm	Data type conversion|Conversions
+vcvt_mf8_f16_fpm	Data type conversion|Conversions
+vcvtq_mf8_f16_fpm	Data type conversion|Conversions
+vscale_f16	Vector arithmetic|Exponent
+vscaleq_f16	Vector arithmetic|Exponent
+vscale_f32	Vector arithmetic|Exponent
+vscaleq_f32	Vector arithmetic|Exponent
+vscaleq_f64	Vector arithmetic|Exponent
+vdot_f32_mf8_fpm	Vector arithmetic|Dot product
+vdotq_f32_mf8_fpm	Vector arithmetic|Dot product
+vdot_lane_f32_mf8_fpm	Vector arithmetic|Dot product
+vdot_laneq_f32_mf8_fpm	Vector arithmetic|Dot product
+vdotq_lane_f32_mf8_fpm	Vector arithmetic|Dot product
+vdotq_laneq_f32_mf8_fpm	Vector arithmetic|Dot product
+vdot_f16_mf8_fpm	Vector arithmetic|Dot product
+vdotq_f16_mf8_fpm	Vector arithmetic|Dot product
+vdot_lane_f16_mf8_fpm	Vector arithmetic|Dot product
+vdot_laneq_f16_mf8_fpm	Vector arithmetic|Dot product
+vdotq_lane_f16_mf8_fpm	Vector arithmetic|Dot product
+vdotq_laneq_f16_mf8_fpm	Vector arithmetic|Dot product
+vmlalbq_f16_mf8_fpm	Vector arithmetic|Multiply|Multiply-accumulate and widen
+vmlaltq_f16_mf8_fpm	Vector arithmetic|Multiply|Multiply-accumulate and widen
+vmlalbq_lane_f16_mf8_fpm	Vector arithmetic|Multiply|Multiply-accumulate and widen
+vmlalbq_laneq_f16_mf8_fpm	Vector arithmetic|Multiply|Multiply-accumulate and widen
+vmlaltq_lane_f16_mf8_fpm	Vector arithmetic|Multiply|Multiply-accumulate and widen
+vmlaltq_laneq_f16_mf8_fpm	Vector arithmetic|Multiply|Multiply-accumulate and widen
+vmlallbbq_f32_mf8_fpm	Vector arithmetic|Multiply|Multiply-accumulate and widen
+vmlallbtq_f32_mf8_fpm	Vector arithmetic|Multiply|Multiply-accumulate and widen
+vmlalltbq_f32_mf8_fpm	Vector arithmetic|Multiply|Multiply-accumulate and widen
+vmlallttq_f32_mf8_fpm	Vector arithmetic|Multiply|Multiply-accumulate and widen
+vmlallbbq_lane_f32_mf8_fpm	Vector arithmetic|Multiply|Multiply-accumulate and widen
+vmlallbbq_laneq_f32_mf8_fpm	Vector arithmetic|Multiply|Multiply-accumulate and widen
+vmlallbtq_lane_f32_mf8_fpm	Vector arithmetic|Multiply|Multiply-accumulate and widen
+vmlallbtq_laneq_f32_mf8_fpm	Vector arithmetic|Multiply|Multiply-accumulate and widen
+vmlalltbq_lane_f32_mf8_fpm	Vector arithmetic|Multiply|Multiply-accumulate and widen
+vmlalltbq_laneq_f32_mf8_fpm	Vector arithmetic|Multiply|Multiply-accumulate and widen
+vmlallttq_lane_f32_mf8_fpm	Vector arithmetic|Multiply|Multiply-accumulate and widen
+vmlallttq_laneq_f32_mf8_fpm	Vector arithmetic|Multiply|Multiply-accumulate and widen

From 2be2f8aa742aac8b87b0087d1f8983155debd4d3 Mon Sep 17 00:00:00 2001
From: Victor Campos <victor.campos@arm.com>
Date: Wed, 25 Sep 2024 14:23:53 +0100
Subject: [PATCH 18/36] Revert "Replace latin contractions i.e. and e.g.
 (#331)"

This partially reverts commit 42e7e86de3e82d4cc527dfeda2a5ed53f6d6cacf.

Some documents were not changed if the latin contraction replacements
had not taken place.

Bumping their version numbers only for these textual replacements is not
worth it.
---
 cmse/cmse.md                        | 6 +-----
 morello/morello.md                  | 6 +-----
 mve_intrinsics/mve.md               | 6 +-----
 mve_intrinsics/mve.template.md      | 6 +-----
 neon_intrinsics/advsimd.md          | 1 -
 neon_intrinsics/advsimd.template.md | 1 -
 6 files changed, 4 insertions(+), 22 deletions(-)

diff --git a/cmse/cmse.md b/cmse/cmse.md
index 096381ba..e62bd2be 100644
--- a/cmse/cmse.md
+++ b/cmse/cmse.md
@@ -83,7 +83,7 @@ exceptions.
 
 First, several changes were made related to the defined terms so as to
 reflect the fact that such defined terms need to align with the
-terminology in CC-BY-SA-4.0 rather than Apache-2.0 (for example, changing
+terminology in CC-BY-SA-4.0 rather than Apache-2.0 (e.g., changing
 “Work” to “Licensed Material”).
 
 Second, the defensive termination clause was changed such that the
@@ -163,10 +163,6 @@ Copyright 2019, 2021-2023 Arm Limited and/or its affiliates <open-source-office@
 * Added [Requirement #58](#requirement-58) to address a security issue in the
   handling of return values from CMSE Non-secure calls.
 
-#### Changes for next release
-
-* Textual improvements (non-functional changes).
-
 ## References
 
 This document refers to the following documents.
diff --git a/morello/morello.md b/morello/morello.md
index fa4bcafa..352d196d 100644
--- a/morello/morello.md
+++ b/morello/morello.md
@@ -81,7 +81,7 @@ exceptions.
 
 First, several changes were made related to the defined terms so as to
 reflect the fact that such defined terms need to align with the
-terminology in CC-BY-SA-4.0 rather than Apache-2.0 (for example, changing
+terminology in CC-BY-SA-4.0 rather than Apache-2.0 (e.g., changing
 "Work" to "Licensed Material").
 
 Second, the defensive termination clause was changed such that the scope
@@ -168,10 +168,6 @@ All content in this document is at the **Alpha** quality level.
   used to render the PDF of the specs. The PDF is rendered using the
   standard layout used in Arm specifications.
 
-### Changes for next release
-
-* Textual improvements (non-functional changes).
-
 ## References
 
 This document refers to, or is referred to by, the following documents.
diff --git a/mve_intrinsics/mve.md b/mve_intrinsics/mve.md
index c0af21a3..f653ebf3 100644
--- a/mve_intrinsics/mve.md
+++ b/mve_intrinsics/mve.md
@@ -76,7 +76,7 @@ exceptions.
 
 First, several changes were made related to the defined terms so as to
 reflect the fact that such defined terms need to align with the
-terminology in CC-BY-SA-4.0 rather than Apache-2.0 (for example, changing
+terminology in CC-BY-SA-4.0 rather than Apache-2.0 (e.g., changing
 "Work" to "Licensed Material").
 
 Second, the defensive termination clause was changed such that the scope
@@ -127,10 +127,6 @@ Copyright 2019-2022 Arm Limited and/or its affiliates <open-source-office@arm.co
   used to render the PDF of the specs. The PDF is rendered using the
   standard layout used in Arm specifications.
 
-### Changes for next release
-
-* Textual improvements (non-functional changes).
-
 <!---
 **** Do not remove! ****
 The line following this comment is necessary to generate custom geometry settings
diff --git a/mve_intrinsics/mve.template.md b/mve_intrinsics/mve.template.md
index 340689f1..92f4575e 100644
--- a/mve_intrinsics/mve.template.md
+++ b/mve_intrinsics/mve.template.md
@@ -76,7 +76,7 @@ exceptions.
 
 First, several changes were made related to the defined terms so as to
 reflect the fact that such defined terms need to align with the
-terminology in CC-BY-SA-4.0 rather than Apache-2.0 (for example, changing
+terminology in CC-BY-SA-4.0 rather than Apache-2.0 (e.g., changing
 "Work" to "Licensed Material").
 
 Second, the defensive termination clause was changed such that the scope
@@ -127,10 +127,6 @@ Copyright 2019-2022 Arm Limited and/or its affiliates <open-source-office@arm.co
   used to render the PDF of the specs. The PDF is rendered using the
   standard layout used in Arm specifications.
 
-### Changes for next release
-
-* Textual improvements (non-functional changes).
-
 <!---
 **** Do not remove! ****
 The line following this comment is necessary to generate custom geometry settings
diff --git a/neon_intrinsics/advsimd.md b/neon_intrinsics/advsimd.md
index 392df44d..298d4c8d 100644
--- a/neon_intrinsics/advsimd.md
+++ b/neon_intrinsics/advsimd.md
@@ -148,7 +148,6 @@ for more information about Arm’s trademarks.
 
 ### Changes for next release
 
-* Textual improvements (non-functional changes).
 * Fixed the range of the ``lane`` immediate argument for ``vst2q_lane_f64``.
 
 <!---
diff --git a/neon_intrinsics/advsimd.template.md b/neon_intrinsics/advsimd.template.md
index d1a4ef71..5b747f32 100644
--- a/neon_intrinsics/advsimd.template.md
+++ b/neon_intrinsics/advsimd.template.md
@@ -148,7 +148,6 @@ for more information about Arm’s trademarks.
 
 ### Changes for next release
 
-* Textual improvements (non-functional changes).
 * Fixed the range of the ``lane`` immediate argument for ``vst2q_lane_f64``.
 
 <!---

From d6a3b57834154ea27c85f725dd17caa3259977c2 Mon Sep 17 00:00:00 2001
From: Victor Campos <victor.campos@arm.com>
Date: Wed, 25 Sep 2024 13:32:23 +0100
Subject: [PATCH 19/36] Fix issues in preparation for 2024Q3 release

- Fix textual issues raised in reviews.
- Remove pointless entry in changelog.
---
 main/acle.md | 37 ++++++++++++++++++-------------------
 1 file changed, 18 insertions(+), 19 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index 5f23e1b6..5886ab95 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -398,19 +398,17 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
 
 * Fixed incorrect system register dependencies in Function Multi Versioning.
 * Added a requirement for function version declaration in Function Multi Versioning.
-* Fixed some rendering issues in the online Markdown documentation and fixed
-  a misplaced anchor.
 * Added `__FUNCTION_MULTI_VERSIONING_SUPPORT_LEVEL` to indicate the support
   level of the [Function Multi Versioning](#function-multi-versioning).
-* Unified Function Multi Versioning features sha1, sha2.
-* Unified Function Multi Versioning features ls64, ls64_v, ls64_accdata.
+* Unified Function Multi Versioning features sha1 and sha2.
+* Unified Function Multi Versioning features ls64, ls64_v, and ls64_accdata.
 * Added [**Alpha**](#current-status-and-anticipated-changes)
   support for SME2.1 (FEAT_SME2p1).
 * Removed requirement to add preprocessor guards for header files.
 * Added specifications for floating-point absolute minimum
   and maximum intrinsics (FEAT_FAMINMAX).
 * Added specifications for table lookup intrinsics (FEAT_LUT, FEAT_SME_LUTv2).
-* Release support level of the [Custom Datapath Extension](#custom-datapath-extension).
+* Added Release support level for the [Custom Datapath Extension](#custom-datapath-extension).
 * Added [**Alpha**](#current-status-and-anticipated-changes)
   support for modal 8-bit floating point intrinsics.
 
@@ -1035,8 +1033,9 @@ Including `<arm_sve.h>` also includes the following header files:
 
 `<arm_neon_sve_bridge.h>` defines intrinsics for moving data between
 Neon and SVE vector types; see [NEON-SVE Bridge](#neon-sve-bridge)
-for details.  The `__ARM_NEON_SVE_BRIDGE` macro should be tested
-before including the header:
+for details. Before including the header, you should test the
+`__ARM_NEON_SVE_BRIDGE` macro.
+:
 
 ``` c
   #ifdef __ARM_NEON_SVE_BRIDGE
@@ -1099,12 +1098,12 @@ context in which the preprocessor macros are evaluated. For example:
     void foo() {
     #ifdef __ARM_FEATURE_SVE
       // The user should make no assumptions that the target attribute
-      // has enabled the __ARM_FEATURE_SVE macro.
+      // enables the __ARM_FEATURE_SVE macro.
     #endif
 }
 ```
 
-The compiler may add additional restrictions to the intrinsics beyond what is
+The compiler might add additional restrictions to the intrinsics beyond what is
 captured by the ACLE macros depending on the context in which the intrinsics
 are used. For example:
 
@@ -1118,7 +1117,7 @@ are used. For example:
 ```
 
 If `__ARM_FEATURE_SME` evaluates to `true` the SME intrinsic `svst1_hor_za8`
-is available, but `foo` may still fail to compile because the call does not
+is available, but `foo` might still fail to compile because the call does not
 occur in a [streaming statement](#streaming-statement).
 
 ## Attributes
@@ -5897,11 +5896,11 @@ float16 types are only available when the `__fp16` type is defined, that is,
 when supported by the hardware.
 
 bfloat types are only available when the `__bf16` type is defined, that is,
-when supported by the hardware. The bfloat types are all opaque types.  That is
-to say they can only be used by intrinsics.
+when supported by the hardware. The bfloat types are all opaque types. That is,
+they can only be used by intrinsics.
 
-The FP8 types are all opaque types. That is to say they can only be used
-by intrinsics.
+The FP8 types are all opaque types. That is, they can only be used by
+intrinsics.
 
 ### Advanced SIMD Scalar data types
 
@@ -6713,7 +6712,7 @@ single vectors:
 
 | **Signed integer**   | **Unsigned integer** | **Floating-point**   |                      |
 | -------------------- | -------------------- | -------------------- | -------------------- |
-| `svint8_t`           | `svuint8_t`          |                      | `svmfloat8_t         |
+| `svint8_t`           | `svuint8_t`          |                      | `svmfloat8_t`        |
 | `svint16_t`          | `svuint16_t`         | `svfloat16_t`        | `svbfloat16_t`       |
 | `svint32_t`          | `svuint32_t`         | `svfloat32_t`        |                      |
 | `svint64_t`          | `svuint64_t`         | `svfloat64_t`        |                      |
@@ -12320,8 +12319,8 @@ element types.
 ### SME2.1 instruction intrinsics
 
 The specification for SME2.1 is in
-[**Alpha** state](#current-status-and-anticipated-changes) and may change or be
-extended in the future.
+[**Alpha** state](#current-status-and-anticipated-changes) and might change or
+be extended in the future.
 
 The intrinsics in this section are defined by the header file
 [`<arm_sme.h>`](#arm_sme.h) when `__ARM_FEATURE_SME2p1` is defined.
@@ -13083,7 +13082,7 @@ intrinsics may have additional target feature requirements.
 
 #### BFCVTN, FCVTN
 
-Half-precision and BFloat16 convert, narrow and interleave to 8-bit
+Half-precision and BFloat16 convert, narrow, and interleave to 8-bit
 floating-point.
 ``` c
   // Variant is also available for: _bf16_x2
@@ -13092,7 +13091,7 @@ floating-point.
 
 #### FCVTNT, FCVTNB
 
-Single-precision convert, narrow and interleave to 8-bit floating-point (top and bottom).
+Single-precision convert, narrow, and interleave to 8-bit floating-point (top and bottom).
 ``` c
   svmfloat8_t svcvtnt_mf8[_f32_x2]_fpm(svmfloat8_t zd, svfloat32x2_t zn, fpm_t fpm);
   svmfloat8_t svcvtnb_mf8[_f32_x2]_fpm(svmfloat8_t zd, svfloat32x2_t zn, fpm_t fpm);

From fc800b171c064002c9cc0d7afa2ebfdd702bb8c9 Mon Sep 17 00:00:00 2001
From: Victor Campos <victor.campos@arm.com>
Date: Wed, 25 Sep 2024 14:13:24 +0100
Subject: [PATCH 20/36] Change draftversion and dates

---
 cmse/cmse.md                        | 2 +-
 main/acle.md                        | 9 +++++----
 morello/morello.md                  | 2 +-
 mve_intrinsics/mve.md               | 2 +-
 mve_intrinsics/mve.template.md      | 2 +-
 neon_intrinsics/advsimd.md          | 9 +++++----
 neon_intrinsics/advsimd.template.md | 9 +++++----
 7 files changed, 19 insertions(+), 16 deletions(-)

diff --git a/cmse/cmse.md b/cmse/cmse.md
index e62bd2be..60fae9d0 100644
--- a/cmse/cmse.md
+++ b/cmse/cmse.md
@@ -5,7 +5,7 @@ date-of-issue: 21 June 2024
 set-quote-highlight: true
 # LaTeX specific variables
 copyright-text: Copyright 2019, 2021-2024 Arm Limited and/or its affiliates <open-source-office@arm.com>.
-draftversion: true
+draftversion: false
 # Jekyll specific variables
 header_counter: true
 toc: true
diff --git a/main/acle.md b/main/acle.md
index 5886ab95..3bf028b3 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -1,10 +1,10 @@
 ---
 title: Arm C Language Extensions
-version: 2024Q2
-date-of-issue: 21 June 2024
+version: 2024Q3
+date-of-issue: 30 September 2024
 # LaTeX specific variables
 copyright-text: "Copyright: see section \\texorpdfstring{\\nameref{copyright}}{Copyright}."
-draftversion: true
+draftversion: false
 # Jekyll specific variables
 header_counter: true
 toc: true
@@ -178,6 +178,7 @@ unless a different support level is specified in the text.
 | 2023Q2       | 04 August 2023    | Arm    | See [Changes between ACLE Q4 2022 and ACLE Q2 2023](#changes-between-acle-q4-2022-and-acle-q2-2023)                  |
 | 2024Q1       | 11 April 2024     | Arm    | See [Changes between ACLE Q2 2023 and ACLE Q1 2024](#changes-between-acle-q2-2023-and-acle-q1-2024)                  |
 | 2024Q2       | 21 June 2024      | Arm    | See [Changes between ACLE Q1 2024 and ACLE Q2 2024](#changes-between-acle-q1-2024-and-acle-q2-2024)                  |
+| 2024Q3       | 30 September 2024 | Arm    | See [Changes between ACLE Q2 2024 and ACLE Q3 2024](#changes-between-acle-q2-2024-and-acle-q3-2024)                  |
 
 #### Changes between ACLE Q2 2017 and ACLE Q2 2018
 
@@ -394,7 +395,7 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
 * Added [**Alpha**](#current-status-and-anticipated-changes)
   support for SVE2.1 (FEAT_SVE2p1).
 
-#### Changes for next release
+#### Changes between ACLE Q2 2024 and ACLE Q3 2024
 
 * Fixed incorrect system register dependencies in Function Multi Versioning.
 * Added a requirement for function version declaration in Function Multi Versioning.
diff --git a/morello/morello.md b/morello/morello.md
index 352d196d..57cbd34f 100644
--- a/morello/morello.md
+++ b/morello/morello.md
@@ -4,7 +4,7 @@ version: 02alpha
 date-of-issue: 11 January 2022
 # LaTeX specific variables
 copyright-text: Copyright 2020-2022 Arm Limited and/or its affiliates <open-source-office@arm.com>.
-draftversion: true
+draftversion: false
 # Jekyll specific variables
 header_counter: true
 toc: true
diff --git a/mve_intrinsics/mve.md b/mve_intrinsics/mve.md
index f653ebf3..afa93b10 100644
--- a/mve_intrinsics/mve.md
+++ b/mve_intrinsics/mve.md
@@ -5,7 +5,7 @@ date-of-issue: 11 January 2022
 # LaTeX specific variables
 landscape: true
 copyright-text: Copyright 2019-2022 Arm Limited and/or its affiliates <open-source-office@arm.com>.
-draftversion: true
+draftversion: false
 # Jekyll specific variables
 header_counter: true
 toc: true
diff --git a/mve_intrinsics/mve.template.md b/mve_intrinsics/mve.template.md
index 92f4575e..590d2e19 100644
--- a/mve_intrinsics/mve.template.md
+++ b/mve_intrinsics/mve.template.md
@@ -5,7 +5,7 @@ date-of-issue: 11 January 2022
 # LaTeX specific variables
 landscape: true
 copyright-text: Copyright 2019-2022 Arm Limited and/or its affiliates <open-source-office@arm.com>.
-draftversion: true
+draftversion: false
 # Jekyll specific variables
 header_counter: true
 toc: true
diff --git a/neon_intrinsics/advsimd.md b/neon_intrinsics/advsimd.md
index 298d4c8d..faeb625f 100644
--- a/neon_intrinsics/advsimd.md
+++ b/neon_intrinsics/advsimd.md
@@ -1,11 +1,11 @@
 ---
 title: Arm Neon Intrinsics Reference
-version: 2023Q2
-date-of-issue: 04 August 2023
+version: 2024Q3
+date-of-issue: 30 September 2024
 # LaTeX specific variables
 landscape: true
 copyright-text: "Copyright: see section \\texorpdfstring{\\nameref{copyright}}{Copyright}."
-draftversion: true
+draftversion: false
 # Jekyll specific variables
 header_counter: true
 toc: true
@@ -125,6 +125,7 @@ for more information about Arm’s trademarks.
 | I     | 30 September 2021 | 2021Q3               |
 | J     | 11 January 2022   | 2021Q4               |
 | K     | 04 August 2023    | 2023Q2               |
+| L     | 30 September 2024 | 2024Q3               |
 
 ### Changes between 2021Q2 and 2021Q3
 
@@ -146,7 +147,7 @@ for more information about Arm’s trademarks.
 
 * Added support for FEAT_LRCPC3 LDAP1/STL1 intrinsics.
 
-### Changes for next release
+### Changes between 2023Q2 and 2024Q3
 
 * Fixed the range of the ``lane`` immediate argument for ``vst2q_lane_f64``.
 
diff --git a/neon_intrinsics/advsimd.template.md b/neon_intrinsics/advsimd.template.md
index 5b747f32..0b722658 100644
--- a/neon_intrinsics/advsimd.template.md
+++ b/neon_intrinsics/advsimd.template.md
@@ -1,11 +1,11 @@
 ---
 title: Arm Neon Intrinsics Reference
-version: 2023Q2
-date-of-issue: 04 August 2023
+version: 2024Q3
+date-of-issue: 30 September 2024
 # LaTeX specific variables
 landscape: true
 copyright-text: "Copyright: see section \\texorpdfstring{{\\nameref{{copyright}}}}{{Copyright}}."
-draftversion: true
+draftversion: false
 # Jekyll specific variables
 header_counter: true
 toc: true
@@ -125,6 +125,7 @@ for more information about Arm’s trademarks.
 | I     | 30 September 2021 | 2021Q3               |
 | J     | 11 January 2022   | 2021Q4               |
 | K     | 04 August 2023    | 2023Q2               |
+| L     | 30 September 2024 | 2024Q3               |
 
 ### Changes between 2021Q2 and 2021Q3
 
@@ -146,7 +147,7 @@ for more information about Arm’s trademarks.
 
 * Added support for FEAT_LRCPC3 LDAP1/STL1 intrinsics.
 
-### Changes for next release
+### Changes between 2023Q2 and 2024Q3
 
 * Fixed the range of the ``lane`` immediate argument for ``vst2q_lane_f64``.
 

From 4e28107d78528fc7b17f8d3e054421b1fd9b3747 Mon Sep 17 00:00:00 2001
From: Alexandros Lamprineas <alexandros.lamprineas@arm.com>
Date: Fri, 25 Oct 2024 14:46:01 +0100
Subject: [PATCH 21/36] [FMV] Unify ssbs and ssbs2. (#350)

According to https://developer.arm.com/documentation/102105/latest Arm
Architecture Reference Manual for A-profile architecture: Known issues

2.206 D22789
In section C5.2.25 "SSBS, Speculative Store Bypass Safe", under the
heading 'Configurations', the text that reads:

"This register is present only when FEAT_SSBS is implemented.
 Otherwise, direct accesses to SSBS are UNDEFINED."

is changed to read:

"This register is present only when FEAT_SSBS2 is implemented.
 Otherwise, direct accesses to SSBS are UNDEFINED."

This suggests that it's not worth splitting FEAT_SSBS2 from FEAT_SSBS in
the compiler, since FEAT_SSBS cannot be used for predicating the MRS/MSR
instructions. Those can access PSTATE.SSBS only when FEAT_SSBS2 is
available. Moreover, there are no hardware implementations which
implement FEAT_SSBS without FEAT_SSBS2, therefore unifying these
features in the specification should not be a regression for feature
detection.
---
 main/acle.md | 7 +++++--
 1 file changed, 5 insertions(+), 2 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index 3b51cbe6..5e2cafa7 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -413,6 +413,10 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
 * Added [**Alpha**](#current-status-and-anticipated-changes)
   support for modal 8-bit floating point intrinsics.
 
+#### Changes for next release
+
+* Unified Function Multi Versioning features ssbs and ssbs2.
+
 ### References
 
 This document refers to the following documents.
@@ -2815,8 +2819,7 @@ The following table lists the architectures feature mapping for AArch64
    | 460           | `FEAT_MTE3`              | memtag3       | ```ID_AA64PFR1_EL1.MTE >= 0b0011```       |
    | 470           | `FEAT_SB`                | sb            | ```ID_AA64ISAR1_EL1.SB >= 0b0001```       |
    | 480           | `FEAT_SPECRES`           | predres       | ```ID_AA64ISAR1_EL1.SPECRES >= 0b0001```  |
-   | 490           | `FEAT_SSBS`              | ssbs          | ```ID_AA64PFR1_EL1.SSBS >= 0b0001```      |
-   | 500           | `FEAT_SSBS2`             | ssbs2         | ```ID_AA64PFR1_EL1.SSBS >= 0b0010```      |
+   | 490           | `FEAT_SSBS`, `FEAT_SSBS2`| ssbs          | ```ID_AA64PFR1_EL1.SSBS >= 0b0010```      |
    | 510           | `FEAT_BTI`               | bti           | ```ID_AA64PFR1_EL1.BT >= 0b0001```        |
    | 520           | `FEAT_LS64`, `FEAT_LS64_V`, <br> `FEAT_LS64_ACCDATA` | ls64 | ```ID_AA64ISAR1_EL1.LS64 >= 0b0011``` |
    | 550           | `FEAT_WFxT`              | wfxt          | ```ID_AA64ISAR2_EL1.WFxT >= 0b0010```     |

From 5affe201842d52da55a7dcc06699d7228d2b02a7 Mon Sep 17 00:00:00 2001
From: Alexandros Lamprineas <alexandros.lamprineas@arm.com>
Date: Fri, 25 Oct 2024 14:53:42 +0100
Subject: [PATCH 22/36] [FMV] Unify memtag and memtag2. (#351)

If we split these features in the compiler (see relevant pull request
https://github.com/llvm/llvm-project/pull/109299), we would only be able
to hand-write a 'memtag2' version using inline assembly since the
compiler cannot generate the instructions that become available with
FEAT_MTE2. On top of that these instructions only work at Exception
Level 1, so they would be unusable since FMV is a user space facility. I
am therefore unifying them in the ACLE specification.
---
 main/acle.md | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index 5e2cafa7..40f00710 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -416,6 +416,7 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
 #### Changes for next release
 
 * Unified Function Multi Versioning features ssbs and ssbs2.
+* Unified Function Multi Versioning features memtag and memtag2.
 
 ### References
 
@@ -2814,8 +2815,7 @@ The following table lists the architectures feature mapping for AArch64
    | 410           | `FEAT_SVE_SHA3`          | sve2-sha3     | ```ID_AA64ZFR0_EL1.SHA3 >= 0b0001```      |
    | 420           | `FEAT_SM3`, `FEAT_SVE_SM4` | sve2-sm4    | ```ID_AA64ZFR0_EL1.SM4 >= 0b0001```       |
    | 430           | `FEAT_SME`               | sme           | ```ID_AA64PFR1_EL1.SME >= 0b0001```       |
-   | 440           | `FEAT_MTE`               | memtag        | ```ID_AA64PFR1_EL1.MTE >= 0b0001```       |
-   | 450           | `FEAT_MTE2`              | memtag2       | ```ID_AA64PFR1_EL1.MTE >= 0b0010```       |
+   | 440           | `FEAT_MTE`, `FEAT_MTE2`  | memtag        | ```ID_AA64PFR1_EL1.MTE >= 0b0010```       |
    | 460           | `FEAT_MTE3`              | memtag3       | ```ID_AA64PFR1_EL1.MTE >= 0b0011```       |
    | 470           | `FEAT_SB`                | sb            | ```ID_AA64ISAR1_EL1.SB >= 0b0001```       |
    | 480           | `FEAT_SPECRES`           | predres       | ```ID_AA64ISAR1_EL1.SPECRES >= 0b0001```  |

From bd07927aa488af7f3e6938613f5eb6974d1590fe Mon Sep 17 00:00:00 2001
From: Alexandros Lamprineas <alexandros.lamprineas@arm.com>
Date: Fri, 25 Oct 2024 14:57:48 +0100
Subject: [PATCH 23/36] [FMV] Unify aes with pmull and sve2-aes with
 sve2-pmull128. (#352)

I originally tried splitting these features (see relevant pull request
https://github.com/llvm/llvm-project/pull/110816), but the following
came to my attention:

According to https://developer.arm.com/documentation/ddi0487/latest Arm
Architecture Reference Manual for A-profile architecture:

D23.2.83 ID_AA64ZFR0_EL1, SVE Feature ID Register 0

ID_AA64ZFR0_EL1.AES, bits [7:4]

> FEAT_SVE_AES implements the functionality identified by the value
0b0001.
> FEAT_SVE_PMULL128 implements the functionality identified by the value
0b0010.
> The permitted values are 0b0000 and 0b0010.

Andrew Carlotti suggests that the same applies for ID_AA64ISAR0_EL1.AES
(https://github.com/llvm/llvm-project/pull/110816#issuecomment-2388410290)

D19.2.61 ID_AA64ISAR0_EL1, AArch64 Instruction Set Attribute Register 0

ID_AA64ISAR0_EL1.AES, bits [7:4]

> FEAT_AES implements the functionality identified by the value 0b0001.
> FEAT_PMULL implements the functionality identified by the value
0b0010.
> From Armv8, the permitted values are 0b0000 and 0b0010.

This was removed from the latest release of the Arm Architecture
Reference Manual, but it appears to be a mistake that was not intended
to relax the architecture constraints. The discrepancy has been
reported.
---
 main/acle.md | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index 40f00710..f03a5f51 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -417,6 +417,8 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
 
 * Unified Function Multi Versioning features ssbs and ssbs2.
 * Unified Function Multi Versioning features memtag and memtag2.
+* Unified Function Multi Versioning features aes and pmull.
+* Unified Function Multi Versioning features sve2-aes and sve2-pmull128.
 
 ### References
 
@@ -2784,8 +2786,7 @@ The following table lists the architectures feature mapping for AArch64
    | 110           | `FEAT_CRC32`             | crc           | ```ID_AA64ISAR0_EL1.CRC32 >= 0b0001```    |
    | 130           | `FEAT_SHA1`, `FEAT_SHA256` | sha2        | ```ID_AA64ISAR0_EL1.SHA2 >= 0b0001```     |
    | 140           | `FEAT_SHA512`, `FEAT_SHA3` | sha3        | ```ID_AA64ISAR0_EL1.SHA3 >= 0b0001```     |
-   | 150           | `FEAT_AES`               | aes           | ```ID_AA64ISAR0_EL1.AES >= 0b0001```      |
-   | 160           | `FEAT_PMULL`             | pmull         | ```ID_AA64ISAR0_EL1.AES >= 0b0010```      |
+   | 150           | `FEAT_AES`, `FEAT_PMULL` | aes           | ```ID_AA64ISAR0_EL1.AES >= 0b0010```      |
    | 170           | `FEAT_FP16`              | fp16          | ```ID_AA64PFR0_EL1.FP == 0b0001```        |
    | 175           | `FEAT_FHM`               | fp16fml       | ```ID_AA64ISAR0_EL1.FHM >= 0b0001```      |
    | 180           | `FEAT_DIT`               | dit           | ```ID_AA64PFR0_EL1.DIT >= 0b0001```       |
@@ -2809,8 +2810,7 @@ The following table lists the architectures feature mapping for AArch64
    | 350           | `FEAT_F32MM`             | f32mm         | ```ID_AA64ZFR0_EL1.F32MM >= 0b00001```    |
    | 360           | `FEAT_F64MM`             | f64mm         | ```ID_AA64ZFR0_EL1.F64MM >= 0b00001```    |
    | 370           | `FEAT_SVE2`              | sve2          | ```ID_AA64ZFR0_EL1.SVEver >= 0b0001```    |
-   | 380           | `FEAT_SVE_AES`           | sve2-aes      | ```ID_AA64ZFR0_EL1.AES >= 0b0001```       |
-   | 390           | `FEAT_SVE_PMULL128`      | sve2-pmull128 | ```ID_AA64ZFR0_EL1.AES >= 0b0010```       |
+   | 380           | `FEAT_SVE_AES`, <br> `FEAT_SVE_PMULL128` | sve2-aes | ```ID_AA64ZFR0_EL1.AES >= 0b0010``` |
    | 400           | `FEAT_SVE_BitPerm`       | sve2-bitperm  | ```ID_AA64ZFR0_EL1.BitPerm >= 0b0001```   |
    | 410           | `FEAT_SVE_SHA3`          | sve2-sha3     | ```ID_AA64ZFR0_EL1.SHA3 >= 0b0001```      |
    | 420           | `FEAT_SM3`, `FEAT_SVE_SM4` | sve2-sm4    | ```ID_AA64ZFR0_EL1.SM4 >= 0b0001```       |

From 1b6ea5345dd8e24836592ecfaa73b0a8908fd37b Mon Sep 17 00:00:00 2001
From: Robert Dazi <14996868+v01dXYZ@users.noreply.github.com>
Date: Mon, 28 Oct 2024 15:01:16 +0100
Subject: [PATCH 24/36] AArch64 special register designations Change range of
 o0 to [0, 3] (#342)

The documented syntax doesn't allow designation of all possible special
registers (e.g. "ICC_CTLR_EL3" designated with "3:6:12:12:4").

clang supports the documented syntax but not gcc.

Both compilers support an alternative syntax with <o0> in [0, 3]:
`s<o0>_<o1>_c<CRm>_c<CRn>_<o2>`.
---
 main/acle.md | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/main/acle.md b/main/acle.md
index f03a5f51..777a3f47 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -419,6 +419,7 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
 * Unified Function Multi Versioning features memtag and memtag2.
 * Unified Function Multi Versioning features aes and pmull.
 * Unified Function Multi Versioning features sve2-aes and sve2-pmull128.
+* Fixed range of operand `o0` (too small) in AArch64 system register designations.
 
 ### References
 
@@ -5414,7 +5415,7 @@ When specifying a system register to `__arm_rsr`, `__arm_rsr64`, `__arm_rsr128`,
 
 Where:
 
-* `<o0>` is a decimal integer in the range `[0, 1]`
+* `<o0>` is a decimal integer in the range `[0, 3]`
 * `<op1>`, `<op2>` are decimal integers in the range `[0, 7]`
 * `<CRm>`, `<CRn>` are decimal integers in the range `[0, 15]`
 

From 56312800a04b8e5d20e437a6c3b4532f681fc546 Mon Sep 17 00:00:00 2001
From: Momchil Velikov <momchil.velikov@arm.com>
Date: Mon, 28 Oct 2024 14:05:42 +0000
Subject: [PATCH 25/36] Fix SVE2.1 quadword gather load/scatter store
 intrinsics (#337)

---
 main/acle.md | 9 +++++----
 1 file changed, 5 insertions(+), 4 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index 777a3f47..175c72d9 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -420,6 +420,7 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
 * Unified Function Multi Versioning features aes and pmull.
 * Unified Function Multi Versioning features sve2-aes and sve2-pmull128.
 * Fixed range of operand `o0` (too small) in AArch64 system register designations.
+* Fixed SVE2.1 quadword gather load/scatter store intrinsics.
 
 ### References
 
@@ -9188,8 +9189,8 @@ Gather Load Quadword.
    // _u16, _u32, _s32, _u64, _s64
    // _bf16, _f16, _f32, _f64
    svint16_t svld1q_gather_[u64]index[_s16](svbool_t pg, const int16_t *base, svuint64_t index);
-   svint8_t svld1q_gather[_u64base]_index_s8(svbool_t pg, svuint64_t zn, int64_t index);
-```
+   svint16_t svld1q_gather[_u64base]_index_s16(svbool_t pg, svuint64_t zn, int64_t index);
+   ```
 
 #### LD2Q, LD3Q, LD4Q
 
@@ -9281,8 +9282,8 @@ Scatter store quadwords.
    // Variants are also available for:
    // _u16, _u32, _s32, _u64, _s64
    // _bf16, _f16, _f32, _f64
-   void svst1q_scatter[_u64base]_index[_s8](svbool_t pg, svuint64_t zn, int64_t index, svint8_t data);
-   void svst1q_scatter_[u64]index_[s16](svbool_t pg, const int16_t *base, svuint64_t index, svint16_t data);
+   void svst1q_scatter_[u64]index[_s16](svbool_t pg, const int16_t *base, svuint64_t index, svint16_t data);
+   void svst1q_scatter[_u64base]_index[_s16](svbool_t pg, svuint64_t zn, int64_t index, svint16_t data);
 ```
 
 #### ST2Q, ST3Q, ST4Q

From eefa7642f3042d51a5933b899b1d8d7813c9d48c Mon Sep 17 00:00:00 2001
From: "allcontributors[bot]"
 <46447321+allcontributors[bot]@users.noreply.github.com>
Date: Mon, 28 Oct 2024 14:07:13 +0000
Subject: [PATCH 26/36] docs: add v01dXYZ as a contributor for content (#354)

Adds @v01dXYZ as a contributor for content.

This was requested by vhscampos [in this
comment](https://github.com/ARM-software/acle/pull/342#issuecomment-2441691680)

[skip ci]

---------

Co-authored-by: allcontributors[bot] <46447321+allcontributors[bot]@users.noreply.github.com>
---
 .all-contributorsrc | 9 +++++++++
 README.md           | 5 ++++-
 2 files changed, 13 insertions(+), 1 deletion(-)

diff --git a/.all-contributorsrc b/.all-contributorsrc
index 9cc1f69f..657fbc50 100644
--- a/.all-contributorsrc
+++ b/.all-contributorsrc
@@ -333,6 +333,15 @@
       "contributions": [
         "doc"
       ]
+    },
+    {
+      "login": "v01dXYZ",
+      "name": "Robert Dazi",
+      "avatar_url": "https://avatars.githubusercontent.com/u/14996868?v=4",
+      "profile": "https://github.com/v01dXYZ",
+      "contributions": [
+        "content"
+      ]
     }
   ],
   "contributorsPerLine": 7,
diff --git a/README.md b/README.md
index a2bb90bb..9d95d9f3 100644
--- a/README.md
+++ b/README.md
@@ -6,7 +6,7 @@
 </div>
 
 <!-- ALL-CONTRIBUTORS-BADGE:START - Do not remove or modify this section -->
-[![All Contributors](https://img.shields.io/badge/all_contributors-35-orange.svg?style=flat-square)](#contributors-)
+[![All Contributors](https://img.shields.io/badge/all_contributors-36-orange.svg?style=flat-square)](#contributors-)
 <!-- ALL-CONTRIBUTORS-BADGE:END -->
 ![Continuous Integration](https://github.com/ARM-software/acle/actions/workflows/ci.yml/badge.svg)
 
@@ -132,6 +132,9 @@ Thanks goes to these wonderful people ([emoji key](https://allcontributors.org/d
       <td align="center" valign="top" width="14.28%"><a href="https://github.com/labrinea"><img src="https://avatars.githubusercontent.com/u/9527365?v=4?s=100" width="100px;" alt="Alexandros Lamprineas"/><br /><sub><b>Alexandros Lamprineas</b></sub></a><br /><a href="https://github.com/ARM-software/acle/commits?author=labrinea" title="Code">💻</a></td>
       <td align="center" valign="top" width="14.28%"><a href="https://github.com/Lukacma"><img src="https://avatars.githubusercontent.com/u/46606997?v=4?s=100" width="100px;" alt="Lukacma"/><br /><sub><b>Lukacma</b></sub></a><br /><a href="https://github.com/ARM-software/acle/commits?author=Lukacma" title="Documentation">📖</a></td>
     </tr>
+    <tr>
+      <td align="center" valign="top" width="14.28%"><a href="https://github.com/v01dXYZ"><img src="https://avatars.githubusercontent.com/u/14996868?v=4?s=100" width="100px;" alt="Robert Dazi"/><br /><sub><b>Robert Dazi</b></sub></a><br /><a href="#content-v01dXYZ" title="Content">🖋</a></td>
+    </tr>
   </tbody>
 </table>
 

From a89792669ed39409bcf0e685881637a1e65b1f93 Mon Sep 17 00:00:00 2001
From: Alexandros Lamprineas <alexandros.lamprineas@arm.com>
Date: Wed, 6 Nov 2024 09:42:21 +0000
Subject: [PATCH 27/36] [FMV][AArch64] Remove features which expose non
 exploitable runtime behavior. (#355)

Feature `rpres` allows an increase in the precision of the
single-precision
floating-point reciprocal estimate and reciprocal square root estimate
from an 8-bit mantissa to a 12-bit mantissa depending on the value
FPCR.AH
of the Floating-point Control Register.

Similarly, `ebf16` allows existing floating-point instructions (BFDOT,
BFMMLA,
BFMOPA, BFMOPS, and BFVDOT) to change numeric behaviour depending on the
value FPCR.EBF of the Floating-point Control Register.

Feature `memtag3` allows Tag Check Faults to change behaviour depending
on
the value SCTLR_ELx.{TCF, TCF0} of the System Control Register.

The runtime detection in FMV does not examine the content of control
registers, therefore runtime dispatch cannot be based on that. One may
argue there is value in altering the control register from a version,
for example "msr dit, \#1" if the feature is available on hardware. The
registers FPCR and SCTLR_ELx can be accessed in the absence of rpres,
ebf16, and memtag3, making it hard to justify adding them to the
compiler.
---
 main/acle.md | 4 +---
 1 file changed, 1 insertion(+), 3 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index 175c72d9..7dceef50 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -419,6 +419,7 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
 * Unified Function Multi Versioning features memtag and memtag2.
 * Unified Function Multi Versioning features aes and pmull.
 * Unified Function Multi Versioning features sve2-aes and sve2-pmull128.
+* Removed Function Multi Versioning features ebf16, memtag3, and rpres.
 * Fixed range of operand `o0` (too small) in AArch64 system register designations.
 * Fixed SVE2.1 quadword gather load/scatter store intrinsics.
 
@@ -2803,8 +2804,6 @@ The following table lists the architectures feature mapping for AArch64
    | 260           | `FEAT_DGH`               | dgh           | ```ID_AA64ISAR1_EL1.DGH >= 0b0001```      |
    | 270           | `FEAT_I8MM`              | i8mm          | ```ID_AA64ISAR1_EL1.I8MM >= 0b0001```     |
    | 280           | `FEAT_BF16`              | bf16          | ```ID_AA64ISAR1_EL1.BF16 >= 0b0001```     |
-   | 290           | `FEAT_EBF16`             | ebf16         | ```ID_AA64ISAR1_EL1.BF16 >= 0b0010```     |
-   | 300           | `FEAT_RPRES`             | rpres         | ```ID_AA64ISAR2_EL1.RPRES >= 0b0001```    |
    | 310           | `FEAT_SVE`               | sve           | ```ID_AA64PFR0_EL1.SVE >= 0b0001```       |
    | 320           | `FEAT_BF16`              | sve-bf16      | ```ID_AA64ZFR0_EL1.BF16 >= 0b0001```      |
    | 330           | `FEAT_EBF16`             | sve-ebf16     | ```ID_AA64ZFR0_EL1.BF16 >= 0b0010```      |
@@ -2818,7 +2817,6 @@ The following table lists the architectures feature mapping for AArch64
    | 420           | `FEAT_SM3`, `FEAT_SVE_SM4` | sve2-sm4    | ```ID_AA64ZFR0_EL1.SM4 >= 0b0001```       |
    | 430           | `FEAT_SME`               | sme           | ```ID_AA64PFR1_EL1.SME >= 0b0001```       |
    | 440           | `FEAT_MTE`, `FEAT_MTE2`  | memtag        | ```ID_AA64PFR1_EL1.MTE >= 0b0010```       |
-   | 460           | `FEAT_MTE3`              | memtag3       | ```ID_AA64PFR1_EL1.MTE >= 0b0011```       |
    | 470           | `FEAT_SB`                | sb            | ```ID_AA64ISAR1_EL1.SB >= 0b0001```       |
    | 480           | `FEAT_SPECRES`           | predres       | ```ID_AA64ISAR1_EL1.SPECRES >= 0b0001```  |
    | 490           | `FEAT_SSBS`, `FEAT_SSBS2`| ssbs          | ```ID_AA64PFR1_EL1.SSBS >= 0b0010```      |

From 36736eac822a58c1cff644bfb7f8d29e61c49eb5 Mon Sep 17 00:00:00 2001
From: Claudio Bantaloukas <rockdreamer@gmail.com>
Date: Wed, 6 Nov 2024 16:57:56 +0000
Subject: [PATCH 28/36] Remove unnecessary argument from
 svcvtnb_mf8[_f32_x2]_fpm (#360)

The FCVTNB instruction overwrites all bits of the destination register,
thus passing an initial register argument is not required.
---
 main/acle.md | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/main/acle.md b/main/acle.md
index 7dceef50..ea6caee1 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -422,6 +422,7 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
 * Removed Function Multi Versioning features ebf16, memtag3, and rpres.
 * Fixed range of operand `o0` (too small) in AArch64 system register designations.
 * Fixed SVE2.1 quadword gather load/scatter store intrinsics.
+* Removed unnecessary Zd argument from `svcvtnb_mf8[_f32_x2]_fpm`.
 
 ### References
 
@@ -13098,7 +13099,7 @@ floating-point.
 Single-precision convert, narrow, and interleave to 8-bit floating-point (top and bottom).
 ``` c
   svmfloat8_t svcvtnt_mf8[_f32_x2]_fpm(svmfloat8_t zd, svfloat32x2_t zn, fpm_t fpm);
-  svmfloat8_t svcvtnb_mf8[_f32_x2]_fpm(svmfloat8_t zd, svfloat32x2_t zn, fpm_t fpm);
+  svmfloat8_t svcvtnb_mf8[_f32_x2]_fpm(svfloat32x2_t zn, fpm_t fpm);
 ```
 
 #### FDOT (4-way, vectors)

From d6f218b0c6a355930952917e04dc18c4ad60387f Mon Sep 17 00:00:00 2001
From: Claudio Bantaloukas <claudio.bantaloukas@arm.com>
Date: Mon, 25 Nov 2024 12:06:47 +0000
Subject: [PATCH 29/36] Update url to target attribute documentation (#366)

The link was pointing to an unmaintained documentation page that
happened to be indexed by search engines in preference to the actual
documentation.

---
name: Update url to target attribute documentation
about: Technical issues, document format problems, bugs in scripts or
feature proposal.

---

<!-- SPDX-FileCopyrightText: Copyright 2021-2022 Arm Limited and/or its
affiliates <open-source-office@arm.com> -->
<!-- SPDX-License-Identifier: Apache-2.0 -->

**Thank you for submitting a pull request!**

If this PR is about a bugfix:

Please use the bugfix label and make sure to go through the checklist
below.

If this PR is about a proposal:

We are looking forward to evaluate your proposal, and if possible to
make it part of the Arm C Language Extension (ACLE) specifications.

We would like to encourage you reading through the [contribution

guidelines](https://github.com/ARM-software/acle/blob/main/CONTRIBUTING.md),
in particular the section on [submitting
a
proposal](https://github.com/ARM-software/acle/blob/main/CONTRIBUTING.md#proposals-for-new-content).

Please use the proposal label.

As for any pull request, please make sure to go through the below
checklist.

Checklist: (mark with ``X`` those which apply)

* [ ] If an issue reporting the bug exists, I have mentioned it in the
      PR (do not bother creating the issue if all you want to do is
      fixing the bug yourself).
* [ ] I have added/updated the `SPDX-FileCopyrightText` lines on top
      of any file I have edited. Format is `SPDX-FileCopyrightText:
      Copyright {year} {entity or name} <{contact informations}>`
      (Please update existing copyright lines if applicable. You can
      specify year ranges with hyphen , as in `2017-2019`, and use
      commas to separate gaps, as in `2018-2020, 2022`).
* [ ] I have updated the `Copyright` section of the sources of the
      specification I have edited (this will show up in the text
      rendered in the PDF and other output format supported). The
      format is the same described in the previous item.
* [x] I have run the CI scripts (if applicable, as they might be
      tricky to set up on non-*nix machines). The sequence can be
      found in the [contribution

guidelines](https://github.com/ARM-software/acle/blob/main/CONTRIBUTING.md#continuous-integration).
Don't
      worry if you cannot run these scripts on your machine, your
      patch will be automatically checked in the Actions of the pull
      request.
* [x] I have added an item that describes the changes I have
      introduced in this PR in the section **Changes for next
      release** of the section **Change Control**/**Document history**
      of the document. Create **Changes for next release** if it does
      not exist. Notice that changes that are not modifying the
      content and rendering of the specifications (both HTML and PDF)
      do not need to be listed.
* [x] When modifying content and/or its rendering, I have checked the
      correctness of the result in the PDF output (please refer to the
      instructions on [how to build the PDFs

locally](https://github.com/ARM-software/acle/blob/main/CONTRIBUTING.md#continuous-integration)).
* [x] The variable `draftversion` is set to `true` in the YAML header
      of the sources of the specifications I have modified.
* [ ] Please *DO NOT* add my GitHub profile to the list of contributors
in the
[README](https://github.com/ARM-software/acle/blob/main/README.md#contributors-)
page of the project.
---
 main/acle.md                                       | 3 ++-
 main/design_documents/function-multi-versioning.md | 2 +-
 2 files changed, 3 insertions(+), 2 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index ea6caee1..b038a5ee 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -423,6 +423,7 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
 * Fixed range of operand `o0` (too small) in AArch64 system register designations.
 * Fixed SVE2.1 quadword gather load/scatter store intrinsics.
 * Removed unnecessary Zd argument from `svcvtnb_mf8[_f32_x2]_fpm`.
+* Fixed urls.
 
 ### References
 
@@ -2584,7 +2585,7 @@ be found in [[BA]](#BA).
 
 This section describes ACLE features that use GNU-style attributes.
 The general rules for attribute syntax are described in the GCC
-documentation <https://gcc.gnu.org/onlinedocs/gcc/extensions-to-the-c-language-family/attribute-syntax.html>.
+documentation <https://gcc.gnu.org/onlinedocs/gcc/Attribute-Syntax.html>.
 Briefly, for this declaration:
 
 ``` c
diff --git a/main/design_documents/function-multi-versioning.md b/main/design_documents/function-multi-versioning.md
index 57283458..73bf08f5 100644
--- a/main/design_documents/function-multi-versioning.md
+++ b/main/design_documents/function-multi-versioning.md
@@ -25,7 +25,7 @@ derived from a function via FMV:
 2. the derived function obey to the same calling convention of the original
 function.
 
-Currently the `target` [attribute for aarch64](https://gcc.gnu.org/onlinedocs/gcc/extensions-to-the-c-language-family/declaring-attributes-of-functions/aarch64-function-attributes.html)
+Currently the `target` [attribute for aarch64](https://gcc.gnu.org/onlinedocs/gcc/AArch64-Function-Attributes.html)
 is used for many purposes, some of which might overlap the functionality
 introduced by FMV. To avoid confusion, we named the attributes used by FMV with
 `target_version` and `target_clones`.

From f6190ce920cc3e8937bc143bb4608a9f17480110 Mon Sep 17 00:00:00 2001
From: Kerry McLaughlin <kerry.mclaughlin@arm.com>
Date: Tue, 26 Nov 2024 09:37:51 +0000
Subject: [PATCH 30/36] Include SME attributes in the name mangling of types
 (#358)

This change extends the name mangling of types to include the SME
streaming and ZA interface. This will avoid naming conflicts which can
currently arise such as in the following example:

```
  void foo(void (*f)()) { f(); }
  void foo(void (*f)() __arm_streaming) { f(); }
```

Without this change, both functions 'foo' above will mangle to the same
name, despite the function pointers being different.
---
 main/acle.md | 60 ++++++++++++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 60 insertions(+)

diff --git a/main/acle.md b/main/acle.md
index b038a5ee..1182f7bb 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -424,6 +424,7 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
 * Fixed SVE2.1 quadword gather load/scatter store intrinsics.
 * Removed unnecessary Zd argument from `svcvtnb_mf8[_f32_x2]_fpm`.
 * Fixed urls.
+* Changed name mangling of function types to include SME attributes.
 
 ### References
 
@@ -10094,6 +10095,65 @@ an [`__arm_streaming`](#arm_streaming) type.
 See [Changing streaming mode locally](#changing-streaming-mode-locally)
 for more information.
 
+### C++ mangling of SME keywords
+
+SME keyword attributes which apply to function types must be included
+in the name mangling of the type, if the mangling would normally include
+the return type of the function.
+
+SME attributes are mangled in the same way as a template:
+
+``` c
+  template<typename, uint64_t> __SME_ATTRS;
+```
+
+with the arguments:
+
+``` c
+  __SME_ATTRS<normal_function_type, sme_state>;
+```
+
+where:
+
+* normal_function_type is the function type without any SME attributes.
+
+* sme_state is an unsigned 64-bit integer representing the streaming and ZA
+  properties of the function's interface.
+
+The bits are defined as follows:
+
+| **Bits** | **Value** | **Interface Type**             |
+| -------- | --------- | ------------------------------ |
+| 0        | 0b1       | __arm_streaming                |
+| 1        | 0b1       | __arm_streaming_compatible     |
+| 2        | 0b1       | __arm_agnostic("sme_za_state") |
+| 3-5      | 0b000     | No ZA state (default)          |
+|          | 0b001     | __arm_in("za")                 |
+|          | 0b010     | __arm_out("za")                |
+|          | 0b011     | __arm_inout("za")              |
+|          | 0b100     | __arm_preserves("za")          |
+| 6-8      | 0b000     | No ZT0 state (default)         |
+|          | 0b001     | __arm_in("zt0")                |
+|          | 0b010     | __arm_out("zt0")               |
+|          | 0b011     | __arm_inout("zt0")             |
+|          | 0b100     | __arm_preserves("zt0")         |
+
+Bits 9-63 are defined to be zero by this revision of the ACLE and are reserved
+for future type attributes.
+
+For example:
+
+``` c
+  // Mangled as _Z1fP11__SME_ATTRSIFu10__SVInt8_tvELj1EE
+  void f(svint8_t (*fn)() __arm_streaming) { fn(); }
+
+  // Mangled as _Z1fP11__SME_ATTRSIFu10__SVInt8_tvELj26EE
+  void f(svint8_t (*fn)() __arm_streaming_compatible __arm_inout("za")) { fn(); }
+
+  // Mangled as _Z1fP11__SME_ATTRSIFu10__SVInt8_tvELj128EE
+  void f(svint8_t (*fn)() __arm_out("zt0")) { fn(); }
+```
+
 ## SME types
 
 ### Predicate-as-counter

From e9cb1e495995aa9eaadf08a8923ce2fc73fc315b Mon Sep 17 00:00:00 2001
From: SpencerAbson <Spencer.Abson@arm.com>
Date: Fri, 29 Nov 2024 16:51:38 +0000
Subject: [PATCH 31/36] Change __ARM_NEON_SVE_BRIDGE to refer to the
 availability of the header (#362)

**Afterthought**: Another way of looking at this is that the user should
not expect to be able to use intrinsics after specifying the relevant
target features via anything other than the command line, it's unclear
to me if this is the case.

The ACLE suggests the use of the predefined `__ARM_NEON_SVE_BRIDGE`
macro to gaurd the inclusion of `arm_neon_sve_bridge.h`.

><arm_neon_sve_bridge.h> defines intrinsics for moving data between Neon
and SVE vector types; see [NEON-SVE
Bridge](https://github.com/ARM-software/acle/blob/main/main/acle.md#neon-sve-bridge)
for details. Before including the header, you should test the
__ARM_NEON_SVE_BRIDGE macro.

The current definition of this macro is
>`__ARM_NEON_SVE_BRIDGE` is defined to 1 if [NEON-SVE
Bridge](#neon-sve-bridge)
intrinsics are available. This implies that the following macros are
nonzero
>  -  __ARM_NEON
> - __ARM_NEON_FP
>  -  __ARM_FEATURE_SVE

The intrinsics described here are not preprocessor guarded (See [change
for LLVM]( https://reviews.llvm.org/D132639)). We should expect to be
able to use them in any function with the necessary features, whether
they are supplied globally on the command line or via a `target`
attribute.

However, since we cannot make assumptions about the order in which the
predefined feature macros are evaluated (see [relevant
ACLE](https://github.com/ARM-software/acle/blob/main/main/acle.md#predefined-feature-macros-and-header-file)),
we cannot use the `__ARM_NEON_SVE_BRIDGE` macro to guard the inclusion
of `arm_neon_sve_bridge.h` **and** expect to use it's builtins in unless
the required features are supplied globally on the command line.

See an example of this issue (in LLVM Vs. GCC) from @georges-arm -
https://godbolt.org/z/6YPvqdjTv.

The proposal of this PR is to change the meaning of
`__ARM_NEON_SVE_BRIDGE` to refer to the availability of the
`arm_neon_sve_bridge.h` header file only, such that it can be
unconditionally defined in supporting compilers and it's builtins can be
safely used in the context of the example above.
---
 main/acle.md | 17 ++++++++---------
 1 file changed, 8 insertions(+), 9 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index 1182f7bb..6589011c 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -241,7 +241,7 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
   specifications in [Cortex-M Security Extension
   (CMSE)](#cortex-m-security-extension-cmse).
 * Added specification for [NEON-SVE Bridge](#neon-sve-bridge) and
-  [NEON-SVE Bridge macros](#neon-sve-bridge-macros).
+  [NEON-SVE Bridge macros](#neon-sve-bridge-macro).
 * Added feature detection macro for the memcpy family of memory
   operations (MOPS) at [memcpy family of memory operations
   standarization instructions -
@@ -425,6 +425,9 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
 * Removed unnecessary Zd argument from `svcvtnb_mf8[_f32_x2]_fpm`.
 * Fixed urls.
 * Changed name mangling of function types to include SME attributes.
+* Changed `__ARM_NEON_SVE_BRIDGE` to refer to the availability of the
+  [`arm_neon_sve_bridge.h`](#arm_neon_sve_bridge.h) header file, rather
+  than the [NEON-SVE bridge](#neon-sve-bridge) intrinsics.
 
 ### References
 
@@ -1928,14 +1931,10 @@ are available. This implies that `__ARM_FEATURE_SVE` is nonzero.
  are available and if the associated [ACLE features]
 (#sme-language-extensions-and-intrinsics) are supported.
 
-#### NEON-SVE Bridge macros
+#### NEON-SVE Bridge macro
 
-`__ARM_NEON_SVE_BRIDGE` is defined to 1 if [NEON-SVE Bridge](#neon-sve-bridge)
-intrinsics are available. This implies that the following macros are nonzero:
-
-* `__ARM_NEON`
-* `__ARM_NEON_FP`
-* `__ARM_FEATURE_SVE`
+`__ARM_NEON_SVE_BRIDGE` is defined to 1 if the [`<arm_neon_sve_bridge.h>`](#arm_neon_sve_bridge.h)
+header file is available.
 
 #### Scalable Matrix Extension (SME)
 
@@ -2570,7 +2569,7 @@ be found in [[BA]](#BA).
 | [`__ARM_FP_FENV_ROUNDING`](#floating-point-model)                                                                                                       | Rounding is configurable at runtime                                                                | 1           |
 | [`__ARM_NEON`](#advanced-simd-architecture-extension-neon)                                                                                              | Advanced SIMD (Neon) extension                                                                     | 1           |
 | [`__ARM_NEON_FP`](#neon-floating-point)                                                                                                                 | Advanced SIMD (Neon) floating-point                                                                | 0x04        |
-| [`__ARM_NEON_SVE_BRIDGE`](#neon-sve-bridge-macros)                                                                                                      | Moving data between Neon and SVE data types                                                        | 1           |
+| [`__ARM_NEON_SVE_BRIDGE`](#neon-sve-bridge-macro)                                                                                                       | Availability of [`arm_neon_sve_brdge.h`](#arm_neon_sve_bridge.h)                                   | 1           |
 | [`__ARM_PCS`](#procedure-call-standard)                                                                                                                 | Arm procedure call standard (32-bit-only)                                                          | 0x01        |
 | [`__ARM_PCS_AAPCS64`](#procedure-call-standard)                                                                                                         | Arm PCS for AArch64.                                                                               | 1           |
 | [`__ARM_PCS_VFP`](#procedure-call-standard)                                                                                                             | Arm PCS hardware FP variant in use (32-bit-only)                                                   | 1           |

From 6d6b40b6cf341b31a87fd04be724ebf04b496a1d Mon Sep 17 00:00:00 2001
From: "allcontributors[bot]"
 <46447321+allcontributors[bot]@users.noreply.github.com>
Date: Fri, 29 Nov 2024 16:54:19 +0000
Subject: [PATCH 32/36] docs: add SpencerAbson as a contributor for content
 (#367)

Adds @SpencerAbson as a contributor for content.

This was requested by vhscampos [in this
comment](https://github.com/ARM-software/acle/pull/362#issuecomment-2508148895)

[skip ci]

---------

Co-authored-by: allcontributors[bot] <46447321+allcontributors[bot]@users.noreply.github.com>
---
 .all-contributorsrc | 9 +++++++++
 README.md           | 3 ++-
 2 files changed, 11 insertions(+), 1 deletion(-)

diff --git a/.all-contributorsrc b/.all-contributorsrc
index 657fbc50..560cd3db 100644
--- a/.all-contributorsrc
+++ b/.all-contributorsrc
@@ -342,6 +342,15 @@
       "contributions": [
         "content"
       ]
+    },
+    {
+      "login": "SpencerAbson",
+      "name": "SpencerAbson",
+      "avatar_url": "https://avatars.githubusercontent.com/u/76910239?v=4",
+      "profile": "https://github.com/SpencerAbson",
+      "contributions": [
+        "content"
+      ]
     }
   ],
   "contributorsPerLine": 7,
diff --git a/README.md b/README.md
index 9d95d9f3..a31c1ae7 100644
--- a/README.md
+++ b/README.md
@@ -6,7 +6,7 @@
 </div>
 
 <!-- ALL-CONTRIBUTORS-BADGE:START - Do not remove or modify this section -->
-[![All Contributors](https://img.shields.io/badge/all_contributors-36-orange.svg?style=flat-square)](#contributors-)
+[![All Contributors](https://img.shields.io/badge/all_contributors-37-orange.svg?style=flat-square)](#contributors-)
 <!-- ALL-CONTRIBUTORS-BADGE:END -->
 ![Continuous Integration](https://github.com/ARM-software/acle/actions/workflows/ci.yml/badge.svg)
 
@@ -134,6 +134,7 @@ Thanks goes to these wonderful people ([emoji key](https://allcontributors.org/d
     </tr>
     <tr>
       <td align="center" valign="top" width="14.28%"><a href="https://github.com/v01dXYZ"><img src="https://avatars.githubusercontent.com/u/14996868?v=4?s=100" width="100px;" alt="Robert Dazi"/><br /><sub><b>Robert Dazi</b></sub></a><br /><a href="#content-v01dXYZ" title="Content">🖋</a></td>
+      <td align="center" valign="top" width="14.28%"><a href="https://github.com/SpencerAbson"><img src="https://avatars.githubusercontent.com/u/76910239?v=4?s=100" width="100px;" alt="SpencerAbson"/><br /><sub><b>SpencerAbson</b></sub></a><br /><a href="#content-SpencerAbson" title="Content">🖋</a></td>
     </tr>
   </tbody>
 </table>

From 33a0cb30f67291862497547662f7c62e6b52e93f Mon Sep 17 00:00:00 2001
From: Alexandros Lamprineas <alexandros.lamprineas@arm.com>
Date: Wed, 4 Dec 2024 09:04:14 +0000
Subject: [PATCH 33/36] [FMV][AArch64] Remove feature dgh since it can be used
 unconditionally. (#357)

The DGH instruction belongs to the hint space. It executes as NOP if the
corresponding feature is not present in hardware, so there's no need for
runtime dispatch.
---
 main/acle.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/main/acle.md b/main/acle.md
index 6589011c..244067ca 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -420,6 +420,7 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
 * Unified Function Multi Versioning features aes and pmull.
 * Unified Function Multi Versioning features sve2-aes and sve2-pmull128.
 * Removed Function Multi Versioning features ebf16, memtag3, and rpres.
+* Removed Function Multi Versioning feature dgh.
 * Fixed range of operand `o0` (too small) in AArch64 system register designations.
 * Fixed SVE2.1 quadword gather load/scatter store intrinsics.
 * Removed unnecessary Zd argument from `svcvtnb_mf8[_f32_x2]_fpm`.
@@ -2803,7 +2804,6 @@ The following table lists the architectures feature mapping for AArch64
    | 240           | `FEAT_LRCPC2`            | rcpc2         | ```ID_AA64ISAR1_EL1.LRCPC >= 0b0010```    |
    | 241           | `FEAT_LRCPC3`            | rcpc3         | ```ID_AA64ISAR1_EL1.LRCPC >= 0b0011```    |
    | 250           | `FEAT_FRINTTS`           | frintts       | ```ID_AA64ISAR1_EL1.FRINTTS >= 0b0001```  |
-   | 260           | `FEAT_DGH`               | dgh           | ```ID_AA64ISAR1_EL1.DGH >= 0b0001```      |
    | 270           | `FEAT_I8MM`              | i8mm          | ```ID_AA64ISAR1_EL1.I8MM >= 0b0001```     |
    | 280           | `FEAT_BF16`              | bf16          | ```ID_AA64ISAR1_EL1.BF16 >= 0b0001```     |
    | 310           | `FEAT_SVE`               | sve           | ```ID_AA64PFR0_EL1.SVE >= 0b0001```       |

From 11ce13e67e58c918fb0ce5b3b1c74dc1adf97388 Mon Sep 17 00:00:00 2001
From: Alexandros Lamprineas <alexandros.lamprineas@arm.com>
Date: Fri, 6 Dec 2024 09:49:42 +0000
Subject: [PATCH 34/36] [FMV] Remove features which can be expressed as a
 combination of other features (#353)

All of sve-bf16, sve-ebf16, and sve-i8mm are obsolete. This is already
reflected on the second column of the FMV table (we have bf16, ebf16,
and i8mm with the same Architecture name).

According to https://developer.arm.com/documentation/ddi0487/latest Arm
Architecture Reference Manual for A-profile architecture:

D23.2.72 ID_AA64ISAR1_EL1, AArch64 Instruction Set Attribute Register 1

ID_AA64ISAR1_EL1.I8MM, bits [55:52]

> When Advanced SIMD and SVE are both implemented, this field must
return
> the same value as ID_AA64ZFR0_EL1.I8MM

ID_AA64ISAR1_EL1.BF16, bits [47:44]

> When FEAT_SVE or FEAT_SME is implemented, this field must return the
> same value as ID_AA64ZFR0_EL1.BF16.

So one could write target_version("sve+bf16") or sme+bf16 instead.

There is a proposal to explicitely document FMV feature dependences in
ACLE, so that the user won't have to write long feature strings on the
attributes like sve+simd+i8mm (sve+i8mm should be enough).
---
 main/acle.md | 4 +---
 1 file changed, 1 insertion(+), 3 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index 244067ca..232b8ba1 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -419,6 +419,7 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
 * Unified Function Multi Versioning features memtag and memtag2.
 * Unified Function Multi Versioning features aes and pmull.
 * Unified Function Multi Versioning features sve2-aes and sve2-pmull128.
+* Removed Function Multi Versioning features sve-bf16, sve-ebf16, and sve-i8mm.
 * Removed Function Multi Versioning features ebf16, memtag3, and rpres.
 * Removed Function Multi Versioning feature dgh.
 * Fixed range of operand `o0` (too small) in AArch64 system register designations.
@@ -2807,9 +2808,6 @@ The following table lists the architectures feature mapping for AArch64
    | 270           | `FEAT_I8MM`              | i8mm          | ```ID_AA64ISAR1_EL1.I8MM >= 0b0001```     |
    | 280           | `FEAT_BF16`              | bf16          | ```ID_AA64ISAR1_EL1.BF16 >= 0b0001```     |
    | 310           | `FEAT_SVE`               | sve           | ```ID_AA64PFR0_EL1.SVE >= 0b0001```       |
-   | 320           | `FEAT_BF16`              | sve-bf16      | ```ID_AA64ZFR0_EL1.BF16 >= 0b0001```      |
-   | 330           | `FEAT_EBF16`             | sve-ebf16     | ```ID_AA64ZFR0_EL1.BF16 >= 0b0010```      |
-   | 340           | `FEAT_I8MM`              | sve-i8mm      | ```ID_AA64ZFR0_EL1.I8MM >= 0b00001```     |
    | 350           | `FEAT_F32MM`             | f32mm         | ```ID_AA64ZFR0_EL1.F32MM >= 0b00001```    |
    | 360           | `FEAT_F64MM`             | f64mm         | ```ID_AA64ZFR0_EL1.F64MM >= 0b00001```    |
    | 370           | `FEAT_SVE2`              | sve2          | ```ID_AA64ZFR0_EL1.SVEver >= 0b0001```    |

From 73c35a3d26d929244910338ae88db778640a8a30 Mon Sep 17 00:00:00 2001
From: Alexandros Lamprineas <alexandros.lamprineas@arm.com>
Date: Thu, 12 Dec 2024 15:53:14 +0000
Subject: [PATCH 35/36] [FMV] Document feature dependencies and detect at
 selection. (#368)

---
 main/acle.md | 50 +++++++++++++++++++++++++++++++++++++++++++++-----
 1 file changed, 45 insertions(+), 5 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index 232b8ba1..79ad91c6 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -422,6 +422,7 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
 * Removed Function Multi Versioning features sve-bf16, sve-ebf16, and sve-i8mm.
 * Removed Function Multi Versioning features ebf16, memtag3, and rpres.
 * Removed Function Multi Versioning feature dgh.
+* Document Function Multi Versioning feature dependencies.
 * Fixed range of operand `o0` (too small) in AArch64 system register designations.
 * Fixed SVE2.1 quadword gather load/scatter store intrinsics.
 * Removed unnecessary Zd argument from `svcvtnb_mf8[_f32_x2]_fpm`.
@@ -2675,8 +2676,6 @@ The following attributes trigger the multi version code generation:
 * The `default` version means the version of the function that would
   be generated without these attributes.
 * `name` is the dependent features from the tables below.
-  * If a feature depends on another feature as defined by the Architecture
-    Reference Manual then no need to explicitly state in the attribute[^fmv-note-names].
 * The dependent features could be joined by the `+` sign.
 * None of these attributes will enable the corresponding ACLE feature(s)
   associated to the `name` expressed in the attribute.
@@ -2686,9 +2685,6 @@ The following attributes trigger the multi version code generation:
 * FMV may be disabled in compile time by a compiler flag. In this
   case the `default` version shall be used.
 
-[^fmv-note-names]: For example the `sve_bf16` feature depends on `sve`
-  but it is enough to say `target_version("sve_bf16")` in the code.
-
 The attribute `__attribute__((target_version("name")))` expresses the
 following:
 
@@ -2828,6 +2824,50 @@ The following table lists the architectures feature mapping for AArch64
    | 580           | `FEAT_SME2`              | sme2          | ```ID_AA64PFR1_EL1.SMEver >= 0b0001```    |
    | 650           | `FEAT_MOPS`              | mops          | ```ID_AA64ISAR2_EL1.MOPS >= 0b0001```     |
 
+### Dependencies
+
+If a feature depends on another feature as defined by the table below then:
+
+* the depended-on feature *need not* be specified in the attribute,
+* the depended-on feature *may* be specified in the attribute.
+
+These dependencies are taken into account transitively when selecting the
+most appropriate version of a function (see section [Selection](#selection)).
+The following table lists the feature dependencies for AArch64.
+
+   | **Feature**      | **Depends on**    |
+   | ---------------- | ----------------- |
+   | flagm2           | flagm             |
+   | simd             | fp                |
+   | dotprod          | simd              |
+   | sm4              | simd              |
+   | rdm              | simd              |
+   | sha2             | simd              |
+   | sha3             | sha2              |
+   | aes              | simd              |
+   | fp16             | fp                |
+   | fp16fml          | simd, fp16        |
+   | dpb2             | dpb               |
+   | jscvt            | fp                |
+   | fcma             | simd              |
+   | rcpc2            | rcpc              |
+   | rcpc3            | rcpc2             |
+   | frintts          | fp                |
+   | i8mm             | simd              |
+   | bf16             | simd              |
+   | sve              | fp16              |
+   | f32mm            | sve               |
+   | f64mm            | sve               |
+   | sve2             | sve               |
+   | sve2-aes         | sve2, aes         |
+   | sve2-bitperm     | sve2              |
+   | sve2-sha3        | sve2, sha3        |
+   | sve2-sm4         | sve2, sm4         |
+   | sme              | fp16, bf16        |
+   | sme-f64f64       | sme               |
+   | sme-i16i64       | sme               |
+   | sme2             | sme               |
+
 ### Selection
 
 The following rules shall be followed by all implementations:

From ff7467b9f1dae7e3cd38463b3377c5e27d31dd01 Mon Sep 17 00:00:00 2001
From: rsandifo-arm <richard.sandiford@arm.com>
Date: Wed, 18 Dec 2024 15:51:05 +0000
Subject: [PATCH 36/36] Some tweaks to the SVE2p1 load and store intrinsics
 (#359)

The pre-SVE2p1 gather and scatter intrinsics allow vector displacements
(offsets or indices) to be either signed or unsigned. svld1q and svst1q
instead required them to be unsigned. This patch adds signed versions
too, for consistency.

Also, the SVE2p1 stores were specified to take pointers to const, but
they ought to be pointers to non-const instead.
---
 main/acle.md | 17 +++++++++++------
 1 file changed, 11 insertions(+), 6 deletions(-)

diff --git a/main/acle.md b/main/acle.md
index 79ad91c6..3e434b5c 100644
--- a/main/acle.md
+++ b/main/acle.md
@@ -431,6 +431,7 @@ Armv8.4-A [[ARMARMv84]](#ARMARMv84). Support is added for the Dot Product intrin
 * Changed `__ARM_NEON_SVE_BRIDGE` to refer to the availability of the
   [`arm_neon_sve_bridge.h`](#arm_neon_sve_bridge.h) header file, rather
   than the [NEON-SVE bridge](#neon-sve-bridge) intrinsics.
+* Removed extraneous `const` from SVE2.1 store intrinsics.
 
 ### References
 
@@ -9221,11 +9222,13 @@ Gather Load Quadword.
    // _mf8, _bf16, _f16, _f32, _f64
    svint8_t svld1q_gather[_u64base]_s8(svbool_t pg, svuint64_t zn);
    svint8_t svld1q_gather[_u64base]_offset_s8(svbool_t pg, svuint64_t zn, int64_t offset);
+   svint8_t svld1q_gather_[s64]offset[_s8](svbool_t pg, const int8_t *base, svint64_t offset);
    svint8_t svld1q_gather_[u64]offset[_s8](svbool_t pg, const int8_t *base, svuint64_t offset);
 
    // Variants are also available for:
    // _u16, _u32, _s32, _u64, _s64
    // _bf16, _f16, _f32, _f64
+   svint16_t svld1q_gather_[s64]index[_s16](svbool_t pg, const int16_t *base, svint64_t index);
    svint16_t svld1q_gather_[u64]index[_s16](svbool_t pg, const int16_t *base, svuint64_t index);
    svint16_t svld1q_gather[_u64base]_index_s16(svbool_t pg, svuint64_t zn, int64_t index);
    ```
@@ -9295,14 +9298,14 @@ Contiguous store of single vector operand, truncating from quadword.
 ``` c
    // Variants are also available for:
    // _u32, _s32
-   void svst1wq[_f32](svbool_t, const float32_t *ptr, svfloat32_t data);
-   void svst1wq_vnum[_f32](svbool_t, const float32_t *ptr, int64_t vnum, svfloat32_t data);
+   void svst1wq[_f32](svbool_t, float32_t *ptr, svfloat32_t data);
+   void svst1wq_vnum[_f32](svbool_t, float32_t *ptr, int64_t vnum, svfloat32_t data);
  
 
    // Variants are also available for:
    // _u64, _s64
-   void svst1dq[_f64](svbool_t, const float64_t *ptr, svfloat64_t data);
-   void svst1dq_vnum[_f64](svbool_t, const float64_t *ptr, int64_t vnum, svfloat64_t data);
+   void svst1dq[_f64](svbool_t, float64_t *ptr, svfloat64_t data);
+   void svst1dq_vnum[_f64](svbool_t, float64_t *ptr, int64_t vnum, svfloat64_t data);
    ```
 
 #### ST1Q
@@ -9315,12 +9318,14 @@ Scatter store quadwords.
    // _mf8, _bf16, _f16, _f32, _f64
    void svst1q_scatter[_u64base][_s8](svbool_t pg, svuint64_t zn, svint8_t data);
    void svst1q_scatter[_u64base]_offset[_s8](svbool_t pg, svuint64_t zn, int64_t offset, svint8_t data);
-   void svst1q_scatter_[u64]offset[_s8](svbool_t pg, const uint8_t *base, svuint64_t offset, svint8_t data);
+   void svst1q_scatter_[s64]offset[_s8](svbool_t pg, uint8_t *base, svint64_t offset, svint8_t data);
+   void svst1q_scatter_[u64]offset[_s8](svbool_t pg, uint8_t *base, svuint64_t offset, svint8_t data);
 
    // Variants are also available for:
    // _u16, _u32, _s32, _u64, _s64
    // _bf16, _f16, _f32, _f64
-   void svst1q_scatter_[u64]index[_s16](svbool_t pg, const int16_t *base, svuint64_t index, svint16_t data);
+   void svst1q_scatter_[s64]index[_s16](svbool_t pg, int16_t *base, svint64_t index, svint16_t data);
+   void svst1q_scatter_[u64]index[_s16](svbool_t pg, int16_t *base, svuint64_t index, svint16_t data);
    void svst1q_scatter[_u64base]_index[_s16](svbool_t pg, svuint64_t zn, int64_t index, svint16_t data);
 ```