[CIR][AArch64] Implement NEON builtin vaddlvq_u8

bcardosolopes · bcardosolopes · commit a0ba0c882243 · 2025-12-03T10:42:26.000-08:00
diff --git a/clang/lib/CIR/CodeGen/CIRGenBuiltinAArch64.cpp b/clang/lib/CIR/CodeGen/CIRGenBuiltinAArch64.cpp
@@ -4431,7 +4431,11 @@ CIRGenFunction::emitAArch64BuiltinExpr(unsigned BuiltinID, const CallExpr *E,
     llvm_unreachable("NEON::BI__builtin_neon_vmul_n_f64 NYI");
   }
   case NEON::BI__builtin_neon_vaddlvq_u8: {
-    llvm_unreachable("NEON::BI__builtin_neon_vaddlvq_u8 NYI");
+    cir::VectorType vTy = cir::VectorType::get(UInt8Ty, 16);
+    Ops.push_back(emitScalarExpr(E->getArg(0)));
+    Ops[0] = emitNeonCall(builder, {vTy}, Ops, "aarch64.neon.uaddlv",
+                          UInt32Ty, getLoc(E->getExprLoc()));
+    return builder.createIntCast(Ops[0], UInt16Ty);
   }
   case NEON::BI__builtin_neon_vaddlvq_u16:
     usgn = true;
diff --git a/clang/test/CIR/CodeGen/AArch64/neon.c b/clang/test/CIR/CodeGen/AArch64/neon.c
@@ -6823,7 +6823,7 @@ int8x8_t test_vqshrn_n_s16(int16x8_t a) {
   return vqshrn_n_s16(a, 3);
 
   // CIR-LABEL: vqshrn_n_s16
-  // CIR: cir.llvm.intrinsic "aarch64.neon.sqshrn" {{%.*}}, {{%.*}} : 
+  // CIR: cir.llvm.intrinsic "aarch64.neon.sqshrn" {{%.*}}, {{%.*}} :
   // CIR-SAME: (!cir.vector<!s16i x 8>, !s32i) -> !cir.vector<!s8i x 8>
 
   // LLVM:{{.*}}test_vqshrn_n_s16(<8 x i16>{{.*}}[[A:%.*]])
@@ -6834,7 +6834,7 @@ int16x4_t test_vqshrn_n_s32(int32x4_t a) {
   return vqshrn_n_s32(a, 9);
 
   // CIR-LABEL: vqshrn_n_s32
-  // CIR: cir.llvm.intrinsic "aarch64.neon.sqshrn" {{%.*}}, {{%.*}} : 
+  // CIR: cir.llvm.intrinsic "aarch64.neon.sqshrn" {{%.*}}, {{%.*}} :
   // CIR-SAME: (!cir.vector<!s32i x 4>, !s32i) -> !cir.vector<!s16i x 4>
 
   // LLVM:{{.*}}test_vqshrn_n_s32(<4 x i32>{{.*}}[[A:%.*]])
@@ -6845,7 +6845,7 @@ int32x2_t test_vqshrn_n_s64(int64x2_t a) {
   return vqshrn_n_s64(a, 19);
 
   // CIR-LABEL: vqshrn_n_s64
-  // CIR: cir.llvm.intrinsic "aarch64.neon.sqshrn" {{%.*}}, {{%.*}} : 
+  // CIR: cir.llvm.intrinsic "aarch64.neon.sqshrn" {{%.*}}, {{%.*}} :
   // CIR-SAME: (!cir.vector<!s64i x 2>, !s32i) -> !cir.vector<!s32i x 2>
 
   // LLVM:{{.*}}test_vqshrn_n_s64(<2 x i64>{{.*}}[[A:%.*]])
@@ -6856,7 +6856,7 @@ uint8x8_t test_vqshrn_n_u16(uint16x8_t a) {
   return vqshrn_n_u16(a, 3);
 
   // CIR-LABEL: vqshrn_n_u16
-  // CIR: cir.llvm.intrinsic "aarch64.neon.uqshrn" {{%.*}}, {{%.*}} : 
+  // CIR: cir.llvm.intrinsic "aarch64.neon.uqshrn" {{%.*}}, {{%.*}} :
   // CIR-SAME: (!cir.vector<!u16i x 8>, !s32i) -> !cir.vector<!u8i x 8>
 
   // LLVM:{{.*}}test_vqshrn_n_u16(<8 x i16>{{.*}}[[A:%.*]])
@@ -6867,7 +6867,7 @@ uint16x4_t test_vqshrn_n_u32(uint32x4_t a) {
   return vqshrn_n_u32(a, 9);
 
   // CIR-LABEL: vqshrn_n_u32
-  // CIR: cir.llvm.intrinsic "aarch64.neon.uqshrn" {{%.*}}, {{%.*}} : 
+  // CIR: cir.llvm.intrinsic "aarch64.neon.uqshrn" {{%.*}}, {{%.*}} :
   // CIR-SAME: (!cir.vector<!u32i x 4>, !s32i) -> !cir.vector<!u16i x 4>
 
   // LLVM:{{.*}}test_vqshrn_n_u32(<4 x i32>{{.*}}[[A:%.*]])
@@ -6878,7 +6878,7 @@ uint32x2_t test_vqshrn_n_u64(uint64x2_t a) {
   return vqshrn_n_u64(a, 19);
 
   // CIR-LABEL: vqshrn_n_u64
-  // CIR: cir.llvm.intrinsic "aarch64.neon.uqshrn" {{%.*}}, {{%.*}} : 
+  // CIR: cir.llvm.intrinsic "aarch64.neon.uqshrn" {{%.*}}, {{%.*}} :
   // CIR-SAME: (!cir.vector<!u64i x 2>, !s32i) -> !cir.vector<!u32i x 2>
 
   // LLVM:{{.*}}test_vqshrn_n_u64(<2 x i64>{{.*}}[[A:%.*]])
@@ -19232,3 +19232,21 @@ float64x2_t test_vld1q_dup_f64(float64_t const * ptr) {
 // LLVM: [[VAL:%.*]] = load double, ptr [[PTR]], align 8
 // LLVM: [[VEC:%.*]] = insertelement <2 x double> poison, double [[VAL]], i64 0
 // LLVM: {{%.*}} = shufflevector <2 x double> [[VEC]], <2 x double> poison, <2 x i32> zeroinitializer
+
+uint16_t test_vaddlvq_u8(uint8x16_t a) {
+  return vaddlvq_u8(a);
+
+  // CIR-LABEL: vaddlvq_u8
+  // CIR: {{%.*}} = cir.llvm.intrinsic "aarch64.neon.uaddlv" {{%.*}} : (!cir.vector<!u8i x 16>) -> !u32i
+  // CIR: {{%.*}} = cir.cast integral {{%.*}} : !u32i -> !u16i
+
+  // LLVM-LABEL: @test_vaddlvq_u8
+  // LLVM: {{%.*}} = call i32 @llvm.aarch64.neon.uaddlv.i32.v16i8(<16 x i8> {{%.*}})
+  // LLVM: {{%.*}} = trunc i32 {{%.*}} to i16
+  // LLVM: ret i16
+
+  // OGCG-LABEL: @test_vaddlvq_u8
+  // OGCG: {{%.*}} = call i32 @llvm.aarch64.neon.uaddlv.i32.v16i8(<16 x i8> {{%.*}})
+  // OGCG: {{%.*}} = trunc i32 {{%.*}} to i16
+  // OGCG: ret i16
+}

Original file line number	Diff line number	Diff line change
`@@ -4431,7 +4431,11 @@ CIRGenFunction::emitAArch64BuiltinExpr(unsigned BuiltinID, const CallExpr *E,`
`4431`	`4431`	`llvm_unreachable("NEON::BI__builtin_neon_vmul_n_f64 NYI");`
`4432`	`4432`	`}`
`4433`	`4433`	`case NEON::BI__builtin_neon_vaddlvq_u8: {`
`4434`		`- llvm_unreachable("NEON::BI__builtin_neon_vaddlvq_u8 NYI");`
	`4434`	`+ cir::VectorType vTy = cir::VectorType::get(UInt8Ty, 16);`
	`4435`	`+ Ops.push_back(emitScalarExpr(E->getArg(0)));`
	`4436`	`+ Ops[0] = emitNeonCall(builder, {vTy}, Ops, "aarch64.neon.uaddlv",`
	`4437`	`+ UInt32Ty, getLoc(E->getExprLoc()));`
	`4438`	`+ return builder.createIntCast(Ops[0], UInt16Ty);`
`4435`	`4439`	`}`
`4436`	`4440`	`case NEON::BI__builtin_neon_vaddlvq_u16:`
`4437`	`4441`	`usgn = true;`