whisper.cpp

ggml-org/whisper.cpp

Fork 0

mirror of https://github.com/ggml-org/whisper.cpp.git synced 2026-03-29 22:37:37 +00:00

Commit Graph

Select branches

Hide Pull Requests

arghh

avx512

batched

bench-memcpy

chess

ci/env

copilot/add-duplicate-text-removal

coreml-with-state

cuda-cublas-opts

diarization

distil-support

experiment/model-compression

fa-decoder

feature/debug-gradle-signing

fix-bench

fix-coreml-ane

fix-vzip

fix_vs_sdl2

gg/alloc-enc-results

gg/bench-fix-print

gg/benches-update

gg/chess

gg/ci-cuda-fix

gg/ci-fix-android

gg/ci-fix-windows

gg/cuda-fix-mmvq

gg/cuda-no-async

gg/disable-cuda-graphs

gg/fix-external-encoder

gg/hipblas-fix

gg/make-fix-glob

gg/objc

gg/prompt-tokens

gg/reduce-ctx-use

gg/wchess

gg/whisper-short-audio-check

ggml-backend

ggml-backend-no-sched

ggml-conv

grammar-debug

guided

java-bindings

large-v3

llama-podcast

macros-cvt-fp16

master

metal

metal-and-alloc

nvblas

parallel-states

quantize-encoder

stream

sync-ggml-25-04-02-2

sync-ggml-25-05-07

sync-ggml-25-05-13

sync-ggml-25-09-30-2

sync-ggml-25-12-12

sync-ggml-25-12-17

talk.llama-coreml

threads

timing

try-fix-abort

word-ts-2

#1001

#1002

#1003

#1010

#1012

#1015

#102

#1021

#1021

#1024

#1027

#1029

#1031

#1032

#1034

#1037

#1041

#1042

#1045

#1046

#1049

#1054

#1058

#1060

#1062

#1064

#1067

#107

#1074

#1074

#1077

#1081

#1086

#1086

#1092

#1097

#1097

#110

#1101

#111

#1110

#1111

#1112

#1113

#1114

#1115

#1118

#1118

#1120

#1124

#1128

#1129

#1130

#1131

#1134

#1136

#1137

#114

#1142

#1143

#1144

#1147

#1148

#115

#1154

#116

#1160

#1162

#1164

#1164

#1173

#1174

#1196

#1204

#1205

#1209

#121

#1210

#1211

#1212

#1214

#1216

#1217

#1218

#1220

#1224

#1227

#1228

#1229

#123

#1231

#1235

#1238

#124

#1243

#1247

#1250

#1251

#1253

#1254

#1255

#1261

#1261

#1263

#1264

#1265

#1267

#127

#127

#1270

#1275

#128

#1286

#1290

#1293

#1294

#1298

#130

#130

#1303

#1304

#1305

#1306

#131

#1310

#1313

#1317

#1330

#1334

#1335

#1345

#1349

#135

#1350

#1352

#1356

#1358

#136

#1362

#1364

#1368

#1370

#1375

#1375

#1380

#1381

#1381

#1382

#1389

#1400

#1404

#141

#1415

#1417

#1418

#1418

#1420

#1422

#1424

#143

#1432

#1434

#1440

#1441

#1442

#1444

#1445

#1452

#1455

#1455

#1456

#1457

#1458

#1459

#1462

#1466

#1467

#147

#1472

#1473

#1474

#1475

#1478

#1478

#1479

#1484

#1485

#1486

#1487

#1492

#1493

#1499

#1499

#150

#1500

#1500

#1501

#1505

#1519

#1521

#1522

#1523

#1524

#1524

#1529

#1530

#1533

#1534

#1535

#1539

#1541

#1544

#1545

#1546

#1547

#1548

#1549

#1549

#155

#1551

#1554

#1559

#1559

#1560

#1561

#1563

#1563

#1565

#1567

#1568

#1574

#1575

#1576

#1578

#1582

#1583

#1586

#1588

#1589

#1595

#160

#1602

#1604

#1604

#1605

#1606

#1607

#1615

#1617

#1627

#1627

#163

#1633

#1649

#1649

#1650

#1651

#1655

#1658

#1667

#1669

#1672

#1673

#1674

#1675

#1677

#1679

#1679

#1681

#1691

#1692

#1694

#1695

#170

#1701

#1703

#1704

#1713

#1714

#1716

#1717

#1725

#1727

#1728

#1729

#1735

#174

#1740

#1741

#1744

#1747

#1749

#175

#1750

#1753

#1754

#1755

#1758

#1763

#1764

#1765

#1768

#1768

#1772

#1774

#1778

#1781

#1785

#179

#1791

#1791

#1792

#1802

#1806

#1809

#1812

#1813

#1819

#1823

#1823

#183

#1833

#1833

#1838

#1839

#1840

#1841

#1841

#1842

#1850

#1854

#1854

#1857

#1859

#1860

#1861

#1863

#1865

#1871

#1872

#1874

#1878

#1888

#1889

#1890

#1891

#1895

#1897

#19

#1902

#1913

#1913

#1917

#1924

#1924

#1925

#1926

#1928

#1929

#193

#1932

#1933

#1938

#194

#1942

#1943

#1944

#1945

#1947

#195

#1952

#1952

#1953

#1964

#1965

#1966

#1969

#1969

#1970

#1973

#1973

#1978

#1980

#1981

#1982

#1983

#1990

#1990

#1994

#1997

#1998

#20

#2000

#2001

#2004

#2005

#2005

#201

#2012

#2019

#2020

#2024

#2025

#2026

#203

#203

#2043

#2044

#2045

#2048

#2049

#2054

#2058

#2063

#2068

#2068

#2069

#2070

#2071

#2071

#2072

#2073

#2075

#2075

#2080

#2086

#2088

#2090

#2094

#2095

#2095

#21

#2100

#2102

#2108

#2115

#2119

#2121

#2123

#2127

#2127

#2128

#2129

#2133

#2138

#2142

#2152

#2153

#2154

#2166

#2170

#2181

#2182

#2184

#2184

#2189

#2194

#2196

#2198

#2206

#2208

#2217

#222

#2220

#2227

#2231

#2232

#2234

#2235

#2236

#2237

#2238

#2239

#224

#2240

#2242

#2254

#2254

#2256

#2261

#2264

#2266

#2267

#2270

#2272

#2272

#2279

#2279

#228

#2288

#229

#2290

#2291

#2294

#2299

#23

#230

#2302

#231

#2311

#2324

#2330

#2336

#2339

#2342

#2343

#2346

#2350

#2358

#2360

#2367

#2369

#2369

#2376

#2382

#2383

#2384

#2386

#2387

#239

#2391

#2393

#2396

#24

#2401

#2406

#2406

#2407

#2410

#2414

#2416

#2417

#2419

#2424

#2425

#2427

#2429

#2431

#2432

#2432

#2433

#2440

#2443

#2444

#2449

#245

#2451

#2455

#2464

#2475

#2477

#2481

#2484

#2485

#2488

#2489

#2495

#2505

#2506

#2511

#2515

#2516

#2517

#2518

#2519

#252

#2523

#2525

#2528

#2529

#253

#2534

#254

#2543

#2546

#2547

#2548

#2549

#2550

#2551

#2555

#2560

#2560

#2561

#2562

#2567

#2569

#257

#2570

#2573

#2574

#2576

#2577

#2577

#2579

#2580

#2585

#2589

#2593

#2593

#260

#2604

#2608

#2611

#2613

#2617

#2623

#2624

#2625

#2629

#2633

#2634

#2634

#2635

#2637

#2638

#2639

#2641

#2642

#2643

#2648

#2649

#2653

#2654

#2656

#2659

#2663

#2664

#2670

#2674

#2676

#2683

#2684

#2686

#2687

#2690

#2690

#2691

#2691

#2692

#2693

#2694

#2694

#2699

#27

#2700

#2707

#2709

#271

#2711

#2716

#2718

#2728

#273

#2734

#2736

#2737

#274

#2745

#2749

#2756

#2759

#2760

#2769

#2769

#277

#2770

#2777

#2779

#2790

#2796

#2797

#2799

#28

#2800

#2800

#2816

#282

#2821

#2822

#2824

#2826

#2826

#2831

#2831

#2832

#2832

#2836

#2838

#2838

#284

#284

#2840

#2842

#2842

#2843

#2844

#2845

#2846

#285

#2851

#2853

#2855

#2858

#286

#2862

#2863

#2868

#287

#2873

#2875

#2876

#2877

#2878

#2879

#288

#2880

#2882

#2887

#2889

#2891

#2893

#2895

#2896

#29

#2900

#2902

#2904

#2905

#2908

#291

#2910

#2911

#2912

#2914

#2915

#2916

#2918

#2919

#2921

#2923

#2924

#2925

#2932

#2935

#2937

#2938

#2939

#294

#2941

#2942

#2943

#2945

#2946

#2947

#2948

#2949

#2951

#2952

#2953

#2955

#2956

#2958

#2959

#296

#2960

#2962

#2966

#2968

#2969

#2971

#2972

#2973

#2975

#2976

#2977

#2979

#298

#2981

#2985

#2986

#2987

#2988

#299

#2990

#2991

#2992

#2993

#2994

#2997

#2999

#3

#3000

#3001

#3002

#3004

#3005

#3006

#3007

#301

#3016

#302

#3021

#3022

#3024

#3025

#3027

#3028

#3029

#3031

#3033

#3038

#3042

#3043

#3044

#3045

#3050

#3052

#3054

#3054

#3055

#3056

#3057

#306

#3060

#3062

#3064

#3065

#3068

#3069

#3070

#3071

#3073

#3075

#3076

#308

#3082

#3083

#3084

#3085

#3086

#3087

#3090

#3097

#3098

#31

#3100

#3101

#3102

#3103

#3104

#3106

#3108

#3109

#3112

#3114

#3120

#3124

#3125

#3126

#3127

#3130

#3131

#3132

#3133

#3134

#3136

#3138

#3140

#3141

#3142

#3143

#3145

#3147

#3148

#3149

#3150

#3151

#3152

#3156

#3157

#3158

#3160

#3160

#3163

#3164

#317

#3170

#3171

#3172

#3173

#3175

#3177

#3178

#3179

#318

#3180

#3181

#3183

#3184

#3185

#3186

#3187

#3189

#319

#3190

#3191

#3192

#3193

#3195

#3196

#3197

#3199

#320

#3200

#3201

#3202

#3203

#3206

#3208

#3209

#3214

#3215

#3217

#3218

#3218

#3219

#322

#3220

#3221

#3222

#3223

#3223

#3229

#323

#3230

#3231

#3233

#3234

#3237

#3239

#324

#3241

#3242

#3243

#3244

#3244

#3245

#3246

#3247

#3251

#3255

#3257

#3257

#3261

#3262

#3264

#3265

#3266

#3268

#3270

#3272

#3273

#3274

#3274

#3275

#3276

#3277

#3281

#3282

#3283

#3284

#3287

#3288

#3289

#3291

#3291

#3292

#3294

#3296

#3298

#3298

#3300

#3301

#3307

#331

#3310

#3313

#3313

#3318

#3319

#3321

#3321

#3322

#3323

#3324

#3325

#3325

#3327

#3328

#3329

#3332

#3333

#3336

#3342

#3346

#3349

#3350

#3354

#336

#3363

#3365

#3369

#3371

#3372

#3374

#3374

#3378

#3378

#3379

#3381

#3383

#3387

#3387

#3389

#3394

#3395

#34

#340

#3401

#3401

#3406

#3408

#3409

#3412

#3412

#3416

#3417

#3417

#3419

#3419

#3422

#3422

#3423

#3423

#3425

#3426

#3428

#343

#343

#3430

#3430

#3433

#3433

#3436

#3437

#3438

#3439

#3441

#3442

#3443

#3445

#3447

#3448

#345

#3453

#3456

#3457

#3457

#346

#3461

#3462

#3462

#3463

#3466

#3467

#3468

#3468

#3469

#3470

#3471

#3471

#3472

#3472

#3473

#3473

#3474

#3474

#3477

#3478

#3482

#3483

#3484

#3485

#3485

#3487

#3488

#3489

#3489

#349

#3490

#3492

#3494

#3494

#3495

#3495

#3496

#3498

#350

#3502

#3502

#3503

#3505

#3505

#3506

#3506

#3507

#351

#3513

#3514

#3516

#3518

#3519

#3522

#3524

#3526

#3527

#3527

#3528

#3529

#3529

#353

#3532

#3533

#3534

#3535

#3540

#3540

#3543

#3543

#3555

#3555

#3557

#3558

#3559

#3563

#3564

#3565

#3565

#3566

#3568

#3569

#357

#3572

#3573

#3575

#3578

#3578

#3579

#3580

#3581

#3582

#3582

#3583

#3585

#3587

#3587

#3588

#3588

#3589

#3589

#359

#3590

#3591

#3592

#3593

#3594

#3594

#3598

#3598

#3599

#3599

#36

#3600

#3605

#3605

#3606

#3608

#3608

#3610

#3610

#3612

#3612

#3615

#3615

#3616

#3616

#3617

#3617

#3619

#3619

#362

#3621

#3624

#3625

#3625

#3626

#3626

#3630

#3632

#3632

#3633

#3636

#3637

#3637

#3638

#3638

#3639

#3641

#3641

#3644

#3646

#3647

#3649

#365

#3650

#3650

#3652

#3653

#3653

#3655

#3656

#3656

#3658

#3658

#366

#3660

#3660

#3661

#3661

#3665

#3668

#3670

#3671

#3672

#3675

#3675

#3677

#3677

#3678

#3679

#368

#3684

#3685

#3686

#3686

#3689

#369

#3691

#3691

#3693

#3693

#3696

#3696

#3699

#3699

#3703

#3704

#3704

#3705

#3707

#3709

#3710

#3711

#3713

#3714

#3714

#3715

#3716

#3716

#3719

#3719

#3727

#3727

#3730

#379

#38

#381

#383

#384

#387

#388

#390

#391

#398

#404

#409

#41

#415

#42

#424

#425

#43

#431

#435

#436

#439

#443

#444

#446

#451

#453

#454

#454

#455

#456

#459

#461

#462

#468

#473

#474

#476

#482

#484

#485

#486

#494

#495

#497

#500

#501

#502

#502

#503

#506

#515

#520

#523

#532

#534

#537

#538

#540

#542

#552

#563

#566

#569

#572

#576

#58

#583

#60

#600

#605

#613

#613

#615

#619

#624

#624

#626

#627

#628

#629

#629

#638

#640

#642

#645

#648

#649

#650

#650

#659

#659

#664

#668

#67

#677

#682

#685

#686

#687

#688

#697

#70

#704

#706

#710

#711

#712

#716

#718

#72

#720

#721

#725

#728

#733

#737

#739

#740

#755

#759

#760

#763

#764

#768

#77

#776

#78

#798

#81

#810

#811

#812

#815

#816

#832

#833

#834

#835

#836

#837

#842

#845

#853

#854

#862

#863

#867

#87

#871

#871

#874

#875

#883

#885

#890

#891

#893

#899

#902

#908

#910

#915

#926

#927

#931

#935

#939

#939

#94

#944

#95

#956

#964

#968

#968

#971

#971

#972

#995

0.0.5-3

0.0.6-1

1.0.3

1.0.4

1.1.0

1.4.1-1

1.4.1-2

1.5.2

b2250

b2251

b2252

b2253

b2254

b2257

b2258

b2259

b2260

b2261

b2262

b2263

b2266

b2267

b2268

b2269

b2270

b2271

b2273

b2274

b2275

b2276

b2279

b2280

b2339

b2340

b2341

b2342

b2348

b2349

b2350

b2351

b2352

b2353

b2362

b2364

b2365

danbev-java-jar-artifact-test

danbev-testing-xcframework-release

v1.0.4

v1.1.0

v1.1.1

v1.2.0

v1.2.1

v1.3.0

v1.4.0

v1.4.1

v1.4.2

v1.4.3

v1.5.0

v1.5.1

v1.5.2

v1.5.3

v1.5.4

v1.5.5

v1.6.0

v1.6.1

v1.6.2

v1.7.0

v1.7.1

v1.7.2

v1.7.2-pre

v1.7.3

v1.7.3-pre

v1.7.4

v1.7.4-pre-0

v1.7.4-pre-1

v1.7.5

v1.7.6

v1.8.0

v1.8.1

v1.8.2

v1.8.3

v1.8.4

cc0c103b5d ggml-sycl: remove unused syclcompat header (llama/19140) Patryk Kaminski 2026-01-28 16:33:54 +01:00
dda7d9cd1c vulkan: handle device dedup on MacOS + Vega II Duo cards (llama/19058) Oleksandr Kuvshynov 2026-01-28 06:35:54 -05:00
531d7b6781 ggml: new backend for Virglrenderer API Remoting acceleration (v2) (llama/18718) Kevin Pouget 2026-01-28 10:49:40 +01:00
3701413a71 ggml-cpu: arm64: Q4_K scale unroll and vectorization (llama/19108) Alberto Cabrera Pérez 2026-01-28 07:15:56 +00:00
7fb0f823de cuda : fix "V is K view" check for non-unified KV cache (llama/19145) Georgi Gerganov 2026-01-28 09:15:27 +02:00
f28a733025 CUDA: tune GLM 4.7 Flash FA kernel selection logic (DGX Spark) (llama/19142) Georgi Gerganov 2026-01-28 09:15:11 +02:00
dfdd2fee83 ggml webgpu: Split shared state (webgpu_context) into global state and per-thread state (llama/18976) Nikhil Jain 2026-01-27 20:53:36 -08:00
9c75c793a6 ggml-zendnn : update ZenDNN git tag to main branch (llama/19133) Vishal Singh 2026-01-28 03:51:36 +05:30
9d94d0f782 CUDA: tune GLM 4.7 Flash FA kernel selection logic (llama/19097) Johannes Gäßler 2026-01-27 14:28:56 +01:00
00885e08e2 ggml-cpu: aarm64: q6_K repack gemm and gemv (and generic) implementations (i8mm) #18860 (llama/18888) Alberto Cabrera Pérez 2026-01-27 09:08:10 +00:00
5fcbbdc0dd Reduce CPU-side stalls due to the CUDA command buffer being full (llama/19042) Gaurav Garg 2026-01-27 06:52:44 +00:00
b2e2032856 ggml-cpu: Enable FP16 MMA kernels on PPC (llama/19060) shalinib-ibm 2026-01-27 09:22:34 +05:30
56f82a9f33 opencl: add flattened q6_K mv (llama/19054) lhez 2026-01-30 10:34:38 +02:00
41d5d7bb0e CUDA: fix padding of GQA to power of 2 in FA (llama/19115) Johannes Gäßler 2026-01-26 23:24:58 +01:00
f63848eada CUDA: faster FA for GQA > 1 but not power of 2 (llama/19092) Johannes Gäßler 2026-01-25 21:19:47 +01:00
4372b87b8e metal : fix recommendedMaxWorkingSetSize availability on legacy iOS/macOS (llama/19088) ccbinn 2026-01-26 02:07:19 +08:00
1642a4fb60 ggml-cpu: Use tiled FA for prompt-processing (llama/19012) Aman Gupta 2026-01-25 23:25:58 +08:00
d2b51404e4 kv-cache : support V-less cache (llama/19067) Georgi Gerganov 2026-01-25 15:48:56 +02:00
f53eafd745 CUDA: re-use MLA K data for V in MMA FA (llama/19057) Johannes Gäßler 2026-01-24 10:09:36 +01:00
13577a6ce4 ggml-cuda: enable cuda-graphs for n-cpu-moe (llama/18934) Aman Gupta 2026-01-24 14:25:20 +08:00
79f1bb3d35 ggml-hexagon: flash-attn opt (llama/19025) nullname 2026-01-24 14:02:07 +08:00
0d9dda5a99 use malloc to support both iGPU and dGPU in same time (llama/18992) Neo Zhang 2026-01-23 20:54:10 +08:00
e090d91f5e ggml-cpu: aarm64: q5_K repack gemm and gemv (and generic) implementations (i8mm) (llama/18860) Alberto Cabrera Pérez 2026-01-23 07:55:08 +00:00
3f96a1da0e mla : make the V tensor a view of K (llama/18986) Georgi Gerganov 2026-01-22 22:09:01 +02:00
f21d0cbb1a CUDA: fix alignment check for FA (llama/19023) Johannes Gäßler 2026-01-22 20:39:25 +01:00
0e030b852a opencl: enable the general fp mm for non-cont input and as a fallback for specialized kqv kernel for adreno (llama/18970) lhez 2026-01-22 10:29:25 -08:00
d4fafcfc6f CUDA: add gqa_ratio 4 for GLM 4.7 flash (llama/18953) Aman Gupta 2026-01-22 18:51:53 +08:00
167fec69d5 opencl: add TRI op support (llama/18979) shaofeiqi 2026-01-21 22:05:54 -08:00
55927d42ef ggml-zdnn : mark zDNN buffers as non-host (llama/18967) Aleksei Nikiforov 2026-01-22 01:16:21 +01:00
b7e323f40b vulkan: Remove transfer_ctx, do everything in compute_ctx. (llama/18945) Jeff Bolz 2026-01-21 11:01:40 -06:00
b2bc4d810b vulkan: support flash attention GQA/split_k with small batches (llama/18938) Jeff Bolz 2026-01-21 10:43:43 -06:00
3bbf4ced47 Revert "vulkan: force full subgroups for flash attention to fix intel subgroup crash (#17356)" (llama/18831) Masato Nakasaka 2026-01-22 01:13:43 +09:00
660d943ff8 vulkan: Use mul_mat_vec_id for small values of n (llama/18918) Jeff Bolz 2026-01-21 09:22:02 -06:00
924a9e292c CUDA: Fix builds for older CCCL versions by ifdefing strided_iterator (llama/18964) Oliver Simons 2026-01-21 02:34:29 +01:00
fdc83ee3c0 CUDA: Replace init_offsets kernel with iterators in cub-based argsort (llama/18930) Oliver Simons 2026-01-20 13:11:01 +01:00
bf71ffa6b3 ggml : cleanup path_str() (llama/18928) Adrien Gallouët 2026-01-20 11:42:49 +01:00
b0517d6912 metal : enable FA for MLA heads (llama/18950) Georgi Gerganov 2026-01-20 12:21:28 +02:00
47f3e3b927 ggml : add ggml_build_forward_select (llama/18550) Georgi Gerganov 2026-01-19 20:03:19 +02:00
62a09b106d opencl: fix q6_K mv for m=1 (llama/18893) lhez 2026-01-17 13:50:32 -08:00
389dafc7c2 ggml webgpu: support for backend sampling (llama/18880) Reese Levine 2026-01-30 10:32:34 +02:00
511ca7a1f4 ggml : extend ggml_pool_1d + metal (llama/16429) Thore Koritzius 2026-01-16 15:59:56 +01:00
ecb4b80c35 ggml-blas: hide warnings from included BLAS headers (llama/18818) Perry Naseck 2026-01-16 06:38:25 -05:00
42960b6073 CANN: Remove unused ggml_cann_get_device function (llama/18625) Raul Torres 2026-01-16 08:34:09 +00:00
2fceb5a80f CANN: fix an issue where get_env was not fully renamed (llama/18796) Chenguang Li 2026-01-16 16:24:04 +08:00
854274a297 CANN: support gated linear attn (llama/18653) hipudding 2026-01-16 16:18:49 +08:00
ed6004d051 OpenCL: add SOLVE_TRI op support (llama/18846) shaofeiqi 2026-01-15 11:17:17 -08:00
290ff3d28d cuda : print less debug logs when disabling cuda graphs (llama/18868) Georgi Gerganov 2026-01-15 20:53:01 +02:00
f2f0ba0384 CUDA: fix allignment on register spill for FA (llama/18815) Johannes Gäßler 2026-01-15 15:14:50 +01:00
78a23d4830 ggml-cpu: optimize ggml_vec_dot_bf16 for Power9 (llama/18837) shalinib-ibm 2026-01-15 15:01:18 +05:30
50b7ab3d46 hexagon: support for OP_CPY, host buffers now optional (llama/18822) Max Krasnyansky 2026-01-30 10:28:03 +02:00
bc09047405 CUDA: Factor out and re-use block_reduce function (llama/18785) Oliver Simons 2026-01-15 03:44:54 +01:00
4b155e9bfb vulkan: Check maxStorageBufferRange in supports_op (llama/18709) Jeff Bolz 2026-01-14 03:59:05 -06:00
25aeb66a4a CUDA : fix typo in clang pragma comment [no ci] (llama/18830) Daniel Bevenius 2026-01-14 10:31:49 +01:00
49762e8fb3 vulkan: work around Intel fp16 bug in mmq (llama/18814) Ruben Ortlam 2026-01-14 09:41:23 +01:00
17656e56dc ggml-metal: do not copy headers for embedded, use current binary dir for embedded (llama/18705) Perry Naseck 2026-01-14 02:22:25 -05:00
c6a495ae5d HIP: add fattn-mma-f16 for RDNA4 (llama/18481) yulo 2026-01-13 20:52:16 +08:00
7aa8818647 examples : use -dev/--device and WHISPER_ARG_DEVICE (#3557) Bráulio Oliveira 2026-01-21 04:40:30 -03:00
f53dc74843 whisper : Fix UTF-8 character boundary issue in segment wrapping (max_len) (#3592) Yshtola 2026-01-16 20:16:05 +08:00
2eeeba56e9 release : v1.8.3 v1.8.3 Georgi Gerganov 2026-01-15 11:54:31 +02:00
21c1765fcb benches : update Georgi Gerganov 2026-01-15 11:53:09 +02:00
47af2fb70f sync : ggml Georgi Gerganov 2026-01-13 19:11:04 +02:00
6ee0eaf531 CUDA : fix unused argument when USE_CUDA_GRAPH=OFF (llama/18800) Georgi Gerganov 2026-01-13 12:25:53 +02:00
ab1828dc1c vulkan: change memory_logger to be controlled by an env var (llama/18769) Jeff Bolz 2026-01-12 06:32:55 -06:00
aedf332ec5 vulkan: Use VK_EXT_shader_64bit_indexing to handle large mat_mul(_id) (llama/18678) Jeff Bolz 2026-01-12 05:32:13 -06:00
716d68aca9 vulkan: Disable large coopmat matmul configuration on proprietary AMD driver (llama/18763) Ruben Ortlam 2026-01-12 07:29:35 +01:00
c0433783c3 Vulkan: Optimize Matmul parameters for AMD GPUs with Coopmat support (llama/18749) Ruben Ortlam 2026-01-11 17:33:33 +01:00
ecfcc65fbf talk-llama : sync llama.cpp Georgi Gerganov 2026-01-12 14:48:26 +02:00
13dc9a912b sync : ggml Georgi Gerganov 2026-01-12 14:44:38 +02:00
d4ce2e554f opencl: add SOFTPLUS op support (llama/18726) shaofeiqi 2026-01-10 21:57:44 -08:00
3a1ea96373 HIP: adjust RDNA3.5 MMQ kernel selction logic (llama/18666) Johannes Gäßler 2026-01-10 17:19:01 +01:00
484b17053a cmake : update blas logic (llama/18205) Perry Naseck 2026-01-10 11:00:54 -05:00
45be2cd27a Corrected: changed s13 = src1->nb[3] instead of nb[2] (llama/18724) Michael Wand 2026-01-10 01:16:07 -08:00
4af27bf2da opencl: add EXPM1 op (llama/18704) shaofeiqi 2026-01-09 10:13:13 -08:00
4ac8c3b478 Updates to webgpu get_memory (llama/18707) Reese Levine 2026-01-09 08:17:18 -08:00
fff3ebd93d llama: use host memory if device reports 0 memory (llama/18587) Aaron Teo 2026-01-09 05:34:56 +08:00
a71127dfd8 ggml-webgpu: Fix GGML_MEM_ALIGN to 8 for emscripten. (llama/18628) Masashi Yoshimura 2026-01-09 01:36:42 +09:00
1bb903f599 ggml webgpu: initial flashattention implementation (llama/18610) Reese Levine 2026-01-08 08:23:39 -08:00
0bc0e5616e vulkan: fix push constant size for quantize_q8_1 (llama/18687) Jeff Bolz 2026-01-08 08:40:58 -06:00
678c660e62 vulkan: optimize ssm_scan (llama/18630) Jeff Bolz 2026-01-08 08:16:54 -06:00
f2d8588229 metal : add MoE kernel specialization for ne20=5 (llama/18667) 도로로도로또 2026-01-08 19:37:45 +09:00
b9965c89a1 ggml: add env var GGML_OP_OFFLOAD_MIN_BATCH (llama/18535) Doctor Shotgun 2026-01-08 01:03:21 -08:00
85a329cb08 opencl: add FILL op support (llama/18682) shaofeiqi 2026-01-07 22:04:50 -08:00
4f2ca7c163 cuda : fix build on cuda 12.8 (llama/18672) Oliver Walsh 2026-01-07 21:32:44 +00:00
a91ab72bd9 vulkan: reject ops when a tensor is too large to allocate (llama/18646) Jeff Bolz 2026-01-07 05:03:32 -06:00
096e7e911a vulkan: Warptile tuning for Intel Xe2/Xe3 (llama/18178) virajwad 2026-01-07 02:59:47 -08:00
a576ed944a vulkan: more mul mat optimizations (llama/18533) Eve 2026-01-07 10:13:17 +00:00
5c583f3c02 CANN: Fix rename for get_env (llama/18652) hipudding 2026-01-07 16:11:31 +08:00
47671c81db CANN: Rename get_env to get_env_as_lowercase (llama/18624) Raul Torres 2026-01-07 02:01:25 +00:00
a5f51ac75b Hexagon add support for f16/f32 flash attention, scale, set-rows and improve f16/32 matmul (llama/18611) Max Krasnyansky 2026-01-06 17:38:29 -08:00
436f30d05f ggml : optimize cuda ssm_scan using warp-level reduction (llama/18505) Aadeshveer Singh 2026-01-06 23:54:34 +05:30
dbec71f6cf vulkan: support buffer_from_host_ptr (llama/18467) Jeff Bolz 2026-01-06 10:37:07 -06:00
575d894603 ggml-cuda: refactor cuda graph usage (llama/18637) Aman Gupta 2026-01-06 23:48:45 +08:00
ed674cfc10 mmq.cu: tune mmq/rocblas switching for RDNA (llama/18537) Beinsezii 2026-01-06 07:26:07 -08:00
5520f27363 ggml : fix avx512bf16 build (llama/18623) Adrien Gallouët 2026-01-06 07:54:10 +01:00
9a1a6685ba CANN: Make valid_values variable static const (llama/18627) Raul Torres 2026-01-06 03:53:28 +00:00
e563e239a7 ggml webgpu: add CEIL operation support (llama/18605) nwyin 2026-01-05 13:38:57 -06:00
9956333361 CUDA: fix FA FP16 accumulator overflow for Granite (llama/18614) Johannes Gäßler 2026-01-05 19:51:13 +01:00
804f545454 ggml-cuda: check for srcs outside the cgraph (llama/18583) Aman Gupta 2026-01-05 22:46:36 +08:00
52ba45e2b8 vulkan: fix topk_moe_sigmoid_norm_bias failures in GLM-4.6 (llama/18582) Jeff Bolz 2026-01-05 04:51:39 -06:00
0a99b4c377 vulkan: handle quantize_q8_1 overflowing the max workgroup count (llama/18515) Jeff Bolz 2026-01-05 04:30:14 -06:00

... 2 3 4 5 6 ...