Bun

在 JavaScript 中编译和运行原生 C 代码


Jarred Sumner · 2024 年 9 月 18 日

从压缩到密码学,再到网络,再到您正在阅读此文的网络浏览器,世界都在 C 语言上运行。如果不是用 C 语言编写的,它也遵循 C ABI(C++、Rust、Zig 等),并可作为 C 库使用。C 语言和 C ABI 是系统编程的过去、现在和未来。

这就是为什么在 Bun v1.1.28 版本中,我们引入了从 JavaScript 编译和运行原生 C 代码的实验性支持

hello.c
hello.ts
hello.c
#include <stdio.h>

void hello() {
  printf("You can now compile & run C in Bun!\n");
}
hello.ts
import { cc } from "bun:ffi";

export const {
  symbols: { hello },
} = cc({
  source: "./hello.c",
  symbols: {
    hello: {
      returns: "void",
      args: [],
    },
  },
});

hello();

在 Twitter 上,许多人提出了相同的问题

“我为什么要从 JavaScript 编译和运行 C 程序?”

以前,您有两种选择可以从 JavaScript 中使用系统库

  1. 编写 N-API (napi) 插件或 V8 C++ API 库插件
  2. 通过 emscripten 或 wasm-pack 编译为 WASM/WASI

N-API (napi) 有什么问题?

N-API (napi) 是一个运行时无关的 C API,用于将原生库暴露给 JavaScript。Bun 和 Node.js 都实现了它。在 napi 之前,原生插件主要使用 V8 C++ API,这意味着每次 Node.js 更新 V8 时都可能发生破坏性更改。

编译原生插件会破坏 CI

原生插件通常依赖 "postinstall" 脚本来使用 node-gyp 编译 N-API 插件。node-gyp 依赖 Python 3 和最新的 C++ 编译器。

对于许多人来说,需要在 CI 中安装 Python 3 和 C++ 编译器来构建前端 JavaScript 应用程序是一个不受欢迎的意外。

编译原生插件对于维护者来说很复杂

为了解决这个问题,一些库预构建它们的包,利用 package.json 中的 "os""cpu" 字段。将这种复杂性从用户转移到维护者对生态系统有利,但维护包含 10 个不同构建目标的构建矩阵并不简单。

@napi-rs/canvas/package.json
"optionalDependencies": {
  "@napi-rs/canvas-win32-x64-msvc": "0.1.55",
  "@napi-rs/canvas-darwin-x64": "0.1.55",
  "@napi-rs/canvas-linux-x64-gnu": "0.1.55",
  "@napi-rs/canvas-linux-arm-gnueabihf": "0.1.55",
  "@napi-rs/canvas-linux-x64-musl": "0.1.55",
  "@napi-rs/canvas-linux-arm64-gnu": "0.1.55",
  "@napi-rs/canvas-linux-arm64-musl": "0.1.55",
  "@napi-rs/canvas-darwin-arm64": "0.1.55",
  "@napi-rs/canvas-android-arm64": "0.1.55"
}

JavaScript → N-API 函数调用:3 倍开销

为了换取更复杂的构建,我们得到了什么?

JavaScript → 原生调用开销机制
7ns - 15nsN-API
2nsJavaScriptCore C++ API(下限)

使用 JavaScriptCore C++ API,一个简单的空操作函数每次调用消耗 2ns。使用 N-API,一个空操作函数每次调用消耗 7ns。

我们为什么要为此付出 3 倍的性能损失?

不幸的是,这是 napi 中的 API 设计问题。为了使 napi 与运行时无关,从 JavaScript 值中读取整数这样的简单操作也涉及到动态库函数调用。为了使 napi 与语言无关,每次动态库函数调用都会进行运行时类型检查。更复杂的操作涉及许多内存分配(或 GC 对象分配)和多层指针间接寻址。N-API 从未被设计为快速。

JavaScript 是世界上最流行的编程语言。我们能做得更好吗?

WebAssembly 怎么样?

为了规避 N-API 构建的复杂性和性能问题,一些项目选择将其原生插件编译为 WebAssembly,并在 JavaScript 中导入它。

由于 JavaScript 引擎可以内联跨越 WebAssembly <> JavaScript 边界的函数调用,这可以奏效。

但是,对于系统库,WebAssembly 的隔离内存模型带来了严重的权衡

隔离意味着没有系统调用

WebAssembly 只能访问运行时暴露给它的函数。通常,那是 JavaScript。

那么,依赖于系统 API 的库,例如 macOS Keychain API(用于安全地存储/检索密码)或 音频录制 呢?如果您的 CLI 想要使用 Windows 注册表怎么办?

隔离意味着克隆所有内容

现代处理器支持大约 280 TB 的可寻址内存(48 位)。WebAssembly 是 32 位的,只能访问自己的内存。

这意味着默认情况下,在 JavaScript <=> WebAssembly 之间传递字符串和二进制数据时,每次都必须克隆。对于许多项目来说,这抵消了利用 WebAssembly 获得的任何性能提升。


如果 N-API 和 WebAssembly 不是服务器端 JavaScript 的唯一选择呢?如果我们可以在 JavaScript 中编译和运行原生 C 代码,并具有共享内存和接近零的调用开销呢?

从 JavaScript 编译和运行原生 C 代码

这是一个快速示例,它在 C 语言中编译一个随机数生成器,并在 JavaScript 中运行它。

myRandom.c
#include <stdio.h>
#include <stdlib.h>

int myRandom() {
    return rand() + 42;
}

编译和运行 C 代码的 JavaScript 代码

main.js
import { cc } from "bun:ffi";

export const {
  symbols: { myRandom },
} = cc({
  source: "./myRandom.c",
  symbols: {
    myRandom: {
      returns: "int",
      args: [],
    },
  },
});

console.log("myRandom() =", myRandom());

最后,输出结果

bun ./main.js
myRandom() = 43

这是如何工作的?

bun:ffi 使用 TinyCC 在内存中编译、链接和重定位 C 程序。然后,它生成内联函数包装器,将 JavaScript 原始类型 <=> C 原始类型进行转换。

例如,为了将 C 语言中的 int 转换为 JavaScriptCore 的 EncodedJSValue 表示形式,代码本质上执行以下操作

static int64_t int32_to_js(int32_t input) {
  return 0xfffe000000000000ll | (uint32_t)input;
}

与 N-API 不同,这些类型转换自动发生,并且具有零动态调度开销。由于这些包装器是在 C 编译时生成的,因此我们可以安全地内联类型转换,而无需担心兼容性问题,也无需牺牲性能。

bun:ffi 编译速度很快

如果您以前使用过 clanggcc,您可能会想

clang/gcc 用户:“太棒了 🙄 现在每次运行这个 JS 都必须等待 10 秒才能编译 C 代码。”

让我们测量一下使用 bun:ffi 编译需要多长时间

main.js
import { cc } from "bun:ffi";

 console.time("Compile ./myRandom.c");
export const {
  symbols: { myRandom },
} = cc({
  source: "./myRandom.c",
  symbols: {
    myRandom: {
      returns: "int",
      args: [],
    },
  },
});
 console.timeEnd("Compile ./myRandom.c");

以及输出结果

bun ./main.js
[5.16ms] Compile ./myRandom.c
myRandom() = 43

那是 5.16 毫秒。感谢 TinyCC,在 Bun 中编译 C 代码非常快。如果编译需要 10 秒,我们就不会放心地发布它。

bun:ffi 是低开销的

外部函数接口 (FFI) 以速度慢而闻名。在 Bun 中,情况有所不同。

在我们用 Bun 测量它之前,让我们先了解一下它可能达到的速度上限。为了简单起见,让我们使用 Google 的基准测试库(需要 .cpp 文件)

bench.cpp
#include <stdio.h>
#include <stdlib.h>
#include <benchmark/benchmark.h>

int myRandom() {
    return rand() + 42;
}

static void BM_MyRandom(benchmark::State& state) {
  for (auto _ : state) {
    benchmark::DoNotOptimize(myRandom());
  }
}
BENCHMARK(BM_MyRandom);

BENCHMARK_MAIN();

以及输出结果

clang++ ./bench.cpp -L/opt/homebrew/lib -l benchmark -O3 -I/opt/homebrew/include -o bench
./bench
------------------------------------------------------
Benchmark            Time             CPU   Iterations
------------------------------------------------------
BM_MyRandom       4.67 ns         4.66 ns    150144353

因此,在 C/C++ 中,每次调用耗时 4 纳秒。这代表了它可能达到的最快速度的上限。

使用 bun:ffi 需要多长时间?

bench.js
import { bench, run } from 'mitata';
import { myRandom } from './main';

bench('myRandom', () => {
  myRandom();
});

run();

在我的机器上,结果是

bun ./bench.js
cpu: Apple M3 Max
runtime: bun 1.1.28 (arm64-darwin)

benchmark      time (avg)             (min … max)       p75       p99      p999
------------------------------------------------- -----------------------------
myRandom     6.26 ns/iter    (6.16 ns … 17.68 ns)   6.23 ns   7.67 ns  10.17 ns

6 纳秒。因此,bun:ffi 的每次调用开销仅为 6ns - 4ns = 2ns。

您可以用它构建什么?

bun:ffi 可以使用动态链接的共享库。

使用 ffmpeg 将短视频转换速度提高 3 倍

通过避免生成新进程和为每个视频分配大量内存的开销,您可以将短视频的转换速度提高 3 倍。

ffmpeg.js
mp4.c
ffmpeg.js
import { cc, ptr } from "bun:ffi";
import source from "./mp4.c" with {type: 'file'};
import { basename, extname, join } from "path";

console.time(`Compile ./mp4.c`);
const {
  symbols: { convert_file_to_mp4 },
} = cc({
  source,
  library: ["c", "avcodec", "swscale", "avformat"],
  symbols: {
    convert_file_to_mp4: {
      returns: "int",
      args: ["cstring", "cstring"],
    },
  },
});
console.timeEnd(`Compile ./mp4.c`);
const outname = join(
  process.cwd(),
  basename(process.argv.at(2), extname(process.argv.at(2))) + ".mp4"
);
const input = Buffer.from(process.argv.at(2) + "\0");
const output = Buffer.from(outname + "\0");
for (let i = 0; i < 10; i++) {
  console.time(`Convert ${process.argv.at(2)} to ${outname}`);
  const result = convert_file_to_mp4(ptr(input), ptr(output));
  if (result == 0) {
    console.timeEnd(`Convert ${process.argv.at(2)} to ${outname}`);
  }
}

mp4.c
#include <dlfcn.h>
#include <libavcodec/avcodec.h>
#include <libavformat/avformat.h>
#include <libavutil/avutil.h>
#include <libavutil/imgutils.h>
#include <libavutil/opt.h>
#include <libswscale/swscale.h>
#include <stdio.h>
#include <stdlib.h>

int to_mp4(void *buf, size_t buflen, void **out, size_t *outlen) {
  AVFormatContext *input_ctx = NULL, *output_ctx = NULL;
  AVIOContext *input_io_ctx = NULL, *output_io_ctx = NULL;
  uint8_t *output_buffer = NULL;
  int ret = 0;
  int64_t *last_dts = NULL;

  // Register all codecs and formats

  // Create input IO context
  input_io_ctx = avio_alloc_context(buf, buflen, 0, NULL, NULL, NULL, NULL);
  if (!input_io_ctx) {
    ret = AVERROR(ENOMEM);
    goto end;
  }

  // Allocate input format context
  input_ctx = avformat_alloc_context();
  if (!input_ctx) {
    ret = AVERROR(ENOMEM);
    goto end;
  }

  input_ctx->pb = input_io_ctx;

  // Open input
  if ((ret = avformat_open_input(&input_ctx, NULL, NULL, NULL)) < 0) {
    goto end;
  }

  // Retrieve stream information
  if ((ret = avformat_find_stream_info(input_ctx, NULL)) < 0) {
    goto end;
  }

  // Allocate output format context
  avformat_alloc_output_context2(&output_ctx, NULL, "mp4", NULL);
  if (!output_ctx) {
    ret = AVERROR(ENOMEM);
    goto end;
  }

  // Create output IO context
  ret = avio_open_dyn_buf(&output_ctx->pb);
  if (ret < 0) {
    goto end;
  }

  // Copy streams
  for (int i = 0; i < input_ctx->nb_streams; i++) {
    AVStream *in_stream = input_ctx->streams[i];
    AVStream *out_stream = avformat_new_stream(output_ctx, NULL);
    if (!out_stream) {
      ret = AVERROR(ENOMEM);
      goto end;
    }

    ret = avcodec_parameters_copy(out_stream->codecpar, in_stream->codecpar);
    if (ret < 0) {
      goto end;
    }
    out_stream->codecpar->codec_tag = 0;
  }

  // Write header
  ret = avformat_write_header(output_ctx, NULL);
  if (ret < 0) {
    goto end;
  }

  // Allocate last_dts array
  last_dts = calloc(input_ctx->nb_streams, sizeof(int64_t));
  if (!last_dts) {
    ret = AVERROR(ENOMEM);
    goto end;
  }

  // Copy packets
  AVPacket pkt;
  while (1) {
    ret = av_read_frame(input_ctx, &pkt);
    if (ret < 0) {
      break;
    }

    AVStream *in_stream = input_ctx->streams[pkt.stream_index];
    AVStream *out_stream = output_ctx->streams[pkt.stream_index];

    // Convert timestamps
    pkt.pts =
        av_rescale_q_rnd(pkt.pts, in_stream->time_base, out_stream->time_base,
                         AV_ROUND_NEAR_INF | AV_ROUND_PASS_MINMAX);
    pkt.dts =
        av_rescale_q_rnd(pkt.dts, in_stream->time_base, out_stream->time_base,
                         AV_ROUND_NEAR_INF | AV_ROUND_PASS_MINMAX);
    pkt.duration =
        av_rescale_q(pkt.duration, in_stream->time_base, out_stream->time_base);

    // Ensure monotonically increasing DTS
    if (pkt.dts <= last_dts[pkt.stream_index]) {
      pkt.dts = last_dts[pkt.stream_index] + 1;
      pkt.pts = FFMAX(pkt.pts, pkt.dts);
    }
    last_dts[pkt.stream_index] = pkt.dts;

    pkt.pos = -1;

    ret = av_interleaved_write_frame(output_ctx, &pkt);
    if (ret < 0) {
      char errbuf[AV_ERROR_MAX_STRING_SIZE];
      av_strerror(ret, errbuf, AV_ERROR_MAX_STRING_SIZE);
      fprintf(stderr, "Error writing frame: %s\n", errbuf);
      break;
    }
    av_packet_unref(&pkt);
  }

  // Write trailer
  ret = av_write_trailer(output_ctx);
  if (ret < 0) {
    goto end;
  }

  // Get the output buffer
  *outlen = avio_close_dyn_buf(output_ctx->pb, &output_buffer);
  *out = output_buffer;
  output_ctx->pb = NULL; // Set to NULL to prevent double free

  ret = 0; // Success

end:
  if (input_ctx) {
    avformat_close_input(&input_ctx);
  }
  if (output_ctx) {
    avformat_free_context(output_ctx);
  }
  if (input_io_ctx) {
    av_freep(&input_io_ctx->buffer);
    av_freep(&input_io_ctx);
  }

  return ret;
}

int convert_file_to_mp4(const char *input_filename,
                        const char *output_filename) {
  FILE *input_file = NULL;
  FILE *output_file = NULL;
  uint8_t *input_buffer = NULL;
  uint8_t *output_buffer = NULL;
  size_t input_size = 0;
  size_t output_size = 0;
  int ret = 0;

  // Open the input file
  input_file = fopen(input_filename, "rb");
  if (!input_file) {
    perror("Could not open input file");
    return -1;
  }

  // Get the size of the input file
  fseek(input_file, 0, SEEK_END);
  input_size = ftell(input_file);
  fseek(input_file, 0, SEEK_SET);

  // Allocate memory for the input buffer
  input_buffer = (uint8_t *)malloc(input_size);
  if (!input_buffer) {
    perror("Could not allocate input buffer");
    ret = -1;
    goto cleanup;
  }

  // Read the input file into the buffer
  if (fread(input_buffer, 1, input_size, input_file) != input_size) {
    perror("Could not read input file");
    ret = -1;
    goto cleanup;
  }

  // Call the to_mp4 function to convert the buffer
  ret = to_mp4(input_buffer, input_size, (void **)&output_buffer, &output_size);
  if (ret < 0) {
    fprintf(stderr, "Error converting to MP4\n");
    goto cleanup;
  }

  // Open the output file
  output_file = fopen(output_filename, "wb");
  if (!output_file) {
    perror("Could not open output file");
    ret = -1;
    goto cleanup;
  }

  // Write the output buffer to the file
  if (fwrite(output_buffer, 1, output_size, output_file) != output_size) {
    perror("Could not write output file");
    ret = -1;
    goto cleanup;
  }

cleanup:

  if (output_buffer) {
    av_free(output_buffer);
  }
  if (input_file) {
    fclose(input_file);
  }
  if (output_file) {
    fclose(output_file);
  }

  return ret;
}

// for running it standalone
int main(const int argc, const char **argv) {

  if (argc != 3) {
    printf("Usage: %s <input_file> <output_file>\n", argv[0]);
    return -1;
  }

  const char *input_filename = argv[1];
  const char *output_filename = argv[2];

  int result = convert_file_to_mp4(input_filename, output_filename);
  if (result == 0) {
    printf("Conversion successful!\n");
  } else {
    printf("Conversion failed!\n");
  }
  return result;
}

使用 macOS Keychain API 安全地保存和加载密码

macOS 有一个内置的 Keychain API,用于安全地存储和检索密码,但这并没有暴露给 JavaScript。与其弄清楚如何使用 N-API 包装它,使用 node-gyp 配置 CMake,不如直接在您的 JS 项目中编写几行 C 代码来完成它?

keychain.js
keychain.c
keychain.js
import { cc, ptr, CString } from "bun:ffi";
const {
  symbols: { setPassword, getPassword, deletePassword },
} = cc({
  source: "./keychain.c",
  flags: [
    "-framework",
    "Security",
    "-framework",
    "CoreFoundation",
    "-framework",
    "Foundation",
  ],
  symbols: {
    setPassword: {
      args: ["cstring", "cstring", "cstring"],
      returns: "i32",
    },
    getPassword: {
      args: ["cstring", "cstring", "ptr", "ptr"],
      returns: "i32",
    },
    deletePassword: {
      args: ["cstring", "cstring"],
      returns: "i32",
    },
  },
});

var service = Buffer.from("com.bun.test.keychain\0");

var account = Buffer.from("bun\0");
var password = Buffer.alloc(1024);
password.write("password\0");
var passwordPtr = new BigUint64Array(1);
passwordPtr[0] = BigInt(ptr(password));
var passwordLength = new Uint32Array(1);

setPassword(ptr(service), ptr(account), ptr(password));

passwordLength[0] = 1024;
password.fill(0);
getPassword(ptr(service), ptr(account), ptr(passwordPtr), ptr(passwordLength));
const result = new CString(
  Number(passwordPtr[0]),
  0,
  passwordLength[0]
);
console.log(result);
keychain.c
#include <Security/Security.h>
#include <stdio.h>
#include <string.h>

// Function to set a password in the keychain
OSStatus setPassword(const char* service, const char* account, const char* password) {
    SecKeychainItemRef item = NULL;
    OSStatus status = SecKeychainFindGenericPassword(
        NULL,
        strlen(service), service,
        strlen(account), account,
        NULL, NULL,
        &item
    );

    if (status == errSecSuccess) {
        // Update existing item
        status = SecKeychainItemModifyAttributesAndData(
            item,
            NULL,
            strlen(password),
            password
        );
        CFRelease(item);
    } else if (status == errSecItemNotFound) {
        // Add new item
        status = SecKeychainAddGenericPassword(
            NULL,
            strlen(service), service,
            strlen(account), account,
            strlen(password), password,
            NULL
        );
    }

    return status;
}

// Function to get a password from the keychain
OSStatus getPassword(const char* service, const char* account, char** password, UInt32* passwordLength) {
    return SecKeychainFindGenericPassword(
        NULL,
        strlen(service), service,
        strlen(account), account,
        passwordLength, (void**)password,
        NULL
    );
}

// Function to delete a password from the keychain
OSStatus deletePassword(const char* service, const char* account) {
    SecKeychainItemRef item = NULL;
    OSStatus status = SecKeychainFindGenericPassword(
        NULL,
        strlen(service), service,
        strlen(account), account,
        NULL, NULL,
        &item
    );

    if (status == errSecSuccess) {
        status = SecKeychainItemDelete(item);
        CFRelease(item);
    }

    return status;
}

这有什么用?

这是一种低样板的方式,可以从 JavaScript 中使用 C 库和系统库。运行 JavaScript 的同一个项目也可以运行 C 代码,而无需单独的构建步骤。

它适用于将 C 或类 C 库绑定到 JavaScript 的胶水代码。有时,您想从 JavaScript 中使用 C 库或系统 API,但该库从未打算从 JavaScript 中使用。

编写一些 C 代码来将这类代码包装成 JavaScript 友好的 API 通常是最简单的方法,因为

  • 示例是用 C 语言编写的,而不是通过 FFI 在 JavaScript 中编写的。
  • 使用 FFI 意味着您必须在 JavaScript 和 C 之间进行心智翻译。在 C 语言中使用指针比通过 JavaScript 中的类型化数组在 FFI 中使用指针更容易。那么,为什么不让自己更轻松呢?

这不适用于什么?

每种工具都有权衡。

  • 您可能不想使用它来编译大型 C 项目,如 PostgresSQL 或 SQLite。TinyCC 编译出的 C 代码性能尚可,但它不会像 Clang 或 GCC 那样进行高级优化,例如自动向量化或非常专业的 CPU 指令。
  • 通过 C 语言对代码库的小部分进行微优化,您可能不会获得太多性能提升,但很高兴被证明是错误的!