从压缩到密码学,再到网络,再到您正在阅读此文的网络浏览器,世界都在 C 语言上运行。如果不是用 C 语言编写的,它也遵循 C ABI(C++、Rust、Zig 等),并可作为 C 库使用。C 语言和 C ABI 是系统编程的过去、现在和未来。
这就是为什么在 Bun v1.1.28 版本中,我们引入了从 JavaScript 编译和运行原生 C 代码的实验性支持
#include <stdio.h>
void hello() {
printf("You can now compile & run C in Bun!\n");
}
import { cc } from "bun:ffi";
export const {
symbols: { hello },
} = cc({
source: "./hello.c",
symbols: {
hello: {
returns: "void",
args: [],
},
},
});
hello();
在 Twitter 上,许多人提出了相同的问题
“我为什么要从 JavaScript 编译和运行 C 程序?”
以前,您有两种选择可以从 JavaScript 中使用系统库
- 编写 N-API (napi) 插件或 V8 C++ API 库插件
- 通过 emscripten 或 wasm-pack 编译为 WASM/WASI
N-API (napi) 有什么问题?
N-API (napi) 是一个运行时无关的 C API,用于将原生库暴露给 JavaScript。Bun 和 Node.js 都实现了它。在 napi 之前,原生插件主要使用 V8 C++ API,这意味着每次 Node.js 更新 V8 时都可能发生破坏性更改。
编译原生插件会破坏 CI
原生插件通常依赖 "postinstall"
脚本来使用 node-gyp
编译 N-API 插件。node-gyp
依赖 Python 3 和最新的 C++ 编译器。
对于许多人来说,需要在 CI 中安装 Python 3 和 C++ 编译器来构建前端 JavaScript 应用程序是一个不受欢迎的意外。
编译原生插件对于维护者来说很复杂
为了解决这个问题,一些库预构建它们的包,利用 package.json 中的 "os"
和 "cpu"
字段。将这种复杂性从用户转移到维护者对生态系统有利,但维护包含 10 个不同构建目标的构建矩阵并不简单。
"optionalDependencies": {
"@napi-rs/canvas-win32-x64-msvc": "0.1.55",
"@napi-rs/canvas-darwin-x64": "0.1.55",
"@napi-rs/canvas-linux-x64-gnu": "0.1.55",
"@napi-rs/canvas-linux-arm-gnueabihf": "0.1.55",
"@napi-rs/canvas-linux-x64-musl": "0.1.55",
"@napi-rs/canvas-linux-arm64-gnu": "0.1.55",
"@napi-rs/canvas-linux-arm64-musl": "0.1.55",
"@napi-rs/canvas-darwin-arm64": "0.1.55",
"@napi-rs/canvas-android-arm64": "0.1.55"
}
JavaScript → N-API 函数调用:3 倍开销
为了换取更复杂的构建,我们得到了什么?
JavaScript → 原生调用开销 | 机制 |
---|---|
7ns - 15ns | N-API |
2ns | JavaScriptCore C++ API(下限) |
使用 JavaScriptCore C++ API,一个简单的空操作函数每次调用消耗 2ns。使用 N-API,一个空操作函数每次调用消耗 7ns。
我们为什么要为此付出 3 倍的性能损失?
不幸的是,这是 napi 中的 API 设计问题。为了使 napi 与运行时无关,从 JavaScript 值中读取整数这样的简单操作也涉及到动态库函数调用。为了使 napi 与语言无关,每次动态库函数调用都会进行运行时类型检查。更复杂的操作涉及许多内存分配(或 GC 对象分配)和多层指针间接寻址。N-API 从未被设计为快速。
JavaScript 是世界上最流行的编程语言。我们能做得更好吗?
WebAssembly 怎么样?
为了规避 N-API 构建的复杂性和性能问题,一些项目选择将其原生插件编译为 WebAssembly,并在 JavaScript 中导入它。
由于 JavaScript 引擎可以内联跨越 WebAssembly <> JavaScript 边界的函数调用,这可以奏效。
但是,对于系统库,WebAssembly 的隔离内存模型带来了严重的权衡。
隔离意味着没有系统调用
WebAssembly 只能访问运行时暴露给它的函数。通常,那是 JavaScript。
那么,依赖于系统 API 的库,例如 macOS Keychain API(用于安全地存储/检索密码)或 音频录制 呢?如果您的 CLI 想要使用 Windows 注册表怎么办?
隔离意味着克隆所有内容
现代处理器支持大约 280 TB 的可寻址内存(48 位)。WebAssembly 是 32 位的,只能访问自己的内存。
这意味着默认情况下,在 JavaScript <=> WebAssembly 之间传递字符串和二进制数据时,每次都必须克隆。对于许多项目来说,这抵消了利用 WebAssembly 获得的任何性能提升。
如果 N-API 和 WebAssembly 不是服务器端 JavaScript 的唯一选择呢?如果我们可以在 JavaScript 中编译和运行原生 C 代码,并具有共享内存和接近零的调用开销呢?
从 JavaScript 编译和运行原生 C 代码
这是一个快速示例,它在 C 语言中编译一个随机数生成器,并在 JavaScript 中运行它。
#include <stdio.h>
#include <stdlib.h>
int myRandom() {
return rand() + 42;
}
编译和运行 C 代码的 JavaScript 代码
import { cc } from "bun:ffi";
export const {
symbols: { myRandom },
} = cc({
source: "./myRandom.c",
symbols: {
myRandom: {
returns: "int",
args: [],
},
},
});
console.log("myRandom() =", myRandom());
最后,输出结果
bun ./main.js
myRandom() = 43
这是如何工作的?
bun:ffi
使用 TinyCC 在内存中编译、链接和重定位 C 程序。然后,它生成内联函数包装器,将 JavaScript 原始类型 <=> C 原始类型进行转换。
例如,为了将 C 语言中的 int
转换为 JavaScriptCore 的 EncodedJSValue 表示形式,代码本质上执行以下操作
static int64_t int32_to_js(int32_t input) {
return 0xfffe000000000000ll | (uint32_t)input;
}
与 N-API 不同,这些类型转换自动发生,并且具有零动态调度开销。由于这些包装器是在 C 编译时生成的,因此我们可以安全地内联类型转换,而无需担心兼容性问题,也无需牺牲性能。
bun:ffi
编译速度很快
如果您以前使用过 clang
或 gcc
,您可能会想
clang/gcc 用户:“太棒了 🙄 现在每次运行这个 JS 都必须等待 10 秒才能编译 C 代码。”
让我们测量一下使用 bun:ffi
编译需要多长时间
import { cc } from "bun:ffi";
console.time("Compile ./myRandom.c");
export const {
symbols: { myRandom },
} = cc({
source: "./myRandom.c",
symbols: {
myRandom: {
returns: "int",
args: [],
},
},
});
console.timeEnd("Compile ./myRandom.c");
以及输出结果
bun ./main.js
[5.16ms] Compile ./myRandom.c
myRandom() = 43
那是 5.16 毫秒。感谢 TinyCC,在 Bun 中编译 C 代码非常快。如果编译需要 10 秒,我们就不会放心地发布它。
bun:ffi
是低开销的
外部函数接口 (FFI) 以速度慢而闻名。在 Bun 中,情况有所不同。
在我们用 Bun 测量它之前,让我们先了解一下它可能达到的速度上限。为了简单起见,让我们使用 Google 的基准测试库(需要 .cpp 文件)
#include <stdio.h>
#include <stdlib.h>
#include <benchmark/benchmark.h>
int myRandom() {
return rand() + 42;
}
static void BM_MyRandom(benchmark::State& state) {
for (auto _ : state) {
benchmark::DoNotOptimize(myRandom());
}
}
BENCHMARK(BM_MyRandom);
BENCHMARK_MAIN();
以及输出结果
clang++ ./bench.cpp -L/opt/homebrew/lib -l benchmark -O3 -I/opt/homebrew/include -o bench
./bench
------------------------------------------------------
Benchmark Time CPU Iterations
------------------------------------------------------
BM_MyRandom 4.67 ns 4.66 ns 150144353
因此,在 C/C++ 中,每次调用耗时 4 纳秒。这代表了它可能达到的最快速度的上限。
使用 bun:ffi
需要多长时间?
import { bench, run } from 'mitata';
import { myRandom } from './main';
bench('myRandom', () => {
myRandom();
});
run();
在我的机器上,结果是
bun ./bench.js
cpu: Apple M3 Max
runtime: bun 1.1.28 (arm64-darwin)
benchmark time (avg) (min … max) p75 p99 p999
------------------------------------------------- -----------------------------
myRandom 6.26 ns/iter (6.16 ns … 17.68 ns) 6.23 ns 7.67 ns 10.17 ns
6 纳秒。因此,bun:ffi
的每次调用开销仅为 6ns - 4ns = 2ns。
您可以用它构建什么?
bun:ffi 可以使用动态链接的共享库。
使用 ffmpeg 将短视频转换速度提高 3 倍
通过避免生成新进程和为每个视频分配大量内存的开销,您可以将短视频的转换速度提高 3 倍。
import { cc, ptr } from "bun:ffi";
import source from "./mp4.c" with {type: 'file'};
import { basename, extname, join } from "path";
console.time(`Compile ./mp4.c`);
const {
symbols: { convert_file_to_mp4 },
} = cc({
source,
library: ["c", "avcodec", "swscale", "avformat"],
symbols: {
convert_file_to_mp4: {
returns: "int",
args: ["cstring", "cstring"],
},
},
});
console.timeEnd(`Compile ./mp4.c`);
const outname = join(
process.cwd(),
basename(process.argv.at(2), extname(process.argv.at(2))) + ".mp4"
);
const input = Buffer.from(process.argv.at(2) + "\0");
const output = Buffer.from(outname + "\0");
for (let i = 0; i < 10; i++) {
console.time(`Convert ${process.argv.at(2)} to ${outname}`);
const result = convert_file_to_mp4(ptr(input), ptr(output));
if (result == 0) {
console.timeEnd(`Convert ${process.argv.at(2)} to ${outname}`);
}
}
#include <dlfcn.h>
#include <libavcodec/avcodec.h>
#include <libavformat/avformat.h>
#include <libavutil/avutil.h>
#include <libavutil/imgutils.h>
#include <libavutil/opt.h>
#include <libswscale/swscale.h>
#include <stdio.h>
#include <stdlib.h>
int to_mp4(void *buf, size_t buflen, void **out, size_t *outlen) {
AVFormatContext *input_ctx = NULL, *output_ctx = NULL;
AVIOContext *input_io_ctx = NULL, *output_io_ctx = NULL;
uint8_t *output_buffer = NULL;
int ret = 0;
int64_t *last_dts = NULL;
// Register all codecs and formats
// Create input IO context
input_io_ctx = avio_alloc_context(buf, buflen, 0, NULL, NULL, NULL, NULL);
if (!input_io_ctx) {
ret = AVERROR(ENOMEM);
goto end;
}
// Allocate input format context
input_ctx = avformat_alloc_context();
if (!input_ctx) {
ret = AVERROR(ENOMEM);
goto end;
}
input_ctx->pb = input_io_ctx;
// Open input
if ((ret = avformat_open_input(&input_ctx, NULL, NULL, NULL)) < 0) {
goto end;
}
// Retrieve stream information
if ((ret = avformat_find_stream_info(input_ctx, NULL)) < 0) {
goto end;
}
// Allocate output format context
avformat_alloc_output_context2(&output_ctx, NULL, "mp4", NULL);
if (!output_ctx) {
ret = AVERROR(ENOMEM);
goto end;
}
// Create output IO context
ret = avio_open_dyn_buf(&output_ctx->pb);
if (ret < 0) {
goto end;
}
// Copy streams
for (int i = 0; i < input_ctx->nb_streams; i++) {
AVStream *in_stream = input_ctx->streams[i];
AVStream *out_stream = avformat_new_stream(output_ctx, NULL);
if (!out_stream) {
ret = AVERROR(ENOMEM);
goto end;
}
ret = avcodec_parameters_copy(out_stream->codecpar, in_stream->codecpar);
if (ret < 0) {
goto end;
}
out_stream->codecpar->codec_tag = 0;
}
// Write header
ret = avformat_write_header(output_ctx, NULL);
if (ret < 0) {
goto end;
}
// Allocate last_dts array
last_dts = calloc(input_ctx->nb_streams, sizeof(int64_t));
if (!last_dts) {
ret = AVERROR(ENOMEM);
goto end;
}
// Copy packets
AVPacket pkt;
while (1) {
ret = av_read_frame(input_ctx, &pkt);
if (ret < 0) {
break;
}
AVStream *in_stream = input_ctx->streams[pkt.stream_index];
AVStream *out_stream = output_ctx->streams[pkt.stream_index];
// Convert timestamps
pkt.pts =
av_rescale_q_rnd(pkt.pts, in_stream->time_base, out_stream->time_base,
AV_ROUND_NEAR_INF | AV_ROUND_PASS_MINMAX);
pkt.dts =
av_rescale_q_rnd(pkt.dts, in_stream->time_base, out_stream->time_base,
AV_ROUND_NEAR_INF | AV_ROUND_PASS_MINMAX);
pkt.duration =
av_rescale_q(pkt.duration, in_stream->time_base, out_stream->time_base);
// Ensure monotonically increasing DTS
if (pkt.dts <= last_dts[pkt.stream_index]) {
pkt.dts = last_dts[pkt.stream_index] + 1;
pkt.pts = FFMAX(pkt.pts, pkt.dts);
}
last_dts[pkt.stream_index] = pkt.dts;
pkt.pos = -1;
ret = av_interleaved_write_frame(output_ctx, &pkt);
if (ret < 0) {
char errbuf[AV_ERROR_MAX_STRING_SIZE];
av_strerror(ret, errbuf, AV_ERROR_MAX_STRING_SIZE);
fprintf(stderr, "Error writing frame: %s\n", errbuf);
break;
}
av_packet_unref(&pkt);
}
// Write trailer
ret = av_write_trailer(output_ctx);
if (ret < 0) {
goto end;
}
// Get the output buffer
*outlen = avio_close_dyn_buf(output_ctx->pb, &output_buffer);
*out = output_buffer;
output_ctx->pb = NULL; // Set to NULL to prevent double free
ret = 0; // Success
end:
if (input_ctx) {
avformat_close_input(&input_ctx);
}
if (output_ctx) {
avformat_free_context(output_ctx);
}
if (input_io_ctx) {
av_freep(&input_io_ctx->buffer);
av_freep(&input_io_ctx);
}
return ret;
}
int convert_file_to_mp4(const char *input_filename,
const char *output_filename) {
FILE *input_file = NULL;
FILE *output_file = NULL;
uint8_t *input_buffer = NULL;
uint8_t *output_buffer = NULL;
size_t input_size = 0;
size_t output_size = 0;
int ret = 0;
// Open the input file
input_file = fopen(input_filename, "rb");
if (!input_file) {
perror("Could not open input file");
return -1;
}
// Get the size of the input file
fseek(input_file, 0, SEEK_END);
input_size = ftell(input_file);
fseek(input_file, 0, SEEK_SET);
// Allocate memory for the input buffer
input_buffer = (uint8_t *)malloc(input_size);
if (!input_buffer) {
perror("Could not allocate input buffer");
ret = -1;
goto cleanup;
}
// Read the input file into the buffer
if (fread(input_buffer, 1, input_size, input_file) != input_size) {
perror("Could not read input file");
ret = -1;
goto cleanup;
}
// Call the to_mp4 function to convert the buffer
ret = to_mp4(input_buffer, input_size, (void **)&output_buffer, &output_size);
if (ret < 0) {
fprintf(stderr, "Error converting to MP4\n");
goto cleanup;
}
// Open the output file
output_file = fopen(output_filename, "wb");
if (!output_file) {
perror("Could not open output file");
ret = -1;
goto cleanup;
}
// Write the output buffer to the file
if (fwrite(output_buffer, 1, output_size, output_file) != output_size) {
perror("Could not write output file");
ret = -1;
goto cleanup;
}
cleanup:
if (output_buffer) {
av_free(output_buffer);
}
if (input_file) {
fclose(input_file);
}
if (output_file) {
fclose(output_file);
}
return ret;
}
// for running it standalone
int main(const int argc, const char **argv) {
if (argc != 3) {
printf("Usage: %s <input_file> <output_file>\n", argv[0]);
return -1;
}
const char *input_filename = argv[1];
const char *output_filename = argv[2];
int result = convert_file_to_mp4(input_filename, output_filename);
if (result == 0) {
printf("Conversion successful!\n");
} else {
printf("Conversion failed!\n");
}
return result;
}
使用 macOS Keychain API 安全地保存和加载密码
macOS 有一个内置的 Keychain API,用于安全地存储和检索密码,但这并没有暴露给 JavaScript。与其弄清楚如何使用 N-API 包装它,使用 node-gyp 配置 CMake,不如直接在您的 JS 项目中编写几行 C 代码来完成它?
import { cc, ptr, CString } from "bun:ffi";
const {
symbols: { setPassword, getPassword, deletePassword },
} = cc({
source: "./keychain.c",
flags: [
"-framework",
"Security",
"-framework",
"CoreFoundation",
"-framework",
"Foundation",
],
symbols: {
setPassword: {
args: ["cstring", "cstring", "cstring"],
returns: "i32",
},
getPassword: {
args: ["cstring", "cstring", "ptr", "ptr"],
returns: "i32",
},
deletePassword: {
args: ["cstring", "cstring"],
returns: "i32",
},
},
});
var service = Buffer.from("com.bun.test.keychain\0");
var account = Buffer.from("bun\0");
var password = Buffer.alloc(1024);
password.write("password\0");
var passwordPtr = new BigUint64Array(1);
passwordPtr[0] = BigInt(ptr(password));
var passwordLength = new Uint32Array(1);
setPassword(ptr(service), ptr(account), ptr(password));
passwordLength[0] = 1024;
password.fill(0);
getPassword(ptr(service), ptr(account), ptr(passwordPtr), ptr(passwordLength));
const result = new CString(
Number(passwordPtr[0]),
0,
passwordLength[0]
);
console.log(result);
#include <Security/Security.h>
#include <stdio.h>
#include <string.h>
// Function to set a password in the keychain
OSStatus setPassword(const char* service, const char* account, const char* password) {
SecKeychainItemRef item = NULL;
OSStatus status = SecKeychainFindGenericPassword(
NULL,
strlen(service), service,
strlen(account), account,
NULL, NULL,
&item
);
if (status == errSecSuccess) {
// Update existing item
status = SecKeychainItemModifyAttributesAndData(
item,
NULL,
strlen(password),
password
);
CFRelease(item);
} else if (status == errSecItemNotFound) {
// Add new item
status = SecKeychainAddGenericPassword(
NULL,
strlen(service), service,
strlen(account), account,
strlen(password), password,
NULL
);
}
return status;
}
// Function to get a password from the keychain
OSStatus getPassword(const char* service, const char* account, char** password, UInt32* passwordLength) {
return SecKeychainFindGenericPassword(
NULL,
strlen(service), service,
strlen(account), account,
passwordLength, (void**)password,
NULL
);
}
// Function to delete a password from the keychain
OSStatus deletePassword(const char* service, const char* account) {
SecKeychainItemRef item = NULL;
OSStatus status = SecKeychainFindGenericPassword(
NULL,
strlen(service), service,
strlen(account), account,
NULL, NULL,
&item
);
if (status == errSecSuccess) {
status = SecKeychainItemDelete(item);
CFRelease(item);
}
return status;
}
这有什么用?
这是一种低样板的方式,可以从 JavaScript 中使用 C 库和系统库。运行 JavaScript 的同一个项目也可以运行 C 代码,而无需单独的构建步骤。
它适用于将 C 或类 C 库绑定到 JavaScript 的胶水代码。有时,您想从 JavaScript 中使用 C 库或系统 API,但该库从未打算从 JavaScript 中使用。
编写一些 C 代码来将这类代码包装成 JavaScript 友好的 API 通常是最简单的方法,因为
- 示例是用 C 语言编写的,而不是通过 FFI 在 JavaScript 中编写的。
- 使用 FFI 意味着您必须在 JavaScript 和 C 之间进行心智翻译。在 C 语言中使用指针比通过 JavaScript 中的类型化数组在 FFI 中使用指针更容易。那么,为什么不让自己更轻松呢?
这不适用于什么?
每种工具都有权衡。
- 您可能不想使用它来编译大型 C 项目,如 PostgresSQL 或 SQLite。TinyCC 编译出的 C 代码性能尚可,但它不会像 Clang 或 GCC 那样进行高级优化,例如自动向量化或非常专业的 CPU 指令。
- 通过 C 语言对代码库的小部分进行微优化,您可能不会获得太多性能提升,但很高兴被证明是错误的!