搜索文档...

/

指南 HTMLRewriter

使用 Bun 和 HTMLRewriter 从网页中提取链接

在 GitHub 上编辑

从网页中提取链接

Bun 的 HTMLRewriter API 可用于高效地从 HTML 内容中提取链接。它的工作原理是将 CSS 选择器链接在一起，以匹配您想要处理的元素、文本和属性。这是一个如何从网页中提取链接的简单示例。您可以将 .transform 传递 Response、Blob 或 string。

async function extractLinks(url: string) {
  const links = new Set<string>();
  const response = await fetch(url);

  const rewriter = new HTMLRewriter().on("a[href]", {
    element(el) {
      const href = el.getAttribute("href");
      if (href) {
        links.add(href);
      }
    },
  });

  // Wait for the response to be processed
  await rewriter.transform(response).blob();
  console.log([...links]); // ["https://bun.net.cn", "/docs", ...]
}

// Extract all links from the Bun website
await extractLinks("https://bun.net.cn");

将相对 URL 转换为绝对 URL

在抓取网站时，您通常希望将相对 URL（如 /docs）转换为绝对 URL。以下是如何处理 URL 解析

async function extractLinksFromURL(url: string) {
  const response = await fetch(url);
  const links = new Set<string>();

  const rewriter = new HTMLRewriter().on("a[href]", {
    element(el) {
      const href = el.getAttribute("href");
      if (href) {
        // Convert relative URLs to absolute
        try {
          const absoluteURL = new URL(href, url).href;
          links.add(absoluteURL);
        } catch {
          links.add(href);
        }
      }
    },
  });

  // Wait for the response to be processed
  await rewriter.transform(response).blob();
  return [...links];
}

const websiteLinks = await extractLinksFromURL("https://example.com");

有关使用 Bun 进行 HTML 转换的完整文档，请参阅文档 > API > HTMLRewriter。

生态系统

使用 React 和 JSX

将 EdgeDB 与 Bun 一起使用

将 Prisma 与 Bun 一起使用

创建 Discord 机器人

向 Bun 应用添加 Sentry

将 Drizzle ORM 与 Bun 一起使用

使用 PM2 将 Bun 作为守护进程运行

使用 Nuxt 和 Bun 构建应用

使用 Qwik 和 Bun 构建应用

使用 Astro 和 Bun 构建应用

使用 Remix 和 Bun 构建应用

使用 systemd 将 Bun 作为守护进程运行

使用 Next.js 和 Bun 构建应用

在 Render 上部署 Bun 应用程序

使用 SvelteKit 和 Bun 构建应用

使用 Vite 和 Bun 构建前端

使用 SolidStart 和 Bun 构建应用

通过 Drizzle ORM 使用 Neon Postgres

使用 Hono 和 Bun 构建 HTTP 服务器

将 Neon 的 Serverless Postgres 与 Bun 一起使用

使用 Elysia 和 Bun 构建 HTTP 服务器

使用 Docker 容器化 Bun 应用程序

使用 Express 和 Bun 构建 HTTP 服务器

服务器端渲染 (SSR) React 组件

使用 StricJS 和 Bun 构建 HTTP 服务器

使用 Mongoose 和 Bun 读取和写入 MongoDB 数据

HTMLRewriter

使用 HTMLRewriter 从网页中提取链接

提取社交分享图片和 Open Graph 标签

HTTP

常用 HTTP 服务器用法

热重载 HTTP 服务器

编写简单的 HTTP 服务器

启动 HTTP 服务器集群

在 HTTP 服务器上配置 TLS

使用 fetch 发送 HTTP 请求

使用 fetch() 代理 HTTP 请求

将文件作为 HTTP 响应流式传输

使用 FormData 通过 HTTP 上传文件

在 Bun 中使用 unix 域套接字进行 fetch

使用异步迭代器的流式 HTTP 服务器

使用 Node.js 流的流式 HTTP 服务器

包管理器

添加依赖项

添加 Git 依赖项

添加 peer 依赖项

添加 tarball 依赖项

添加受信任的依赖项

添加可选依赖项

添加开发依赖项

将 bun install 与 Artifactory 结合使用

生成 yarn 兼容的 lockfile

从 npm install 迁移到 bun install

使用 workspaces 配置 monorepo

以不同的名称安装包

配置 git 以 diff Bun 的 lockb lockfile

在 GitHub Actions 中使用 Bun 安装依赖项

覆盖 bun install 的默认 npm 注册表

将 bun install 与 Azure Artifacts npm 注册表结合使用

为组织范围配置私有注册表与 bun install

进程

从 stdin 读取

监听 OS 信号

派生子进程

解析命令行参数

从子进程读取 stderr

从子进程读取 stdout

获取进程运行时间（纳秒）

派生子进程并使用 IPC 通信

读取文件

读取 JSON 文件

检查文件是否存在

将文件读取到 Buffer

将文件读取为字符串

获取文件的 MIME 类型

将文件读取到 Uint8Array

将文件读取到 ArrayBuffer

监视目录更改

将文件读取为 ReadableStream

运行时

导入 JSON 文件

导入 TOML 文件

运行 Shell 命令

重新映射导入路径

在 Bun 中设置时区

设置环境变量

将 HTML 文件作为文本导入

读取环境变量

使用 Web 调试器调试 Bun

在 GitHub Actions 中安装并运行 Bun

安装 Bun 的 TypeScript 声明

使用 VS Code 扩展调试 Bun

使用 V8 堆快照检查内存使用情况

定义和替换静态全局变量和常量

在 macOS 上对单文件 JavaScript 可执行文件进行代码签名

流

将 ReadableStream 转换为 JSON

将 Node.js Readable 转换为 JSON

将 ReadableStream 转换为 Blob

将 Node.js Readable 转换为 Blob

将 ReadableStream 转换为 Buffer

将 ReadableStream 转换为字符串

将 Node.js Readable 转换为字符串

将 ReadableStream 转换为 Uint8Array

将 ReadableStream 转换为 ArrayBuffer

将 Node.js Readable 转换为 Uint8Array

将 Node.js Readable 转换为 ArrayBuffer

将 ReadableStream 转换为块数组

测试运行器

在 bun test 中模拟函数

在 bun test 中监视方法

将 Testing Library 与 Bun 结合使用

在 bun test 中更新快照

在 Bun 中以监视模式运行测试

在 bun test 中使用快照测试

使用 Bun 测试运行器提前终止

使用 Bun 测试运行器跳过测试

从 Jest 迁移到 Bun 的测试运行器

使用 Bun 测试运行器运行测试

在 Bun 的测试运行器中设置系统时间

使用 Bun 和 happy-dom 编写浏览器 DOM 测试

使用 Bun 测试运行器设置每个测试的超时时间

使用 Bun 测试运行器将测试标记为“待办”

使用 Bun 测试运行器多次重新运行测试

使用 Bun 测试运行器设置代码覆盖率阈值

使用 Bun 测试运行器生成代码覆盖率报告

使用 bun test 导入、require 和测试 Svelte 组件

实用工具

转义 HTML 字符串

获取当前的 Bun 版本

编码和解码 base64 字符串

检查两个对象是否深度相等

检测代码何时使用 Bun 执行

获取当前文件的目录

获取当前文件的文件名

将文件 URL 转换为绝对路径

使用 gzip 压缩和解压缩数据

将绝对路径转换为文件 URL

获取可执行 bin 文件的路径

休眠固定的毫秒数

使用 DEFLATE 压缩和解压缩数据

获取当前文件的绝对路径

检查当前文件是否为入口点

获取当前入口点的绝对路径

WebSocket

构建简单的 WebSocket 服务器

为 WebSocket 消息启用压缩

构建发布-订阅 WebSocket 服务器

在 WebSocket 上设置每个套接字的上下文数据

写入文件

将 Blob 写入文件

将文件写入 stdout

将内容附加到文件

将字符串写入文件

增量写入文件

将 Response 写入文件

将文件复制到另一个位置

将 ReadableStream 写入文件