溪客(编程代码)

今天是2026年07月28日 Tuesday

首页
知识
网址

Python

首页 / 知识 / Python

基础
库
langchain
- langchain-chatchat
- langchain-qianfan

**html2text** 是一个 Python 库，用于将 **HTML 格式的文本转换成纯文本（Markdown 或普通文本格式）**。 --- ### 一、html2text 是什么？ - **作用**：把 HTML 网页内容（比如从网页抓取的 HTML 代码）转换为更易读的 **纯文本** 或 **Markdown 格式**。 - **用途**：常用于网页爬虫、内容提取、文档转换等场景，当你需要从 HTML 中提取出干净的、可读的文本内容（而不是带标签的 HTML 源码）时，就可以用它。 --- ### 二、主要功能 - 将 HTML 标签（如 `

`、``、`

`、`

` 等）转换为对应的可读文本或 Markdown 语法。 - 去掉多余的 HTML 标签、脚本、样式等，只保留文本内容。 - 支持配置，比如是否保留链接、图片说明、列表格式等。 - 输出可以是纯文本或类 Markdown 格式（默认通常是 Markdown 风格的文本）。 --- ### 三、常见使用场景 1. 网页爬虫：抓取网页 HTML 后，提取可读的正文内容，去掉广告、导航等无关标签。 2. 内容转换：将网页或 HTML 文件转为纯文本，用于存档、分析、机器学习预处理等。 3. 邮件处理：将 HTML 格式的邮件内容转换为可读的文本。 4. 文档处理：将带 HTML 标签的内容转为 Markdown，便于后续编辑或展示。 --- ### 四、安装方法使用 pip 安装： ```bash pip install html2text ``` --- ### 五、简单使用示例 ```python import html2text # 创建一个转换器对象 h = html2text.HTML2Text() h.ignore_links = False # 是否忽略链接（默认False，即保留） h.ignore_images = True # 是否忽略图片 # 示例 HTML html = """

标题

这是一个段落，包含一个链接。