溪客(编程代码) 溪客(编程代码)

  • 今天是2025年08月20日 Wednesday
  • 首页
  • 知识
  • 网址
  • AI助手

Python

首页 / 知识 / Python
  • 基础
    • Conda
    • Jupyter
    • dump
    • CSharp2Python
    • 关于模块导入
    • 关于推导式
    • 关于元组
    • set和数组的区别
    • 关于Literal
    • 关于iter
    • 关于setup.py
    • 路径拼接
    • 方法命名约定
  • 库
    • 其他
    • argparse命令行参数解析
    • asyncio自带异步编程库
    • aiofiles异步文件读写库
    • beautifulsoup4_HTML_XML解析库
    • colorama_在终端输出漂亮的字
    • datasets数据集处理
    • html2text
    • httpx_HTTP请求库
    • litellm
    • loguru日志库
    • numpy科学计算基础库
    • pillow图像处理
    • pydantic数据验证
    • pyyaml
    • requests_HTTP请求库
    • tenacity重试
    • tiktoken计算Token量
    • torch机器学习_深度学习框架
    • tomli TOML文件解析库
    • tomllib 自带TOML文件解析库
    • unidiff_文本_文件差异对比
    • uvicorn_Web服务器
  • langchain
    • langchain-chatchat
    • langchain-qianfan
**html2text** 是一个 Python 库,用于将 **HTML 格式的文本转换成纯文本(Markdown 或普通文本格式)**。 --- ### 一、html2text 是什么? - **作用**:把 HTML 网页内容(比如从网页抓取的 HTML 代码)转换为更易读的 **纯文本** 或 **Markdown 格式**。 - **用途**:常用于网页爬虫、内容提取、文档转换等场景,当你需要从 HTML 中提取出干净的、可读的文本内容(而不是带标签的 HTML 源码)时,就可以用它。 --- ### 二、主要功能 - 将 HTML 标签(如 `

`、``、`

    `、`

    ` 等)转换为对应的 **可读文本** 或 **Markdown 语法**。 - 去掉多余的 HTML 标签、脚本、样式等,只保留文本内容。 - 支持配置,比如是否保留链接、图片说明、列表格式等。 - 输出可以是 **纯文本** 或 **类 Markdown 格式**(默认通常是 Markdown 风格的文本)。 --- ### 三、常见使用场景 1. **网页爬虫**:抓取网页 HTML 后,提取可读的正文内容,去掉广告、导航等无关标签。 2. **内容转换**:将网页或 HTML 文件转为纯文本,用于存档、分析、机器学习预处理等。 3. **邮件处理**:将 HTML 格式的邮件内容转换为可读的文本。 4. **文档处理**:将带 HTML 标签的内容转为 Markdown,便于后续编辑或展示。 --- ### 四、安装方法 使用 pip 安装: ```bash pip install html2text ``` --- ### 五、简单使用示例 ```python import html2text # 创建一个转换器对象 h = html2text.HTML2Text() h.ignore_links = False # 是否忽略链接(默认False,即保留) h.ignore_images = True # 是否忽略图片 # 示例 HTML html = """

    标题

    这是一个段落,包含一个链接。

    """ # 转换为 Markdown / 纯文本 text = h.handle(html) print(text) ``` **输出类似:** ``` # 标题 这是一个*段落*,包含一个[链接](https://example.com)。 ``` > 默认情况下,html2text 会尽量输出接近 **Markdown 格式** 的可读文本。 --- ### 六、总结(中文) **html2text 是一个 Python 工具库,用于将 HTML 代码转换成可读的纯文本或 Markdown 格式。** 它常用于网页爬虫、内容提取、文档处理等场景,能帮助你从复杂的 HTML 中提取出干净、结构化的文本内容,便于后续分析、存储或展示。
© 2022 - 溪客(编程代码) - 粤ICP备10217501号 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)