Python
- 基础
-
库
- 其他
- argparse命令行参数解析
- asyncio自带异步编程库
- aiofiles异步文件读写库
- beautifulsoup4_HTML_XML解析库
- colorama_在终端输出漂亮的字
- datasets数据集处理
- html2text
- httpx_HTTP请求库
- litellm
- loguru日志库
- numpy科学计算基础库
- pillow图像处理
- pydantic数据验证
- pyyaml
- requests_HTTP请求库
- tenacity重试
- tiktoken计算Token量
- torch机器学习_深度学习框架
- tomli TOML文件解析库
- tomllib 自带TOML文件解析库
- unidiff_文本_文件差异对比
- uvicorn_Web服务器
- langchain
`、``、` 这是一个段落,包含一个链接。`、`
` 等)转换为对应的 **可读文本** 或 **Markdown 语法**。
- 去掉多余的 HTML 标签、脚本、样式等,只保留文本内容。
- 支持配置,比如是否保留链接、图片说明、列表格式等。
- 输出可以是 **纯文本** 或 **类 Markdown 格式**(默认通常是 Markdown 风格的文本)。
---
### 三、常见使用场景
1. **网页爬虫**:抓取网页 HTML 后,提取可读的正文内容,去掉广告、导航等无关标签。
2. **内容转换**:将网页或 HTML 文件转为纯文本,用于存档、分析、机器学习预处理等。
3. **邮件处理**:将 HTML 格式的邮件内容转换为可读的文本。
4. **文档处理**:将带 HTML 标签的内容转为 Markdown,便于后续编辑或展示。
---
### 四、安装方法
使用 pip 安装:
```bash
pip install html2text
```
---
### 五、简单使用示例
```python
import html2text
# 创建一个转换器对象
h = html2text.HTML2Text()
h.ignore_links = False # 是否忽略链接(默认False,即保留)
h.ignore_images = True # 是否忽略图片
# 示例 HTML
html = """
标题