PDF Skill【PDF文档处理Skill】

PDF Skill让AI代理处理PDF文档，实现文本提取、表格识别、表单填写、合并分割等全流程操作，21k下载量验证其实用性。

收录时间：

2026-04-06

AI skills、Agent大全 # OCR # OCR识别 # OpenClaw Skills # PDF Skill # pdfplumber # PDF分割 # PDF合并 # PDF处理 # PDF工具 # PDF提取 # PDF转换 # PyPDF2 # 文档自动化 # 标签： PDF Skill # 表单填写

PDF Skill【PDF文档处理Skill】

打开网站

一、文档处理自动化：PDF Skill让你的AI代理成为文档处理专家

1.1 产品定位与核心概述

PDF Skill是OpenClaw平台上专注于PDF文档处理的技能，由社区开发者创建并维护。

PDF Skill核心能力快览：

PDF Skill支持文本提取、表格数据提取、PDF合并、PDF分割、表单填写、水印添加、密码保护、图片提取、OCR识别等功能。基于pdfplumber、PyPDF2和reportlab等Python库，提供完整的PDF处理能力。支持本地文件和URL两种输入方式。

核心定位是成为PDF处理的”瑞士军刀”——将多种PDF处理能力整合到一个统一的技能中，让AI代理能够：

从复杂PDF中提取文本和表格数据
合并多个PDF为一个文档
分割大型PDF为单独页面
填写PDF表单
添加水印和保护

根据官方数据：

下载量：21,700+次
活跃安装：405个
星标数：35颗
最新版本：v0.1.0（2026年1月31日更新）

1.2 支持的PDF操作

操作类型	支持情况	说明
文本提取	✅ 完全支持	从PDF中提取可搜索文本
表格提取	✅ 完全支持	结构化表格数据提取
PDF合并	✅ 完全支持	多个PDF合并为一个
PDF分割	✅ 完全支持	按页分割文档
表单填写	✅ 完全支持	程序化填写表单字段
水印添加	✅ 完全支持	添加文本或图片水印
密码保护	✅ 完全支持	添加/移除密码保护
图片提取	✅ 完全支持	从PDF中提取图片
OCR识别	✅ 完全支持	扫描件PDF识别文字
页面旋转	✅ 完全支持	旋转PDF页面

1.3 解决的核心问题

问题一：PDF格式复杂性

PDF是一种复杂的文档格式，传统工具难以处理其中的多种元素：

PDF元素类型	处理难度	PDF Skill解决方案
纯文本	较易	直接文本提取
表格数据	较难	pdfplumber智能识别
扫描图片	很难	OCR识别处理
表单字段	复杂	自动表单填写
多层对象	复杂	分层处理提取

问题二：批量处理需求

单文件处理简单，但批量处理需要编程能力：

# 批量处理示例
import pdfplumber

# 提取多个PDF的表格数据
pdf_files = ["invoice1.pdf", "invoice2.pdf", "invoice3.pdf"]
all_tables = []

for pdf in pdf_files:
    with pdfplumber.open(pdf) as p:
        for page in p.pages:
            tables = page.extract_tables()
            all_tables.extend(tables)

PDF Skill让AI代理直接处理这类需求，无需编写代码。

问题三：表单填写重复性

日常工作中大量PDF表单需要重复填写：

表单类型	填写内容	重复频率
发票模板	金额、日期、客户信息	每日数百份
合同	签名、盖章	每周数十份
申请表	个人信息	每月数份
报告	固定格式内容	每日数份

PDF Skill支持程序化填写，大幅提升效率。

二、PDF Skill的核心能力

2.1 文本提取功能

基础文本提取：

import pdfplumber

with pdfplumber.open("document.pdf") as pdf:
    # 提取第一页文本
    text = pdf.pages[0].extract_text()
    print(text)

智能文本提取：

# 按段落提取
with pdfplumber.open("document.pdf") as pdf:
    for page in pdf.pages:
        # 提取段落（保留换行结构）
        chars = page.chars
        lines = page.lines
        words = page.extract_words()

表格文本提取：

# 提取表格数据
with pdfplumber.open("table.pdf") as pdf:
    for page in pdf.pages:
        tables = page.extract_tables()
        for table in tables:
            print(table)

2.2 表格提取功能

表格智能识别：

# 设置表格边界
with pdfplumber.open("table.pdf") as pdf:
    page = pdf.pages[0]
    
    # 提取表格（智能边界检测）
    tables = page.extract_tables(
        table_settings={
            "vertical_strategy": "lines",
            "horizontal_strategy": "lines",
            "intersection_tolerance": 5
        }
    )

结构化表格输出：

# 输出为CSV格式
import csv

with pdfplumber.open("data.pdf") as pdf:
    page = pdf.pages[0]
    table = page.extract_table()
    
    with open("output.csv", "w", newline="") as f:
        writer = csv.writer(f)
        writer.writerows(table)

2.3 PDF合并功能

多文件合并：

from PyPDF2 import PdfMerger

# 合并多个PDF
merger = PdfMerger()
pdf_files = ["part1.pdf", "part2.pdf", "part3.pdf"]

for pdf in pdf_files:
    merger.append(pdf)

# 保存合并后的文件
merger.write("combined.pdf")
merger.close()

指定页面合并：

merger = PdfMerger()

# 按顺序添加不同页
merger.append("cover.pdf")
merger.append("chapter1.pdf", pages=(0, 5))  # 第1-5页
merger.append("chapter2.pdf", pages=(0, 10))  # 第1-10页

merger.write("book.pdf")
merger.close()

2.4 PDF分割功能

按页分割：

from PyPDF2 import PdfReader, PdfWriter

reader = PdfReader("large_document.pdf")
total_pages = len(reader.pages)

# 分割为单独页面
for i in range(total_pages):
    writer = PdfWriter()
    writer.add_page(reader.pages[i])
    
    with open(f"page_{i+1}.pdf", "wb") as output:
        writer.write(output)

按范围分割：

# 分割为多个范围
def split_pdf(input_file, ranges):
    reader = PdfReader(input_file)
    
    for i, (start, end) in enumerate(ranges):
        writer = PdfWriter()
        for page in reader.pages[start:end]:
            writer.add_page(page)
        
        output_file = f"part_{i+1}.pdf"
        with open(output_file, "wb") as f:
            writer.write(f)

# 使用示例
split_pdf("document.pdf", [(0, 5), (5, 10), (10, 15)])

2.5 表单填写功能

表单字段填写：

from PyPDF2 import PdfReader, PdfWriter
from PyPDF2.generic import NameObject, BooleanObject

reader = PdfReader("form.pdf")
writer = PdfWriter()

# 复制原文档
for page in reader.pages:
    writer.add_page(page)

# 获取表单字段
if "/AcroForm" in reader.trailer["/Root"]:
    writer.update_page_form_field_values(
        writer.pages[0],
        {
            "field_name": "填写的内容",
            "date_field": "2026-04-06",
            "checkbox": True
        }
    )

with open("filled_form.pdf", "wb") as f:
    writer.write(f)

三、PDF Skill的主要功能和特点

3.1 安装与配置详解

系统要求：

组件	最低要求	推荐配置
Python	3.7+	3.10+
pdfplumber	0.5+	最新版
PyPDF2	3.0+	最新版
reportlab	4.0+	最新版
PDF文件	任意版本	PDF/A优先

安装步骤：

# 方法一：ClawHub一键安装
openclaw skills install pdf

# 方法二：手动安装依赖
pip install pdfplumber PyPDF2 reportlab

# 方法三：完整依赖安装
pip install pdfplumber PyPDF2 reportlab pypdf pillow pdf2image

配置文件设置：

{
  "agents": {
    "defaults": {
      "pdfModel": {
        "primary": "anthropic/claude-opus-4-6",
        "fallbacks": ["openai/gpt-5.4-mini"]
      },
      "pdfMaxBytesMb": 10,
      "pdfMaxPages": 20
    }
  }
}

3.2 使用方法详解

基础对话使用[13]：

用户：帮我提取这个PDF的文本内容

AI代理：正在提取PDF文本...
📄 文件：report.pdf
📊 页数：15页
📝 提取结果：
[第一页文本内容...]
[第二页文本内容...]

表格提取使用：

用户：提取PDF中的表格数据

AI代理：
📊 正在提取表格...
表格 1（第3页）：
| 列1 | 列2 | 列3 |
|------|------|------|
| 数据1 | 数据2 | 数据3 |
| ... | ... | ... |

表单填写使用：

用户：填写这份合同模板

AI代理：
📝 正在填写表单...
✅ 已填写字段：
- 甲方：张三
- 乙方：李四
- 金额：100,000元
- 日期：2026年4月6日
📄 已生成：filled_contract.pdf

四、官方资源

4.1 资源链接

资源类型	地址
GitHub仓库	https://github.com/cmpdchtr/pdf-tools
OpenClaw VPS	https://openclawvps.io/skills/pdf
LLMBase	https://llmbase.ai/openclaw/pdf-skill/
LobeHub	https://lobehub.com/skills/openclaw-skills-pdf
PIAX	https://www.piax.org/skills/openclaw-skills/pdf

4.2 版本历史

版本	日期	更新内容
v0.1.0	2026-01-31	初始版本发布，支持文本/表格提取、合并、分割、表单填写

五、竞品对比

5.1 竞品对比表格

维度	PDF Skill	Adobe Acrobat	PDF.js	Smallpdf
平台	OpenClaw	桌面应用	Web	Web
价格	免费	昂贵	免费	部分免费
API集成	✅ 原生	❌	⚠️	❌
AI集成	✅ 原生	❌	❌	❌
文本提取	✅	✅	✅	✅
表格提取	✅	⚠️	⚠️	⚠️
OCR支持	✅	✅	❌	⚠️
表单填写	✅	✅	⚠️	⚠️

5.2 各竞品分析

Adobe Acrobat DC

专业级PDF处理的金标准。

优势：

最完整的PDF功能
极高的稳定性
专业的技术支持

劣势：

价格昂贵（月费或年费）
桌面应用，无API
无AI能力集成

适用场景：

企业专业用户
法律、金融等专业文档处理

PDF.js

Mozilla开源的JavaScript PDF渲染库。

优势：

完全开源免费
Web原生支持
广泛社区支持

劣势：

主要用于渲染，非处理
表格提取能力弱
AI集成需要自己开发

适用场景：

Web应用内嵌PDF查看器
前端开发项目

六、常见问题

FAQ 1：支持中文PDF吗？

答：支持。pdfplumber对中文有良好支持：

with pdfplumber.open("chinese.pdf") as pdf:
    for page in pdf.pages:
        text = page.extract_text()
        print(text)  # 中文正常输出

FAQ 2：扫描件PDF能处理吗？

答：可以，需要OCR支持：

# 使用pytesseract进行OCR
import pytesseract
from PIL import Image

# 将PDF页面转为图片
with pdfplumber.open("scanned.pdf") as pdf:
    for page in pdf.pages:
        # 渲染为图片
        img = page.to_image(resolution=300)
        
        # OCR识别
        text = pytesseract.image_to_string(img)
        print(text)

FAQ 3：PDF有密码保护怎么办？

答： PDF Skill支持密码处理：

from PyPDF2 import PdfReader

# 打开加密PDF
reader = PdfReader("encrypted.pdf")

# 使用密码
if reader.is_encrypted:
    reader.decrypt("password")

# 正常处理
with open("decrypted.pdf", "wb") as f:
    writer = PdfWriter()
    for page in reader.pages:
        writer.add_page(page)
    writer.write(f)

七、总结

PDF Skill是文档处理的瑞士军刀，适合需要处理PDF的AI应用场景。

核心优势：

完整的PDF处理能力
与AI代理无缝集成
21k+下载量验证
完全免费使用

本文由猎人大师撰写，数据更新日期：2026年4月6日

数据统计

数据评估

PDF Skill【PDF文档处理Skill】浏览人数已经达到1,889，如你需要查询该站的相关权重信息，可以点击"5118数据""爱站数据""Chinaz数据"进入；以目前的网站数据参考，建议大家请以爱站数据为准，更多网站价值评估因素如：PDF Skill【PDF文档处理Skill】的访问速度、搜索引擎收录以及索引量、用户体验等；当然要评估一个站的价值，最主要还是需要根据您自身的需求以及需要，一些确切的数据则需要找PDF Skill【PDF文档处理Skill】的站长进行洽谈提供。如该站的IP、PV、跳出率等！

特别声明

本站SkillHub提供的PDF Skill【PDF文档处理Skill】都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由SkillHub实际控制，在2026年4月6日下午3:53收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，SkillHub不承担任何责任。

SkillHub致力于优质、实用的网络站点资源收集与分享！本文地址https://skills.aiproducthub.cn/sites/pdf-skill.html转载请注明

暂无评论

暂无评论...

PDF Skill【PDF文档处理Skill】

一、文档处理自动化：PDF Skill让你的AI代理成为文档处理专家

1.1 产品定位与核心概述

PDF Skill核心能力快览：

1.2 支持的PDF操作

1.3 解决的核心问题

二、PDF Skill的核心能力

2.1 文本提取功能

2.2 表格提取功能

2.3 PDF合并功能

2.4 PDF分割功能

2.5 表单填写功能

三、PDF Skill的主要功能和特点

3.1 安装与配置详解

3.2 使用方法详解

四、官方资源

4.1 资源链接

4.2 版本历史

五、竞品对比

5.1 竞品对比表格

5.2 各竞品分析

六、常见问题

FAQ 1：支持中文PDF吗？

FAQ 2：扫描件PDF能处理吗？

FAQ 3：PDF有密码保护怎么办？

七、总结

数据统计

数据评估

相关导航

Docker Manager【 容器管理Skill】

Agent Browser【浏览器自动化Skill】

Frontend Design【前端界面生成Skill】

PPTX Skill【PPT处理Skill】

XLSX Skill【电子表格处理Skill】

GOG【 Google生产力集成Skill】

OpenClaw Notion【Notion集成Skill】

Self-Improving Agent【自我改进Skill】

暂无评论

Docker Manager【容器管理Skill】