发现一个很实用的开源文档解析工具 👀 LlamaIndex 团队出的 liteparse Rust 写的,主打轻快 PDF、Word、Excel、PPT 都能解析 自带 OCR,不用折腾 Tesseract 环境 支持 Python / Node.js / 浏览器直接调用 最打动我的是 输出的不是一坨文本 而是带坐标的结构化 JSON 做 RAG 的同学会懂这个有多重要 刚发布不到 4 个月,已经 8.5k star Apache 2.0 协议,放心用 https://t.co/EuNA7sYKOf
@sss1mark·Jun 1, 2026
Read article