AIToEarn Archive
Tag: pdf-parsing
-

opendataloader-pdf
PDF parser ‘AI-ready’ + tự động accessibility cho file PDF – công cụ rất hữu ích để chuẩn hoá tài liệu trước khi đưa vào pipeline LLM. Ứng dụng Pre-processing tài liệu PDF lớn cho team data Tạo bản accessibility cho website/giáo trình Kết hợp với MinerU/Marker để có pipeline document AI hoàn chỉnh Hướng…
-

MinerU
Bộ chuyển PDF/Office/ảnh/web sang Markdown/JSON sạch cho LLM. Đã lên model MinerU2.5-Pro với độ chính xác bảng biểu/equation top tier, rất hợp pipeline RAG doanh nghiệp. Ứng dụng Chuẩn bị dữ liệu cho RAG nội bộ (chính sách, hợp đồng, báo cáo) OCR tài liệu scan đa ngôn ngữ → markdown Tự động hoá quy…
-

PageIndex
PageIndex: điểm cơ hội 81, dễ dựng 61, kiếm tiền 80, rủi ro 51. PageIndex tiếp tục viral với 953 sao hôm nay (29.4k tổng) — kiến trúc “vectorless RAG” đánh chỉ mục tài liệu bằng reasoning thay vì vector DB, phù hợp tài liệu dài có bảng/hình và quy trình tra cứu chuyên sâu.