AIToEarn Archive

Tag: pdf-parsing

  • PDF ingestion pipeline for retrieval, analysis, and knowledge-base creation.

    opendataloader-pdf

    PDF parser ‘AI-ready’ + tự động accessibility cho file PDF – công cụ rất hữu ích để chuẩn hoá tài liệu trước khi đưa vào pipeline LLM. Ứng dụng Pre-processing tài liệu PDF lớn cho team data Tạo bản accessibility cho website/giáo trình Kết hợp với MinerU/Marker để có pipeline document AI hoàn chỉnh Hướng…

    Đọc tiếp

  • PDF ingestion pipeline for retrieval, analysis, and knowledge-base creation.

    MinerU

    Bộ chuyển PDF/Office/ảnh/web sang Markdown/JSON sạch cho LLM. Đã lên model MinerU2.5-Pro với độ chính xác bảng biểu/equation top tier, rất hợp pipeline RAG doanh nghiệp. Ứng dụng Chuẩn bị dữ liệu cho RAG nội bộ (chính sách, hợp đồng, báo cáo) OCR tài liệu scan đa ngôn ngữ → markdown Tự động hoá quy…

    Đọc tiếp

  • PDF ingestion pipeline for retrieval, analysis, and knowledge-base creation.

    PageIndex

    PageIndex: điểm cơ hội 81, dễ dựng 61, kiếm tiền 80, rủi ro 51. PageIndex tiếp tục viral với 953 sao hôm nay (29.4k tổng) — kiến trúc “vectorless RAG” đánh chỉ mục tài liệu bằng reasoning thay vì vector DB, phù hợp tài liệu dài có bảng/hình và quy trình tra cứu chuyên sâu.

    Đọc tiếp