AIToEarn Archive

Tag: document-ai

  • PDF ingestion pipeline for retrieval, analysis, and knowledge-base creation.

    opendataloader-pdf

    PDF parser ‘AI-ready’ + tự động accessibility cho file PDF – công cụ rất hữu ích để chuẩn hoá tài liệu trước khi đưa vào pipeline LLM. Ứng dụng Pre-processing tài liệu PDF lớn cho team data Tạo bản accessibility cho website/giáo trình Kết hợp với MinerU/Marker để có pipeline document AI hoàn chỉnh Hướng…

    Đọc tiếp

  • PDF ingestion pipeline for retrieval, analysis, and knowledge-base creation.

    paperless-ai

    Plug-in AI cho Paperless-ngx – dùng OpenAI/Ollama/Deepseek-r1 để tự phân tích, gắn tag, sắp xếp tài liệu lưu trữ. Lý tưởng cho doanh nghiệp đã quen Paperless. Ứng dụng Tự phân loại hoá đơn, hợp đồng theo metadata Tóm tắt nhanh tài liệu dài cho leader Kết hợp với LLM local để xử lý tài…

    Đọc tiếp

  • PDF ingestion pipeline for retrieval, analysis, and knowledge-base creation.

    MinerU

    Bộ chuyển PDF/Office/ảnh/web sang Markdown/JSON sạch cho LLM. Đã lên model MinerU2.5-Pro với độ chính xác bảng biểu/equation top tier, rất hợp pipeline RAG doanh nghiệp. Ứng dụng Chuẩn bị dữ liệu cho RAG nội bộ (chính sách, hợp đồng, báo cáo) OCR tài liệu scan đa ngôn ngữ → markdown Tự động hoá quy…

    Đọc tiếp

  • PDF ingestion pipeline for retrieval, analysis, and knowledge-base creation.

    docuseal

    docuseal: điểm cơ hội 68, dễ dựng 77, kiếm tiền 70, rủi ro 31. DocuSeal là giải pháp ký tài liệu số mã nguồn mở thay thế DocuSign — tạo, điền và ký hợp đồng PDF/HTML. Tăng 899 sao hôm nay, tổng 15.4k, ngày càng được dùng để dựng quy trình hợp đồng tự động…

    Đọc tiếp

  • PDF ingestion pipeline for retrieval, analysis, and knowledge-base creation.

    PageIndex

    PageIndex: điểm cơ hội 81, dễ dựng 61, kiếm tiền 80, rủi ro 51. PageIndex tiếp tục viral với 953 sao hôm nay (29.4k tổng) — kiến trúc “vectorless RAG” đánh chỉ mục tài liệu bằng reasoning thay vì vector DB, phù hợp tài liệu dài có bảng/hình và quy trình tra cứu chuyên sâu.

    Đọc tiếp