
unstructured
LLM開発ツールあらゆる文書をLLM用データに変換
Unstructuredは、PDFやWord、HTML、画像など多様な形式の文書をLLMで扱いやすい構造化データに変換するオープンソースのETLライブラリです。文書のレイアウト解析により本文・表・タイトルなどの要素を自動で抽出し、RAGに適したチャンク分割や埋め込み処理までのパイプラインを構築できます。OCR機能を備えているためスキャン文書にも対応し、LangChainやLlamaIndexとの連携も容易です。社内に蓄積された雑多なドキュメントをAIで活用できる形に整えたいデータエンジニアや、RAGシステムの前処理を効率化したい企業に向いています。文書処理はRAGの精度を左右する重要な工程であり、その基盤を担うツールとして広く使われています。Apache-2.0ライセンスです。
関連トピック
data-pipelinesdeep-learningdocument-image-analysisdocument-image-processingdocument-parserdocument-parsingdocxdonutinformation-retrievallangchainllmmachine-learningmlnatural-language-processingnlpocrpdfpdf-to-jsonpdf-to-textpreprocessing
コメント(0)
コメントするにはログインしてください。
同じカテゴリのOSS

langflow
ビジュアルでRAG・エージェントを構築するローコードツール
LLM開発ツールMITPython

dify
ノーコードでAIアプリを構築できるLLMOpsプラットフォーム
LLM開発ツールOtherTypeScript

langchain
LLMアプリ開発の定番フレームワーク
LLM開発ツールMITPython

llama.cpp
ローカルLLM実行の基盤となるC++実装
LLM開発ツールMITC++

vllm
高スループットなLLM推論エンジン
LLM開発ツールApache-2.0Python

ragflow
深い文書理解に基づくRAGエンジン
LLM開発ツールApache-2.0Python