「リコー、図表も理解する軽量マルチモーダルモデルを公開 大型商用モデル並みの実力」

1 minutes reading View : 1
Avatar photo
Aiko Yamamoto
IT - 15 May 2026

リコーは、経済産業省とNEDOのプロジェクト「GENIAC」の一環として、図や表を含む複雑な文書を理解できるマルチモーダル大規模言語モデル(LMM)の基本モデルを完成させた。軽量版は同日からHugging Faceで無償提供を開始している。

本記事は会員限定コンテンツとして公開されているが、リコーの発表内容は多くの企業関係者の関心を集めている。会員登録(無料)により、全文を閲覧することが可能だ。

リコーは2026年3月30日、経済産業省とNEDOが推進する「GENIAC」(Generative AI Accelerator Challenge)第3期において、思考(リーズニング)性能を備えた大規模マルチモーダルモデル「Qwen3-VL-Ricoh-32B-20260227」(リコーLMM-32B)の開発を完了したと発表した。

新モデルの最大の特徴は、多段推論(マルチステップ推論)により、請求書や取扱説明書、設計図といった複数ページにまたがる文書を高い精度で読み解ける点にある。軽量版の「Qwen3-VL-Ricoh-8B-20260227」(リコーLMM-8B)は同日からHugging Faceで無償公開され、誰でも試用できる。

企業内文書にはテキストだけでなく図表や画像が数多く含まれており、従来のテキスト検索ではこうした非構造化データを十分に活用できていなかった。リコーは、AIによってこれらの情報をシームレスに横断検索・解析できる環境を整えることを開発の原点に据えた。

労働力不足や熟練技能の伝承、さらには多言語対応といった深刻な経営課題を背景に、AIによる社内知識の効率的な利活用を求める声は急速に高まっている。リコーはこうした市場ニーズが今回の開発を強く後押ししたと説明している。

リコーLMM-32Bは、Alibaba Cloudが開発した「Qwen3-VL-32B-Instruct」をベースに構築された。強化学習とカリキュラム学習を巧みに組み合わせることで、図表を文脈に沿って解釈し、高度な質問に対して正確な回答を生成する能力を獲得している。

ベンチマーク評価では、大規模な商用モデルである「Gemini 2.5 Pro」と同等のパフォーマンスを示したことが確認されている(2026年2月17日時点)。さらに、リーズニング性能を厳密に評価するための独自ベンチマークツールも今後公開する予定だ。

同モデルはオンプレミス環境への導入が可能であり、企業が自社の業種や業務に応じてファインチューニングすることも想定されている。リコーはモデルマージ技術による開発効率化と、画像トークン圧縮技術による運用コスト削減にも積極的に取り組んでいる。

製造業の顧客からは、トラブル発生時の膨大な社内マニュアル検索による迅速な問題解決や、設計図と要求仕様の自動突き合わせといった具体的なニーズが寄せられている。リコーは今後、これらの実証実験を本格化させる計画だ。

Copyright © ITmedia, Inc. All Rights Reserved.

編集部注:この記事はAIを使用して作成されており、ITmedia NEWSの記事を元に、内容を変更せずにリライトしたものです。
Share Copied