ai_math_runningのブログ

最近はAI関係の記事が多い予定です。一応G検定持ってる程度の知識はあります。

生成AIによる名刺情報の自動整理

少し前のはてブ人気記事
qiita.com
これを読んだ時に、「こういうのって、今なら生成AIが全部やってくれるんじゃない?」と思ったんです。
なんで、やってみました。
それで、少し試行錯誤はしたんですが(後述)、できました。

具体的な手順

具体的な手順は、次の通りです。

  1. iPhoneで名刺何枚かの写真を撮る
  2. iPhoneOCR機能で名刺のテキスト情報を抽出する
  3. 生成AIに抽出したテキスト情報を渡し、表形式にまとめる事を指示する

これだけです。
写真ですが、今回はテストとして、名刺3枚を縦に並べて1枚の写真に撮りました。
その写真をiPhoneの写真アプリで開くと、右下にあるテキストアイコンをタッチする事でOCR機能がオンになります。
そのテキスト部にアイコンを置いて「全て選択」にし、それをコピーしました。
(多分、ここが一番手間、というか、少々、習熟する必要がある部分でした。
 iPhone操作はあまり得意でないので、上手く選択とコピーができず、少しイライラしました。)
そのコピー内容を、適当な所(今回はメモアプリの新規メモ)にペーストしました。
メモアプリにペーストすると、それをPCで開く事ができて便利です。
PCでメモアプリを開き、ペーストしておいた「名刺写真のORCテキスト全情報」をいつでもコピペできる状態にした上で、生成AI(今回はChatGPT無料版とBERT改めGemini)に次のプロンプトを打ち込みます。

次の3枚の名刺をOCRでテキスト情報にしたものを表形式にまとめて下さい。
(名刺写真のORCテキスト全情報のコピペ)

これで、ChatGPTでもGeminiでも、名刺情報を表形式にまとめたものを出してくれました。
(これだけの事なんで、興味もった人は、是非ともやってみてください。)

試行錯誤した部分

試行錯誤したのは、OCRの部分です。元のアプリを作ったという記事でも、OCRを別に用意していましたが、生成AIに名刺の画像を渡すだけでは上手くいかず、OCRでテキスト情報を何らかの形で抜き出してあげる必要がありました。
(この部分は生成AIが進化すると改善するのではないかな、と思います。*1
そこで、手軽に使えるOCR機能として、iPhoneOCR機能を使いました。ただ、スマホ操作でのコピペは面倒なので、PC上で一括でOCRできれば、もっと気楽にできそうに思います。
ただ、試行錯誤と言えばそれくらいで、あとは単にプロンプトに入力するだけで表にしてくれてしまいます。

重要な教訓

今回の事から言える、重要な教訓は、次の通りです。
それは
「生成AIは、とにかく使ってみれば良い」
という事です。
だって、読んでもらえば分かる通り、ノウハウとか言う程のものは全くなくて、単にやってみただけの話。
それでも、これだけの事ができてしまう訳です。

確かにOCRが別途必要というのは、ノウハウと言えなくはないですが、元のLLMのAPIを使って名刺管理アプリもどきを作ったものでも、情報の構造化(表形式にまとめる事)にLLMを使っていて、OCRは別途準備していたのですから、名刺画像だけで上手くいかなかった際に、「じゃぁOCRは別途用意する必要はあるのね」というのはたどり着く答えだと思います。

で、そこから先は、もう、その情報を与えてChatGPTとかに指示するだけです。
「LLMや生成AIによって、誰でも使えるようになった」
というのは、こういう事なんです。
なので、つべこべ言わずに、使ってみましょう、というのが重要な教訓です。

*1:生成AIの今後について、マルチモーダルに対応するとありますので。OCR対応はマルチモーダル的な進化と言えるでしょう。