2022年01月31日

Google ドキュメントで、PDF・画像からテキストデータを抽出する

以前に、以下のような形で、OneDrive 上にアップされたPDFファイルからテキストデータが抽出できることをご紹介しました。


上記でもご紹介していますが、あくまでもこれができるのは一般ユーザー向けに提供されている OneDrive であって、法人向けの OneDrive for Business では、現在もこうしたことはできないようです。

さて今回ご紹介するのは、同様のことを Google ドライブ にアップされた画像ファイルやPDFファイルでも、これが可能であるというもの。ただし、Google ドライブ にアップするだけではなく、Googel ドキュメントという無料でも利用可能な編集ソフトを使用します。


【操作手順】

今回は、Google ドライブにアップされたJPEGデータで確認してみました。

1) まずは、データを Google ドライブにアップロードします

2) 画像データを選択し、右クリック>Googleドキュメント>アプリで開く とクリックします

20220131-1-1.jpg

3) Google ドキュメントが起動し、上部にオリジナルの画像データが、そしてそのあとに、抽出されたテキストデータが編集可能な状態で、Google ドキュメントファイルとして開かれます

20220131-1-2.jpg

今回は、JPEGデータで確認いたしましたが、PDFファイルでも同様です。

20220131-1-3.jpg

PDFファイルにもよるかもしれませんが、今回たまたま Epson プリンターのマニュアルがマイドライブにあったので確認してみましたが、上記にもあるようにそのままGoogle ドキュメントのデータとして変換されて表示されました。
ちょうど、Word で、PDFファイルを読み込んで、Wordデータとして変換したときと同様です。

今回のデータについては、文字化けも少なく結構きっちりテキストを抽出してくれました。


--条件もある:

ただし何でもかんでもこうしてきれいに抽出してくれるわけでもなくやはりそれを上手に行うには、それなりに制限があるのでそれに従ったデータを用意する必要はありそうです。

20220131-1-4.jpg
  • ファイルサイズ 2M
  • 解像度 テキストの高さ 10ピクセル以上 など
こうした条件をクリアすれば、それなりにきちんとテキストデータを抽出してくれそうです。


【G.suiteは有料化へ】

さてそんな中で、先日 Google Workspace の有償化について、様々なメディアで報じられておりました。ちょっとこちらについてもご紹介しておきましょう。



-- Google Workspace とは?:

フリーの Gmail を使用していて、ある時期から起動時に "Google Workspace" というサービス名が表示されるようになったのにお気づきでしょうか? Gmail 自体は、個人でも無料で利用できるものから、法人向けに有償で提供しているものなど様々な形でサービスが提供されています。

20220131-2-1.jpg 20220131-2-2.jpg 20220131-2-3.jpg

要するに、Microsoft 365 のような、Google のクラウドサービスの総称ということです。その中に、今回利用している G Suite というアプリが含まれています。

-- 法人向けプラン:

今回有償化されるのは、法人向けプランになります。

20220131-2-4.jpg 20220131-2-5.jpg

--個人向けプラン:

法人向けとは別に、個人向けにも有料と無料のプランがあります。個人向けプランは、"Google Workspace Individual" というもの。有料プランは、主に個人事業主を対象としています。無料プランでも、Gmailや、G Suite の各アプリは利用できますが、当然ながら有料プランに比べると利用できる機能などに制限があります。

20220131-2-6.jpg 20220131-2-7.jpg

そのサービスの違いについては、"Google Workspace と個人向け Google サービスとの違い" をご参照ください。

コロナ禍もあって、こうしたクラウドサービスへのニーズは上がる一方。Microsoft のクラウドサービス、AmazonのAWS、そしてGoogle Workspace と今後も各社ともサービスの強化は続くんでしょうね。


<参照>





デル株式会社


HP Directplus -HP公式オンラインストア-

posted by クリック at 21:10| 東京 ☀| Comment(0) | ネットワーク/インターネット | このブログの読者になる | 更新情報をチェックする