米グーグルが、Google Docsの機能のひとつとして、アップロードされたPDF、JPEG、GIF、PNGなどの画像ファイル内からフォント画像を読取り、テキストデータとして取り出すOCRサービスを開始したそうです。
今のところ英語、ドイツ語など1バイト系の5言語に限られていますが、いずれ日本語などの2バイト系にも発展するのではないでしょうか。
一方、テキスト、画像、音声まであるゆるデータを、サーバー上に溜め込み、整理できるオンラインメモサービス、エバーノートは、同様のOCR機能を日本語まで対応させました。