Vietnamen’s Weblog

Time, Chances, Diligence, Intelligence: which is the most important?

Nhận dạng chữ viết (OCR) trong Ubuntu

leave a comment »

Có nhiều công cụ, ở đây mình nói tới gscan2pdf để convert sang pdf và gocr để nhận dạng kí tự từ file ảnh (ví dụ: ppm)

Nếu source là từ paper, công việc cụ thể là đưa vào máy scan (hình như có thể load trực tiếp từ gscan2pdf qua Menu File/Scan. Do mình chưa thử nên chưa có thông tin ở đây.

Nếu source là file pdf (chưa có OCR), dùng pdftoppm để convert sang ppm (nên chạy từ trong 1 thư mục trống vì sẽ có rất nhiều file được tạo ra – mỗi trang trong file pdf sẽ tương ứng 1 file ảnh)

$ pdftoppm [options] <pdf.file> <prefix_of_ppm_file>

Một số options có thể dùng:

-f <int>           first or last page to print

-l <int>

-r <fp>               cái này nên dùng (cho <fp> khoảng 300 hoặc 360)

Tiếp đến, load các files ppm vào gscan2pdf

Vào Tools\OCR, có thể chọn GOCR hay Tesseract.

  1. http://gscan2pdf.sourceforge.net/
  2. http://groundstate.ca/ocr

Written by vietnamen

Tháng Hai 21, 2009 lúc 10:17 chiều

Posted in Linh tinh

Gửi phản hồi

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Log Out / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Log Out / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Log Out / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Log Out / Thay đổi )

Connecting to %s

%d bloggers like this: