Thursday, November 10, 2016

ABBYY FineReader 12

พี่ดำรงเพื่อนสมาชิกผู้ใจดี เคยส่งหนังสือให้ผม ๑ เล่ม มีชื่อว่า "รายการอาหารประจำวันสำหรับครอบครัว" เป็นหนังสือเกี่ยวกับโภชนาการ หนา ๔๐๒ หน้า!




วันก่อนผมได้รับจดหมายจากพี่ดำรงบอกว่าอยากจะปรับปรุงหนังสือเล่มนี้สำหรับปี ๒๕๖๐ แต่ไม่อยากคีย์ข้อมูลใหม่ ขอปรึกษาถึงวิธีการทำไฟล์ PDF ผมต้องกราบขอบคุณที่ให้เกียรติทั้ง ๆ ผมก็มิได้เป็นผู้เชียวชาญในด้านนี้แต่อย่างใด  


อย่างไรก็ตามในฐานะที่เคยทำหนังสือ "ข้ามน้ำสามทวีป" ให้เป็นไฟล์ PDF ก็เลยอยากจะเขียนแบ่งปันประสบการณ์ พร้อมกับแนะนำวิธีแปลงไฟล์แบบง่าย ๆ ตามสไตล์ช่างเหอะให้พี่ดำรงพอเป็นที่เข้าใจ...

สมัยนั้นซอฟแวร์ต่าง ๆ ยังมีไม่หลากหลาย ผมต้องสแกนหนังสือทีละหน้าแล้วปรับแต่งด้วย PhotoShop ให้ได้ไฟล์ JPG ที่ชัดเจนที่สุดเท่าที่ทำได้ ก่อนที่จะนำไฟล์ภาพไปเรียงในโปรแกรมทำให้เป็น PDF แต่ปัจจุบันนี้มีซอฟแวร์มากมายสำหรับทำไฟล์ PDF  วิธีทำก็มีสอนทั้งใน YouTube และตามเว็บต่าง ๆ ซึ่งผมจะไม่ขอกล่าวถึง อยากแนะนำให้ลองทำดูจะดีกว่า... 

ต้องเริ่มจากการทำไฟล์ภาพขึ้นมาก่อนโดยใช้เครื่องสแกนหรือกล้องถ่ายรูปคุณภาพดี ๆ สแกนหรือถ่ายภาพแต่ละหน้าแล้วนำไปปรับแต่งใน PhotoShop ให้ชัดเจนที่สุด ตัว PhotoShop เองสมัยนี้สามารถ save เป็นไฟล์ PDF ได้เลย

ถ้าสังเกตให้ดีเราจะพบว่าไฟล์ PDF ในอีบุคส์ทั่ว ๆ ไป ส่วนใหญ่สามารถ copy แล้วนำไป paste ลงในโปรแกรมเวิร์ดได้ เพราะเป็นไฟล์ PDF แบบ Searchable คือมี ๒ ชั้น (image และ text) แต่ในกรณีที่ผมสแกนจากหนังสือแล้วนำไฟล์ภาพไปแปลงจะได้ PDF แบบ read only คือไม่สามารถ copy แล้วนำไป paste ในโปรแกรมเวิร์ดได้โดยตรง จึงจำเป็นต้องใช้โปรแกรม OCR เข้ามาช่วย

หน้าที่ของเจ้าโปรแกรม OCR (Optical Character Recognition) คือแปลงไฟล์ภาพเอกสารให้เป็นไฟล์ข้อความโดยอัตโนมัติ สมัยก่อนแพงและหายากด้วย (ตอนนั้นเครื่องสแกนเนอร์ราคาเกือบหมื่น) แต่ทุกวันนี้มีให้ดาวน์โหลดมาใช้ฟรี ๆ ซึ่งโปรแกรม OCR สำหรับภาษาอังกฤษมีความถูกต้องแม่นยำสูงถึง 90 %  ส่วนของไทยก็ต้องขอบคุณผู้พัฒนาที่ทำให้มันสามารถอ่านภาษาไทยได้ถูกต้องอย่างน่าอัศจรรย์ ทั้ง ๆ ที่ภาษาไทยมีอักขระยุ่งยากกว่าภาษาอังกฤษ 

ในกรณีที่ไม่ต้องการแก้ไขข้อความ ก็ไม่ต้องนำมันไปผ่านโปรแกรม OCR เราสามารถทำหนังสือทั้งเล่มให้เป็น PDF ได้เหมือนกับที่ผมเคยทำกับหนังสือ "ข้ามน้ำสามทวีป" ซึ่งตอนนี้ไฟล์หายไปแล้ว (ฮา) 

มาดูขั้นตอนการแปลงไฟล์ของช่างเหอะหน่อยนะครับ....

ก่อนอื่นต้องดาวน์โหลดโปรแกรม OCR มาติดตั้งก่อน ของผมใช้ ABBYY FineReader 12 Professional ซึ่งมีให้โหลดฟรี  เป็นไฟล์ RAR ขนาด 337 MB นำมาติดตั้งไว้ได้เลย....

หน้าตาเป็นอย่างนี้ครับ...


อ่อ... ต้องสแกนหนังสือของพี่ดำรงมาเป็นตัวอย่างก่อน ๑ หน้า ผมเลือกหน้า ๓๕๖ เป็นรายการอาหารสำหรับวันที่ ๒๘ พฤศจิกายน  แต่งไฟล์ภาพใน PhotoShop แล้วนำมาเปิดในโปรแกรม OCR


เปิดขึ้นมาแล้วครับ ทางด้านขวาจะเห็นแถบให้เลือกแปลงไฟล์เป็น ๔ แบบคือ Searchable PDF, Image-Only PDF, Microsoft Word และ Image File ผมลองแปลงให้เป็น Microsoft Word ก่อนนะครับ

ได้แล้วก็นำมาเปิดใน WordPad  ดังนี้...


เห็นได้ว่าอ่านภาษาไทยได้ไม่ถูกต้องดังนี้...
วันที่ 28 พฤศจิกายน พ.ศ. 2550
อาหารเซา
ราวกลองสวย
แกงจตเต่าต่ขาว
มิคไ}วยเล้ง
ไขหะไล้
กล้วยบาล้า
นม/โย;กํรํค (ตามรอบ)
กาแฟ หรอ รา (คามขอบ)
อาหารกตางวัน
กำยเลี๋ยวผัคใVเข
ๅนน้าส์อม
กาแฟเยํน อาหารเซน
ล้าวกล้องตาย
ลาหนอ
ผํ'คถั่วแรกกันหน
คมร่าไก่
ปตาไฬทอค
ผลไม้
ของหวาน
วาทะล้ายฟารับ
ธุรการการกอตรำง ธุคศาม้
เพยงจะมิมากมา นะนน
แรงราตปราคทุนกา ระสฤษด ไต่ฤา
ลนกํข้นทร้ฑยซั๊น ธุคเซึ้อมเออมโไมล
สๆแท?*ฬเรนํฬน* เรระราขวรวงต่ร© กรง/หนนทิท1ทลงกรณ
ผมไม่โทษโปรแกรม เพราะภาพที่สแกนได้นั้นไม่ค่อยชัดเจน และตัวหนังสือในหนังสือก็ค่อนข้างเล็กด้วย โปรแกรม OCR เลยงง... อ่านผิดเยอะ!!  เพื่อพิสูจน์ความสามารถของเจ้า ABBYY FineReader 12 ผมหันไปคว้าหนังสือ "ยาแก้ป่วย" ของเอจังมาจากหิ้ง...



ตัวหนังสือใหญ่ดี ผมสแกนมา ๑ หน้าดังนี้...


นำมาเปิดในโปรแกรม OCR


คลิกแปลงให้เป็นไฟล์ Microsoft Word ลองดูซิว่าจะอ่านผิดมากน้อยแค่ไหน?


อ่านถูกเกือบหมดดังนี้...
ไปหาหมอ รอก็นาน ได้ยามาเหมีอนเดิม ชี้อก็นเองไม่ได้หรีอ ?
ที่เป็นเช่นนี้เพราะแพทย์ต้องการติดตามผล เพื่อดูว่ายาที่ให้ใน ลามารถควบคุมอาการได้หรือเปล่า มีผลข้างเคียงจากยาหรือไม ถ้าควบคุมอาการได้ดี แพทย์ก็จะจ่ายยาเหมือนเก่า
หากไม่อยากไปพบแพทย์ หรือต้องการซื้อยาเอง ให้ปรึกษาแพทย์ ประจำตัวก่อน และอย่าลืมว่าแม้แพทย์ประจำตัวจะอนุญาตให้ซื้อยาใข้ เองได้ แต่ก็ยังต้องไปพบแพทย์เพื่อติดตามผลเป็นระยะตามเวลานัด
แก้ไขได้
สุขภาพต้องอาคัยการสร้างเลริม โรงพยาบาลเป็นเพียงปลายทาง สำหรับบำรุงรักษา ซ่อมแซม บางอย่างก็ฃ่อมได้ บางอย่างก็ซ่อมไม่ได้
อย่าหวังพึ่งยาแต่เพียงอย่างเดียว เพราะยาเป็นเพียงการแก้ไขที่ ปลายเหตุแค่ช่วยควบคุมหรือชะลออาการของโรคไม่ให้ทรุดลงไปกว่าเติม ขอให้จำไว้ว่ายาทุกชนิดล้วนมีผลข้างเคียง และยาที่มีอยู่ในปัจจุบัน ไม่ลามารถรักษาโรคได้ทุกอย่าง ความรู้ทางการแพทย์ในปัจจุบัน ยังไม่ สามารถเอาฃนะโรคได้ทั้งหมด
ขอ1ให้ผู้ปวยเปิด'ใจ และรับฟัง เอาซนะความอยากของตัวเอง ไม่เบียดเบียนตนเองเพราะความอยาก ความเกียจคร้าน และความนักง่าย ที่ติดเป็นนิสัย เพราะความเจ็บปวยของท่านไม่เพียงเบียดเบียนตนเอง แต่ในบางครั้งยังเบียดเบียนผู้อื่นอีกด้วยทั้งลร้างความกังวลให้กับคนที่รัก สร้างภาระค่าใช้จ่ายให้กับครอบครัวและประเทศชาติ
ทีนี้ก็ลองแปลงให้เป็นไฟล์แบบ Searchable PDF ได้ดังนี้..


ไฟล์ PDF ตัวนี้แหละที่สามารถ copy แล้วนำไป paste ลงในโปรแกรมเวิร์ดเพื่อแก้ไขได้ ลองให้ดูหน่อย...


เอาไป paste ให้ดูใน WordPad...


และใน Notepad...



พอดีคอมพ์ฯ ของผมไม่ได้ลง Microsoft Word เอาไว้  ลองแก้ไขใน WordPad ให้ดูละกัน...


ขอขอบคุณผู้พัฒนาโปรแกรม OCR อีกครั้งครับ!

No comments: