Θεόφραστος http://www.neos-forum.com/memberlist.php?mode=viewprofile&u=388
Σάρωση OCR με το πρόγραμμα ABBYY FineReader 8.0 και δημιουργία e-book v.1.0 για το www.neos-forum.com
Εισαγωγή Αφορμή για τη συγγραφή αυτού του οδηγού σάρωσης OCR υπήρξε η ιδέα για τον εμπλουτισμό της ηλεκτρονικής βιβλιοθήκης του forum της νεολαίας του ΛΑ.Ο.Σ. Φυσικά δεν θεωρώ ότι ο οδηγός αυτός είναι άρτιος και σωστός, εφόσον δεν βρήκα ακόμα κάποιο manual που να εξηγεί ακριβώς πώς γίνεται η δημιουργία ενός e-book με σάρωση OCR. Κάθε αναφορά προβλήματος ή κριτική σχετικά με τον οδηγό αυτό είναι καλοδεχούμενη και η διόρθωση τυχόντων λαθών θα γίνει στην επόμενη διορθωμένη έκδοση του οδηγού. Για λόγους clopyright
σε ορισμένες σελίδες θα υπάρχει watermark του
φόρουμ.
1
Τι χρειάζεται για τη σάρωση OCR Χρειαζόμαστε ένα καλό σαρωτή (scanner) και το λογισμικό ABBYY FineReader 8.0.
Μεθοδολογία ΣΑΡΩΣΗ Ανοίγουμε το ABBYY FineReader 8.0. Στο παράθυρο που εμφανίζεται πατάμε «Κλείσιμο».
Το πρόγραμμα είναι πολύ εύκολο και μας καθοδηγεί με 5 κουμπάκια που βρίσκονται στο πάνω μέρος του. Για τις ανάγκες της σάρωσής μας κάνουμε κλικ στο βελάκι που γράφει «Σάρωση» (ενδεχομένως να γράφει και «Άνοιγμα» - το πρόγραμμα θυμάται την τελευταία μας κίνηση). Για να μην υπάρχουν παρερμηνείες, κάνουμε κλικ στο βελάκι που βρίσκεται δεξιά από το κουμπί 1 και επιλέγουμε «Σάρωση εικόνας…»
2
Αμέσως μετά ενεργοποιείται το scanner μας και εμφανίζεται το πρόγραμμα που έχει εγκατασταθεί με το driver του scanner. Το κάθε scanner έχει διαφορετικό πρόγραμμα οδήγησης, γι’ αυτό και το συγκεκριμένο βήμα του οδηγού δεν είναι ίδιο για όλους όσους αποπειραθούν να σκανάρουν ένα βιβλίο.
Επιλέγουμε την επιφάνεια που θέλουμε να σαρώσουμε. Στην προκειμένη περίπτωση ξεκινάμε με έγχρωμη σάρωση του εξωφύλλου του βιβλίου. Ορίζουμε την ανάλυση ίση με 600 dpi. Πατάμε το ανάλογο πλήκτρο για το σκανάρισμα.
3
Η σελίδα που έχουμε σκανάρει εμφανίζεται σε μικρογραφία σε μια στήλη στ’ αριστερά, δεξιά της βρίσκεται ο χώρος εργασίας μας και δεξιότερά της θα εμφανιστεί το κείμενο που θα αναλύσουμε. Κάτω από τα δύο τελευταία παράθυρα εμφανίζεται άλλο ένα, στο οποίο γίνεται το ζουμ της σκαναρισμένης σελίδας.
Συνεχίζουμε με το σκανάρισμα όλων των σελίδων του βιβλίου (για το παράδειγμά μας σκανάρουμε μόνο 3 σελίδες…). Ξαναπατάμε το κουμπί 1 και ακολουθούμε την ίδια διαδικασία, απλά ορίζουμε την ανάλυση στα 300 dpi.
4
Επίτηδες, έχω τοποθετήσει το βιβλίο ανάποδα, για να σας δείξω πώς μπορείτε να περιστρέψετε τη σκαναρισμένη σελίδα. Πολλές φορές, για να μη χαλάσετε τη βιβλιοδεσία του βιβλίου, ενδεχομένως να χρειαστεί να σκανάρετε το βιβλίο ανάποδα. Μόλις τελειώσει η διαδικασία σάρωσης και εμφανιστεί η εικόνα στο κέντρο, κάνουμε κλικ στο προτελευταίο κουμπάκι «Δεξιόστροφη περιστροφή» μέχρι να φέρουμε την εικόνα στη σωστή προβολή της.
Με τον ίδιο τρόπο σκανάρουμε και τις υπόλοιπες σελίδες. Οι σελίδες που έχουν σαρωθεί εμφανίζονται στην αριστερή στήλη του προγράμματος. ΣΧΕΔΙΑΣΗ ΠΕΡΙΓΡΑΜΜΑΤΟΣ ΕΙΚΟΝΩΝ Αφού ολοκληρώσουμε τη διαδικασία σάρωσης, θα πρέπει το πρόγραμμα να αναγνωρίσει το εξώφυλλο (εικόνα). Κάνουμε κλικ στην πρώτη σελίδα που σκανάραμε στην αριστερή στήλη και στο κέντρο εμφανίζεται το σκαναρισμένο εξώφυλλο. Κάνουμε κλικ στο κουμπί «Σχεδίαση περιγράμματος εικόνας» της εργαλειοθήκης και επιλέγουμε προσεκτικά όλο το εξώφυλλο.
5
Το περίγραμμα της περιοχής που επιλέξαμε χρωματίζεται με κόκκινο χρώμα.
6
ΣΧΕΔΙΑΣΗ ΠΕΡΙΓΡΑΜΜΑΤΟΣ ΚΕΙΜΕΝΟΥ Οι υπόλοιπες σελίδες που έχουμε σκανάρει περιέχουν κείμενο και πρέπει να καθοριστούν οι περιοχές κειμένου που θέλουμε να αναγνωριστούν από το πρόγραμμα. Από την εργαλειοθήκη του παραθύρου «Εικόνα» κάνουμε κλικ στο 3ο κουμπάκι με το Τ, «Σχεδίαση περιγράμματος κειμένου».
Στη συνέχεια επιλέγουμε το κείμενο που θέλουμε να αναγνωριστεί. Αν στη σελίδα περιέχεται π.χ. μία παράγραφος, αμέσως μετά ένα μεγάλο κενό και ακολουθεί δεύτερη παράγραφος, επιλέγουμε την πρώτη παράγραφο και χωρίς να κάνουμε ξανά κλικ στο Τ, συνεχίζουμε με την επιλογή της δεύτερης παραγράφου. Το περίγραμμα των περιοχών που έχουμε επιλέξει χρωματίζεται πράσινο.
7
Σε περίπτωση που μία σελίδα περιέχει κείμενο, εικόνα και από κάτω πάλι κείμενο, επιλέγουμε με αυτά τα δύο εργαλεία ξεχωριστά τα κείμενα και τις εικόνες. Αφού ολοκληρώσουμε αυτή τη διαδικασία για όλες τις σελίδες του βιβλίου που έχουμε σκανάρει, μπορούμε να προχωρήσουμε στην αναγνώριση εικόνων και κειμένων. ΑΝΑΓΝΩΡΙΣΗ ΕΙΚΟΝΩΝ ΚΑΙ ΚΕΙΜΕΝΩΝ Κάνουμε κλικ στο βελάκι που βρίσκεται δεξιά από το κουμπί 2 («Ανάγνωση» ή όπως αλλιώς αναφέρεται) και κάνουμε κλικ στο «Επιλογές» για να καθορίσουμε τη γλώσσα αναγνώρισης. Επιλέγουμε τη γλώσσα αναγνώρισης και πατάμε ΟΚ. Σε περίπτωση που στο κείμενό μας περιέχονται ελληνικοί και λατινικοί χαρακτήρες, κάνουμε κλικ στο «(Επιλογή πολλαπλών γλωσσών…)» και στο επόμενο παράθυρο που εμφανίζεται επιλέγουμε τα Αγγλικά και τα Ελληνικά. Κλείνουμε τα παράθυρα με συνεχόμενα κλικ στα ΟΚ.
8
Σε αυτό το σημείο πρέπει να δείξετε ιδιαίτερη προσοχή. Η διαδικασία που θα περιγραφεί αφορά την αποθήκευση και τη μορφοποίηση του τελικού κειμένου. Κάνουμε και πάλι κλικ στο βελάκι που βρίσκεται δεξιά από το κουμπί 2 («Ανάγνωση» ή όπως αλλιώς αναφέρεται) και κάνουμε κλικ στο «Επιλογές». Πατάμε κλικ στο tab «4.Αποθήκευση».
Στη συνέχεια κάνουμε κλικ στο «Ρυθμίσεις διαμόρφωσης».
9
Στο παράθυρο που θα εμφανιστεί πατάμε κλικ στο tab «PDF».
Σε περίπτωση που δεν είναι επιλεγμένο το «Διατήρηση αρχικού μεγέθους εικόνας», το τσεκάρουμε. Αυτή η επιλογή καθορίζει το μέγεθος του χαρτιού στο οποίο θα επικολληθεί το κείμενο της αναγνώρισης. Αν σκανάρουμε ένα μικρό βιβλίο (μικρών διαστάσεων) και έχουμε επιλέξει μέγεθος χαρτιού «Α4», τότε όταν αποθηκεύσουμε το κείμενό μας σε pdf θα παρατηρήσουμε ότι το κείμενο θα επικολληθεί σχεδόν στη μέση ενός Α4. Ελέγξτε αν οι υπόλοιπες παράμετροι ταιριάζουν με αυτές, του παραπάνω screenshot. Σε περίπτωση που για κάποιο λόγο επιθυμείτε να αποθηκεύσετε το κείμενο σε αρχείο Microsoft Word (δεν σας το συνιστώ, εκτός αν θέλετε να πειραματιστείτε), κάνετε κλικ στο πρώτο tab και ορίζετε επιπρόσθετες παραμέτρους. Εκεί θα χρειαστεί να προσέξετε πολύ, διατηρώντας την αρχική διάταξη και την αλλαγή των γραμμών. Αφού πατήσουμε σε όλα ΟΚ, στη συνέχεια ξανακάνουμε κλικ στο βελάκι που βρίσκεται δεξιά από το κουμπί 2 και επιλέγουμε «Ανάγνωση όλων των σελίδων».
10
Θα αρχίσει τότε η αναγνώριση των σελίδων και το αναγνωρισμένο κείμενο θα εμφανιστεί στο παράθυρο που βρίσκεται στα δεξιά του προγράμματος. Εδώ ξεκινά το δύσκολο κομμάτι της όλης υπόθεσης… Κάποιοι χαρακτήρες είναι λογικό να μην αναγνωριστούν σωστά (για οποιοδήποτε λόγο), γι’ αυτό και θα πρέπει να διαβάσετε το κείμενο και να κάνετε επιτόπου τις διορθώσεις, ή να το αποθηκεύσετε ξεχωριστά σε αρχείο του word, να κάνετε εκεί τις διορθώσεις και στη συνέχεια να μετατρέψετε με κάποιο πρόγραμμα (π.χ. Adobe Professional 8, doPdf 6 Free PDF Converter 6.1). ΑΠΟΘΗΚΕΥΣΗ ΣΑΡΩΜΕΝΟΥ ΚΕΙΜΕΝΟΥ Το τελευταίο βήμα αφορά την αποθήκευση του κειμένου που σαρώσαμε. Κάνουμε κλικ στο βελάκι που βρίσκεται δεξιά από το κουμπί 4 («Αποθήκευση σελίδων» ή όπως αλλιώς λέγεται) και μετά στο «Αποστολή όλων των σελίδων σε» και στη συνέχεια κλικ στο «Adobe Reared/Acrobat». Σε περίπτωση που δεν δουλέψει αυτή η επιλογή, κάνουμε κλικ στο «Αποθήκευση σελίδων», καθορίζουμε το φάκελο που θα αποθηκευτεί το ebook, δίνουμε ένα όνομα για το αρχείο, επιλέγουμε «PDF» «Όλες τις σελίδες», «Δημιουργία ενός (μοναδικού) αρχείου για όλες τις σελίδες και μετά κάνουμε κλικ στο «Αποθήκευση». ΣΥΓΧΑΡΗΤΗΡΙΑ ! Μόλις δημιουργήσατε το πρώτο σας ebook! ΠΡΟΣΟΧΗ Αν θέλετε να κερδίσετε ένα μέρος του κόσμου που θα ενδιαφερθεί να διαβάσει τα βιβλία σας, θα πρέπει να κάνετε προσεκτική και όχι πρόχειρη δουλειά. Είναι κρίμα να σκανάρετε ένα πανάκριβο, σπάνιο βιβλίο και να το σκανάρετε με προχειρότητα, ή να μη προσέξετε τις ρυθμίσεις αποθήκευσης. Θυμηθείτε ότι σε καμία περίπτωση δεν πρέπει να βάλετε στο ebook που θα σκανάρετε το ονοματεπώνυμό σας, κάποια διαφήμιση ή οτιδήποτε άλλο (π.χ. κωδικό πρόσβασης για το άνοιγμα του pdf). Είναι σχεδόν σίγουρο ότι θα γίνετε μισητοί από τον αναγνώστη, καθώς είναι πολύ αυτοί που δεν επιθυμούν να διαβάζουν watermarks, διαφημίσεις κ.ά. στα ebooks. Είναι γενικός κανόνας η διατήρηση των στοιχείων του βιβλίου, όπως ακριβώς είναι και στην πραγματικότητα. Καλά σκαναρισμένο εξώφυλλο χωρίς λεκέδες (μολυβιές, γρατζουνιές, σκισίματα), καλά σκαναρισμένες σελίδες χωρίς λάθη που προκύπτουν από το OCR και τελικά, ένα άριστο αποτέλεσμα.
ΘΕΟΦΡΑΣΤΟΣ 11