Κατάτμηση συνεχούς κειμένου με χρήση συσχετιστικού λεξικού, στατιστικών στοιχείων γλώσσας και τεχνικών οπισθοδρόμισης
View/ Open
Date
2005Author
Βασίλας, Νικόλαος
Sharma, Anuj
Vassilas, Nikolaos
Metadata
Show full item recordAbstract
Στην εργασία αυτή παρουσιάζεται μια μεθοδολογία διόρθωσης λαθών και κατάτμησης κειμένου όταν δεν υπάρχουν σημεία στίξης και οι λέξεις δε χωρίζονται από κενά. Το κίνητρο αυτής της έρευνας προέρχεται από ένα εθνικό πρόγραμμα αναγνώρισης συνεχούς μικρογράμματης γραφής παλαιοχριστιανικών χειρογράφων από τη Μονή της Αγίας Αικατερίνης του Όρους Σινά. Επειδή η μετατροπή των χειρογράφων σε ψηφιακά κείμενα θα γίνεται με ένα σύστημα αυτόματης αναγνώρισης χαρακτήρων (OCR) το οποίο αναγκαστικά εισάγει λάθη αναγνώρισης, γίνεται η υπόθεση ότι ο πίνακας, με τις πιθανότητες ορθής αναγνώρισης των χαρακτήρων αλλά και τις πιθανότητες για κάθε είδος σφάλματος όπως, εισαγωγής, διαγραφής ή αντικατάστασης χαρακτήρων, είναι γνωστός και ότι προκύπτει από πειραματικά αποτελέσματα αναγνώρισης σε πραγματικά χειρόγραφα. Η προτεινόμενη μεθοδολογία περιλαμβάνει: α) τη χρήση ενός λεξικού αποθηκευμένου σε μνήμη πίνακα συσχέτισης με δομή ιεραρχικού αντίστροφου αρχείου ώστε να εξασφαλίζεται ταχύτατη αναζήτηση λέξεων και διόρθωση λαθών, β) την κατάταξη των ανακληθεισών λέξεων μέσω παραλλαγής της μετρικής Levenstein η οποία χρησιμοποιεί τόσο τον πίνακα πιθανοτήτων του OCR συστήματος όσο και τα στατιστικά της ελληνικής γλώσσας (συχνότητες ν-γραμμάτων, συχνότητες λέξεων κ.λπ.) και γ) την κατάτμηση του συνεχούς κειμένου σε επιμέρους λέξεις με οδηγό τις πιθανότερες λέξεις που αρχίζουν από την τρέχουσα θέση του δρομέα και με χρήση τεχνικών οπισθοδρόμησης στην περίπτωση που η τρέχουσα κατάτμηση οδηγείται σε αδιέξοδο. Πιλοτική έρευνα σε κείμενα της νέας ελληνικής γλώσσας στα οποία απαλείφθηκαν τα κενά μεταξύ των λέξεων καθώς και τα σημεία στίξης και εισήχθησαν, διαγράφηκαν ή αντικαταστάθηκαν χαρακτήρες σύμφωνα με τις πιθανότητες ενός υποθετικού συστήματος OCR, έδειξε πολύ ικανοποιητικά αποτελέσματα και υπόσχεται να αποτελέσει ένα ισχυρό εργαλείο κατά την αυτόματη αναγνώριση των πατερικών χειρογράφων.