Κατάτμηση συνεχούς κειμένου με χρήση συσχετιστικού λεξικού, στατιστικών στοιχείων γλώσσας και τεχνικών οπισθοδρόμισης

Βασίλας, Νικόλαος; Sharma, Anuj; Vassilas, Nikolaos

dc.contributor.author	Βασίλας, Νικόλαος	el_GR
dc.contributor.author	Sharma, Anuj	en
dc.contributor.author	Vassilas, Nikolaos	en
dc.coverage.spatial	GR - Αθήνα	en
dc.date.available	2006-01-09T12:00:00Z	el_GR
dc.date.issued	2005	el_GR
dc.identifier.uri	http://hdl.handle.net/10797/10942	en
dc.description	Περιέχει το πλήρες κείμενο	el_GR
dc.description.abstract	Στην εργασία αυτή παρουσιάζεται μια μεθοδολογία διόρθωσης λαθών και κατάτμησης κειμένου όταν δεν υπάρχουν σημεία στίξης και οι λέξεις δε χωρίζονται από κενά. Το κίνητρο αυτής της έρευνας προέρχεται από ένα εθνικό πρόγραμμα αναγνώρισης συνεχούς μικρογράμματης γραφής παλαιοχριστιανικών χειρογράφων από τη Μονή της Αγίας Αικατερίνης του Όρους Σινά. Επειδή η μετατροπή των χειρογράφων σε ψηφιακά κείμενα θα γίνεται με ένα σύστημα αυτόματης αναγνώρισης χαρακτήρων (OCR) το οποίο αναγκαστικά εισάγει λάθη αναγνώρισης, γίνεται η υπόθεση ότι ο πίνακας, με τις πιθανότητες ορθής αναγνώρισης των χαρακτήρων αλλά και τις πιθανότητες για κάθε είδος σφάλματος όπως, εισαγωγής, διαγραφής ή αντικατάστασης χαρακτήρων, είναι γνωστός και ότι προκύπτει από πειραματικά αποτελέσματα αναγνώρισης σε πραγματικά χειρόγραφα. Η προτεινόμενη μεθοδολογία περιλαμβάνει: α) τη χρήση ενός λεξικού αποθηκευμένου σε μνήμη πίνακα συσχέτισης με δομή ιεραρχικού αντίστροφου αρχείου ώστε να εξασφαλίζεται ταχύτατη αναζήτηση λέξεων και διόρθωση λαθών, β) την κατάταξη των ανακληθεισών λέξεων μέσω παραλλαγής της μετρικής Levenstein η οποία χρησιμοποιεί τόσο τον πίνακα πιθανοτήτων του OCR συστήματος όσο και τα στατιστικά της ελληνικής γλώσσας (συχνότητες ν-γραμμάτων, συχνότητες λέξεων κ.λπ.) και γ) την κατάτμηση του συνεχούς κειμένου σε επιμέρους λέξεις με οδηγό τις πιθανότερες λέξεις που αρχίζουν από την τρέχουσα θέση του δρομέα και με χρήση τεχνικών οπισθοδρόμησης στην περίπτωση που η τρέχουσα κατάτμηση οδηγείται σε αδιέξοδο. Πιλοτική έρευνα σε κείμενα της νέας ελληνικής γλώσσας στα οποία απαλείφθηκαν τα κενά μεταξύ των λέξεων καθώς και τα σημεία στίξης και εισήχθησαν, διαγράφηκαν ή αντικαταστάθηκαν χαρακτήρες σύμφωνα με τις πιθανότητες ενός υποθετικού συστήματος OCR, έδειξε πολύ ικανοποιητικά αποτελέσματα και υπόσχεται να αποτελέσει ένα ισχυρό εργαλείο κατά την αυτόματη αναγνώριση των πατερικών χειρογράφων.	el_GR
dc.language.iso	gre	en
dc.publisher	ΤΕΙ Αθήνας	el_GR
dc.relation.ispartof	Νέες τεχνολογίες και πρότυπα για τη διαχείριση της γνώσης: σημασιολογικός ιστός (semantic web)	en
dc.source	Διαχείριση της γνώσης: ο Παγκόσμιος ιστός και οι μονάδες πληροφόρησης - 14ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών	el_GR
dc.source.uri	http://abekt.lib.ucy.ac.cy/synedria/14psab/14psab034.pdf	en
dc.title	Κατάτμηση συνεχούς κειμένου με χρήση συσχετιστικού λεξικού, στατιστικών στοιχείων γλώσσας και τεχνικών οπισθοδρόμισης	el_GR
dc.title.alternative	Segmentation of continuous text using an associative dictionary, Language statistics and backtracking Techniques	en
dc.type	Conference Object	en
dc.subject.JITA	Διαχείριση υπηρεσιών, λειτουργιών και τεχνικών πληροφόρησης, Γλώσσες ευρετηρίασης, διαδικασίες και σχήματα	el_GR
dc.subject.JITA	Information treatment for information services, Information functions and techniques, Index languages, processes and schemes	en
dc.contributor.conferenceorganizer	Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών	el_GR
dc.identifier.JITA	IC	en

Files in this item

Name:: 14psab034.pdf
Size:: 440.3Kb
Format:: PDF
Description:: 14psab/14psab034

View/Open

This item appears in the following Collection(s)

Παρουσιάσεις και ομιλίες σε συνέδρια, διημερίδες, ημερίδες και σεμινάρια [2236]

Show simple item record