Παρασκευή 19 Δεκεμβρίου 2025
weather-icon 21o
Τα εργαλεία συμπίεσης δεδομένων στην υπηρεσία της γλωσσολογικής έρευνας

Τα εργαλεία συμπίεσης δεδομένων στην υπηρεσία της γλωσσολογικής έρευνας

Ιταλοί γλωσσολόγοι μελέτησαν τη συμπιεσμένη εκδοχή ποικίλων αρχείων κειμένων και κατέληξαν σε πολύ ενδιαφέροντα συμπεράσματα. Αναδημιούργησαν το γενεαλογικό δένδρο των ευρωπαϊκών γλωσσών και μπόρεσαν να προσδιορίσουν το συγγραφέα κάποιων κειμένων.

1

Τα «ζιπαρισμένα» αρχεία τα ξέρουν όλοι, ή σχεδόν όλοι, οι ασχολούμενοι με τους υπολογιστές. Πρόκειται για αρχεία τα δεδομένα των οποίων έχουν συμπιεστεί ώστε να καταλαμβάνουν λιγότερο χώρο. Ο όρος «ζιπάρισμα» και το σχετικό ρήμα, «ζιπάρω», προέρχονται από την αγγλική λέξη zip, όνομα ενός πολύ δημοφιλούς προγράμματος συμπίεσης δεδομένων.


Πέραν της εξοικονόμησης χώρου η διαδικασία συμπίεσης ενός αρχείου κειμένου μπορεί να έχει και μερικές άλλες, πολύ χρήσιμες αλλά απρόσμενες χρήσεις. Γλωσσολόγοι του Πανεπιστημίου της Ρώμης La Sapienza ανακάλυψαν ότι τα συμπιεσμένα αρχεία κειμένου αποκαλύπτουν πολλές πληροφορίες για τη γλώσσα στην οποία είναι γραμμένα τα κείμενα αυτά: μπορούν να βοηθήσουν στον προσδιορισμό του συγγραφέα του κειμένου ή ακόμα και να συμβάλουν στην ανακατασκευή των δένδρων συγγενείας μεταξύ διαφόρων γλωσσών.


Το «μυστικό», γράφει στο τρέχον τεύχος του το περιοδικό Economist, βρίσκεται στους τρόπους με τους οποίους δουλεύουν τα εργαλεία συμπίεσης των δεδομένων (τα «ζιπαριστήρια», όπως αποκαλούνται στην κομπιουτερική ιδιόλεκτο).


Για να μειώσεις τον όγκο ενός συνόλου δεδομένων ψάχνεις να βρεις κανονικότητες σε αυτά και να τις συνοψίσεις. Αν, για παράδειγμα, συναντήσεις κάπου τη σειρά ΑΑΑΑΑΑΑΑΑΑΑΑΑ, μπορείς να γράψεις την οδηγία «13 φορές Α». Για να αναδημιουργήσεις τα αρχικά δεδομένα δεν έχεις παρά να ακολουθήσεις τις οδηγίες (στην προκειμένη περίπτωση να γράψεις 13 φορές το Α). Κατά τον ίδιο βασικά τρόπο εργάζεται κάθε εργαλείο συμπίεσης δεδομένων. Κάποια δεδομένα συμπιέζονται εύκολα. Κάποια άλλα, όπως, π.χ., η σειρά ΔΦΣΠΚΓΡΛ, όχι και τόσο. Για κάθε σύνολο δεδομένων μπορεί να μετρηθεί η ακαταστασία τους, ή «εντροπία» όπως λέγεται.


Οι γλωσσολόγοι του ιταλικού πανεπιστημίου αποφάσισαν να μετρήσουν την εντροπία πολλών αρχείων με κείμενα σε διάφορες γλώσσες ή με κείμενα διαφόρων συγγραφέων. Τα ευρήματά τους ήταν πολύ ενδιαφέροντα.


Μετρώντας την εντροπία του ίδιου κειμένου μεταφρασμένου σε όλες τις γλώσσες της Ευρώπης κατάφεραν να σχηματίσουν ένα «εντροπιακό δένδρο» το οποίο συμβαδίζει απόλυτα με τις τρέχουσες γλωσσολογικές απόψεις περί των συγγενειών μεταξύ των ευρωπαϊκών γλωσσών: διακρίθηκαν εύκολα οι οικογένειες των γλωσσών (κελτικές, γερμανικές, λατινογενείς κ.λπ.) και ξεχώρισαν αμέσως οι απομονωμένες γλώσσες όπως τα βασκικά (χωρίς γνωστές συγγενείς γλώσσες) ή τα μαλτέζικα (μια κατά βάση αραβική γλώσσα με πολλές δάνειες ιταλικές και αγγλικές λέξεις).


Στην συνέχεια, μετρώντας την εντροπία διαφόρων κειμένων μιας γλώσσας και συγκρίνοντάς τη με τη μέση εντροπία κειμένων διαφόρων γνωστών συγγραφέων της γλώσσας αυτής κατάφεραν να προσδιορίσουν ποιος είχε γράψει τι.


Τα αποτελέσματα αυτά δείχνουν ότι τα μαθηματικά θα μπορούσαν να χρησιμοποιηθούν ως συνοδευτικό εργαλείο στη γλωσσολογική έρευνα. Μπορεί επί του παρόντος να μη συμβάλλουν σε νέες ανακαλύψεις, αλλά η μέθοδος είναι ακόμα στην αρχή της.

Newsroom ΑΛΤΕΡ ΕΓΚΟ

Ακολουθήστε το in.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις

in.gr | Ταυτότητα

Διαχειριστής - Διευθυντής: Λευτέρης Θ. Χαραλαμπόπουλος

Διευθύντρια Σύνταξης: Αργυρώ Τσατσούλη

Ιδιοκτησία - Δικαιούχος domain name: ALTER EGO MEDIA A.E.

Νόμιμος Εκπρόσωπος: Ιωάννης Βρέντζος

Έδρα - Γραφεία: Λεωφόρος Συγγρού αρ 340, Καλλιθέα, ΤΚ 17673

ΑΦΜ: 800745939, ΔΟΥ: ΚΕΦΟΔΕ ΑΤΤΙΚΗΣ

Ηλεκτρονική διεύθυνση Επικοινωνίας: in@alteregomedia.org, Τηλ. Επικοινωνίας: 2107547007

ΜΗΤ Αριθμός Πιστοποίησης Μ.Η.Τ.232442

Παρασκευή 19 Δεκεμβρίου 2025
Απόρρητο