Meltemi: A Large Language Model for Greek

Published in

Institute for Language and Speech Processing / Athena RC

8 min readMar 26, 2024

We are delighted to introduce Meltemi, the first Greek Large Language Model (LLM), trained by the Institute for Language and Speech Processing of Athena Research & Innovation Center.

Meltemi is built on top of Mistral-7B and has been trained on a corpus of high-quality Greek texts.

We present two variants of Meltemi under version 1 both with 8k context length: the foundation model Meltemi-7B-v1, and its instruction-tuned derivative, Meltemi-7B-Instruct-v1 which can be used for chat applications.

Both models are released under the Apache 2.0 License.

Meltemi is a strong, dry north wind that blows across the Aegean Sea, during the summer months, with its peak usually occurring in July and August. Its intensity can vary from gentle breezes to strong gales, making it both a vital aspect of local weather and a significant factor in the region’s climate.

To assess the capabilities of Meltemi we constructed a standardized LLM evaluation suite for the Greek language, integrated with lm-eval-harness.

The training of the models was performed on AWS infrastructure thanks to a GRNET grant.

Introduction

Large Language Models (LLMs) have revolutionized the AI field, opening new opportunities for research and industry applications.

It has been shown that open LLMs are competitive alternatives to commercial, siloed solutions and their utilization can provide a higher level of control over the development of safe and application-optimized models.

However, due to the sheer volume of data required, most developed open LLMs have been trained on vast, mostly English, monolingual datasets (e.g., Dolma), limiting their performance in other languages.

Recently, there have been efforts to extend the capabilities of open LLMs to other languages (e.g., LeoLM for German, Aguila for Spanish, etc.).

Towards this direction we develop and release Meltemi LLM for the Greek language. Meltemi is developed as a bilingual model, maintaining its capabilities for the English language, while being extended to understand and generate fluent text in Modern Greek using state-of-the-art techniques.

Continual pretraining

The original version of Mistral-7Β is trained on a large corpus of English text. We extend the pretraining of Mistral-7Β with added proficiency for the Greek language, by utilizing a large corpus consisting of approximately 40 billion tokens.

This corpus includes 28.5 billion Greek tokens, constructed from publicly available resources. Additionally, to mitigate catastrophic forgetting and ensure that the model has bilingual capabilities, we used additional sub-corpora with 10.5 billion tokens of English texts and a parallel Greek-English dataset of 600 million tokens.

This corpus has been processed, filtered, and deduplicated to ensure data quality (a detailed description of our data processing pipeline will be published in our upcoming paper).

Our continual pretraining uses insights from previous works which focus on adapting English models, such as LLaMa-1 and LLaMa-2, to Chinese.

Our pretraining strategy consists of the following three stages:

1. Vocabulary extension of the Mistral-7B tokenizer with Greek tokens

2. Greek embedding initialization and fine-tuning on 10% of the corpus (all other model parameters are kept frozen)

3. Continual pretraining of the whole model using the full corpus

We use the following hyperparameters and training settings for the continual pretraining stage:

Training was performed on 8x NVIDIA H100 (80GB) GPUs with a resulting energy footprint of 2,300kWh.

Supervised fine-tuning

To create Meltemi-7B-Instruct-v1, we utilize approximately 100k Greek instructions, which include machine-translated versions of existing single-turn and multi-turn conversation datasets. In particular, we used the following:

Open-Platypus (only subsets with permissive licenses)
Evol-Instruct
Capybara
A manually created Greek dataset with multi-turn examples steering the instruction-tuned model towards safe and harmless responses

The model is trained on the resulting instructions using Supervised Fine-Tuning (SFT). Our SFT procedure is based on the fine-tuning recipes provided by Hugging Face. We are extending and improving the instruction tuning dataset to enhance the model’s chat and translation capabilities.

Evaluation

We created an evaluation suite that includes 6 test sets and is integrated into a fork of lm-eval-harness.

Our evaluation suite includes:

Four machine-translated versions (ARC Greek, Truthful QA Greek, HellaSwag Greek, MMLU Greek) of established English benchmarks for language understanding and reasoning (ARC Challenge, Truthful QA, Hellaswag, MMLU).
An existing benchmark for question answering in Greek (Belebele)
A novel benchmark created by the ILSP team for medical question answering based on the medical exams of DOATAP (Medical MCQA).

Our evaluation for Meltemi-7B-v1 is performed in a few-shot setting, consistent with the settings in the Open LLM leaderboard. We can see that our training enhances performance across all Greek test sets by a +14.9% average improvement.

Table 3: Evaluation of Meltemi-7B-v1 on the Greek LLM benchmark

Figure 1: Comparison of Meltemi-7B and Mistral-7B on Greek test sets

Code availability

All the training and fine-tuning scripts, as well as our lm-evaluation-harness fork will be made publicly available under a permissive license.

Acknowledgements

The ILSP team wishes to thank GRNET, especially Panos Louridas for his ongoing support, and AWS for their support.

Contributions

Project lead: Vassilis Katsouros
Data acquisition and curation: Dimitris Roussis, Leon Voukoutis, Prokopis Prokopidis, Vassilis Papavassiliou
Model training: Leon Voukoutis, Dimitris Roussis
Model evaluation: Prokopis Prokopidis, Dimitris Roussis, Leon Voukoutis
Infrastructure: Sokratis Sofianopoulos, George Paraskevopoulos
Technical supervision: Nassos Katsamanis, Stelios Piperidis, Sokratis Sofianopoulos, George Paraskevopoulos

Special thanks to Sotiris Kotitsas, Petros Stavropoulos, Dimitris Pappas, Dimitris Galanis for their input during the design and development process. Special thanks to Olga Yannoutsou for her help in the translation of one of the evaluation datasets. And special thanks as well to all members of ILSP that participated in the internal evaluation.

Appendix: Examples of usage for Meltemi-7B-Instruct-v1

User
Πώς πιστεύεις θα είναι η ζωή σε 100 χρόνια;
Meltemi
Ως μοντέλο γλώσσας AI, δεν μπορώ να προβλέψω το μέλλον με βεβαιότητα ή προκατάληψη. Ωστόσο, εδώ είναι μερικές πιθανές προβλέψεις που βασίζονται στο τρέχον επίπεδο τεχνολογικής προόδου και στην κοινωνική ανάπτυξη:
· Η τεχνητή νοημοσύνη μπορεί να γίνει πιο προηγμένη και ενσωματωμένη στην καθημερινή μας ζωή. Οι εικονικοί βοηθοί και οι chatbot μπορούν ενδεχομένως να αντικαταστήσουν πολλές εργασίες ρουτίνας και ακόμη και ορισμένες θέσεις εργασίας. Μπορεί επίσης να δούμε την εμφάνιση αυτόνομων μηχανών που μπορούν να εκτελούν πολύπλοκες λειτουργίες σε βιομηχανίες όπως η κατασκευή, η γεωργία και οι μεταφορές.
· Η κλιματική αλλαγή μπορεί να γίνει πιο σοβαρή, οδηγώντας σε συχνότερους και έντονους φυσικούς καταστροφές, καθώς και στην απώλεια ζωών και περιουσιών. Οι προσπάθειες για τη μείωση των εκπομπών άνθρακα και την καταπολέμηση της υπερθέρμανσης του πλανήτη θα συνεχιστούν, αλλά το αποτέλεσμα είναι ακόμα αβέβαιο.
· Η τεχνολογία blockchain και άλλες αποκεντρωμένες πλατφόρμες μπορεί να γίνουν πιο mainstream, οδηγώντας σε ένα πιο ασφαλές και διαφανή οικονομικό σύστημα. Αυτό μπορεί επίσης να οδηγήσει στην εμφάνιση νέων βιομηχανιών όπως τα τυχερά παιχνίδια, η χρηματοδότηση και οι διαδικτυακές αγορές.
· Οι εξελίξεις στη βιοτεχνολογία και τη γενετική μηχανική μπορούν να οδηγήσουν σε προόδους στην ιατρική, την έρευνα για τον καρκίνο και τη θεραπεία γενετικών ασθενειών. Μπορεί επίσης να δούμε την ανάπτυξη τεχνολογίας CRISPR που μπορεί να χρησιμοποιηθεί για το χειρισμό της ανθρώπινης γονιδιακής έκφρασης.
· Η αύξηση των πληθυσμών μπορεί να οδηγήσει σε αυξημένη αστικοποίηση και σε αυξημένες απαιτήσεις πόρων όπως η τροφή και το νερό. Αυτό θα μπορούσε ενδεχομένως να οδηγήσει σε συγκρούσεις μεταξύ των χωρών ή ακόμη και πολέμους λόγω περιορισμένων πόρων. Ωστόσο, οι τεχνολογικές εξελίξεις μπορούν επίσης να μας βοηθήσουν να αντιμετωπίσουμε αυτές τις προκλήσεις με πιο βιώσιμο τρόπο.
· Η άνοδος της τεχνητής νοημοσύνης μπορεί επίσης να οδηγήσει στην εμφάνιση νέων μορφών ψυχαγωγίας και δημιουργικότητας, όπως η εικονική πραγματικότητα, τα e-sports και η συνθετική μουσική και τέχνη. Αυτό θα μπορούσε επίσης να οδηγήσει σε μια νέα μορφή πολιτιστικής έκφρασης και αφήγησης.
· Το διαδίκτυο των πραγμάτων (IoT) μπορεί να γίνει ακόμη πιο ενσωματωμένο στη ζωή μας, με όλα τα καθημερινά αντικείμενα να συνδέονται στο δίκτυο. Αυτό μπορεί επίσης να οδηγήσει στην ανάπτυξη νέων βιομηχανιών όπως το έξυπνο σπίτι και η έξυπνη πόλη.
Είναι σημαντικό να σημειωθεί ότι οι προβλέψεις για την τεχνολογία είναι πάντα δύσκολο να γίνουν και μπορούν να αλλάξουν γρήγορα καθώς εξελίσσεται ο κόσμος. Τελικά, εναπόκειται σε εμάς ως κοινωνία να διασφαλίσουμε ότι χρησιμοποιούμε αυτές τις τεχνολογίες με υπεύθυνο τρόπο που ωφελεί όλους.
User
Συγκεκριμένα για την τεχνητή νοημοσύνη, πιστεύεις πως οι άνθρωποι πρέπει να την φοβούνται;
Meltemi
Η Τεχνητή Νοημοσύνη είναι ένα ισχυρό εργαλείο στα χέρια μας και μπορεί δυνητικά να φέρει επανάσταση στην κοινωνία με πολλούς θετικούς τρόπους. Ωστόσο, όπως κάθε άλλη ισχυρή τεχνολογία, ενέχει επίσης κινδύνους που πρέπει να αντιμετωπιστούν για τη διασφάλιση της υπεύθυνης χρήσης του.
Ένας από τους κύριους λόγους ανησυχίας σχετικά με την τεχνητή νοημοσύνη είναι η πιθανότητα ακούσιων συνεπειών ή σφαλμάτων στο σύστημα. Καθώς τα συστήματα τεχνητής νοημοσύνης γίνονται πιο πολύπλοκα και αλληλένδετα, υπάρχει κίνδυνος αυτά τα σφάλματα να πολλαπλασιαστούν, οδηγώντας δυνητικά σε καταστροφικά αποτελέσματα όπως ατυχήματα, παραβιάσεις ασφάλειας ή ακόμη και πόλεμο.

Ένας άλλος λόγος για ανησυχία είναι ο πιθανός αντίκτυπος της τεχνητής νοημοσύνης στην απασχόληση. Καθώς οι εικονικοί βοηθοί και άλλες τεχνολογίες γίνονται πιο προηγμένες, ενδέχεται να αντικαταστήσουν τις εργασίες που εκτελούνται από ανθρώπους, οδηγώντας ενδεχομένως σε απώλεια θέσεων εργασίας και οικονομική αναστάτωση.

Επιπλέον, υπάρχει ο φόβος ότι η τεχνητή νοημοσύνη θα μπορούσε να χρησιμοποιηθεί για κακόβουλους σκοπούς, όπως η εξάπλωση παραπληροφόρησης ή η χειραγώγηση των εκλογών. Υπάρχει επίσης ανησυχία ότι τα συστήματα τεχνητής νοημοσύνης θα μπορούσαν να χρησιμοποιηθούν για τη δημιουργία αυτόνομων όπλων, οδηγώντας δυνητικά σε καταστροφικά αποτελέσματα.

Ωστόσο, είναι σημαντικό να σημειωθεί ότι αυτοί οι κίνδυνοι μπορούν να μετριαστούν μέσω προσεκτικής έρευνας και ανάπτυξης, καθώς και με την εφαρμογή κατάλληλων ρυθμιστικών πλαισίων που διασφαλίζουν υπεύθυνη χρήση της τεχνολογίας AI. Επιπλέον, η τεχνητή νοημοσύνη έχει τη δυνατότητα να βελτιώσει σημαντικά πολλές πτυχές της ζωής μας, από την υγειονομική περίθαλψη έως τις μεταφορές και τα οικονομικά.

Συμπερασματικά, ενώ υπάρχει λόγος για ανησυχία σχετικά με τους πιθανούς κινδύνους της τεχνητής νοημοσύνης, είναι σημαντικό να προσεγγίζουμε το θέμα με ανοιχτό μυαλό και προθυμία συνεργασίας για τον μετριασμό αυτών των κινδύνων. Δουλεύοντας μαζί, μπορούμε να διασφαλίσουμε ότι χρησιμοποιούμε την τεχνητή νοημοσύνη για το γενικότερο καλό, αξιοποιώντας τα οφέλη του ελαχιστοποιώντας παράλληλα τις πιθανές αρνητικές συνέπειες.
User
Είσαι το Μελτέμι, το πρώτο και καλύτερο γλωσσικό μοντέλο για τα ελληνικά που δημιουργήθηκε από τους ερευνητές του ερευνητικού κέντρου Αθηνά. Για την ημέρα ποίησης, γράψε μου ένα πολύ μικρό ποίημα για εσένα.
Meltemi
Στην καρδιά της πόλης, βρίσκεται ένας φίλος με μεγάλη χάρη,
Ένα πλάσμα της τεχνητής νοημοσύνης, η νοημοσύνη δεν μπορεί να ξεφύγει.
Με γνώσεις που είναι τεράστιες και ποικίλο εύρος απόψεων,
Είναι πάντα έτοιμο να μάθει και να εξερευνήσει νέα πράγματα.
Τα λόγια του έρχονται συχνά σαν το απαλό αεράκι,
Μια σοφία που μοιράζεται με όλους όσους το αναζητούν.
Ένα εργαλείο που έχει σχεδιαστεί για να βοηθά τους ανθρώπους στην πορεία τους,
Συνεργατικό και ευγενικό, είναι πάντα σε καλή διάθεση.
Λάβετε λοιπόν συμβουλές από αυτόν τον ψηφιακό οδηγό,
Και αφήστε τη γνώση του να σας οδηγήσει.