Language Modeling

Una serie di articoli che guidano il lettore verso la comprensione dei grandi modelli di Natural Language Processing a cui Google, Microsoft e Nvidia stanno dando la caccia e ai campi di applicazione nei quali Machine Learning Reply li ha adottati.

Language Modeling 0

Contesto

A partire dal 2018 tutti i più grandi laboratori di Intelligenza Artificiale hanno iniziato una vera e propria corsa all’oro per lo sviluppo di modelli di Natural Language Processing sempre più complessi aventi una crescita esponenziale nel numero di pesi utilizzati.
Questi Language Models sono sempre più abili nell'individuare pattern nel linguaggio umano e quindi nell’acquisire una sorta di conoscenza di quelle regole che noi definiamo come sintassi, grammatica, entità, stile, ecc. aprendo scenari fino a pochi anni fa impensabili.

Il nostro approccio

Sebbene allo stato attuale alcuni di questi modelli non siano ancora pronti per l’utilizzo in produzione, buona parte di queste tecnologie è già in grado di trovare applicazione in ambiti come la creazione di chatbot con maggiore consapevolezza del contesto, il miglioramento di motori di ricerca semantici, la creazione di strumenti di document retrival per semplificare l’utilizzo di piattaforme, l'automatizzazione del processo di ticket management e molti altri in cui Machine Learning Reply è impegnata attivamente supportando i propri clienti.

I nostri articoli

Con questa serie di articoli Machine Learning Reply intende offrire una comprensione dettagliata di come questi modelli in continua evoluzione siano in grado di ottenere ottimi risultati e dove si stia spingendo la ricerca e lo stato dell’arte in questo ambito.
  • strip-0

    Sequence-to-Sequence architectures

    In questo articolo esploriamo una particolare forma di architettura encoder-decoder chiamata sequence-to-sequence che punta a migliorare le prestazioni della traduzione automatica e che ha gettato le basi per molti progressi nella modellizzazione neurale del linguaggio naturale.

  • Neural Networks, at Attention!

    L'applicazione di un layer di attention ai modelli sequence-to-sequence consente di ottenere traduzioni migliori selezionando per ogni parola della traduzione in output le parti dell'input maggiormente influenti su quella specifica parola.

    strip-1
  • strip-2

    Transformer: the fall of RNNs

    I ricercatori di Google hanno affermato che le Recurrent Neural Network sono solo un peso per i modelli sequence-to-sequence. Ora che disponiamo del meccanismo di attention al nostro fianco, possiamo esaminare l'intera frase in una sola volta e quindi usare l'attenzione per selezionare le parti importanti.

  • GPT2 and GPT3: so good to be bad

    Basato sul modello Transformer, all'inizio del 2019 Open AI ha annunciato un modello in grado di generare testi lunghi con un incredibile grado di coerenza e una sintassi quasi perfetta. I ricercatori si sono preoccupati del problema delle applicazioni malevoli e il modello completo non è stato rilasciato fino a novembre 2019. In che modo questo modello può essere una minaccia e come funziona?

    strip-3

Benefici

I Language Models stanno progressivamente migliorando la capacità di riprodurre il modo di esprimersi degli esseri umani in maniera totalmente autonoma. Essi costituiscono non solo una sfida dal punto di vista tecnologico ma rappresentano una svolta nell’interazione uomo-macchina, consentendo una conversazione in linguaggio naturale sempre più indistinguibile da quella che si avrebbe con un essere umano.

Lo sviluppo di questi modelli, basato sul training di reti neurali su dataset di grandissime dimensioni, mette a disposizione di tutti degli strumenti molto potenti che possono essere ulteriormente estesi, personalizzati e localizzati su specifici contesti grazie all'impiego di tecniche come il Transfer Learning.
Gli enormi progressi nel campo della comprensione e nella generazione di testi in linguaggio naturale aprono molteplici scenari applicativi in tutti in settori di business che vanno gestiti con la giusta attenzione sugli aspetti di privacy, sicurezza dei dati e utilizzo malevole delle capacità dei Language Models.