La Ragion Informatica ben temperata dalla Ragion Linguistica rende i progetti di Machine learning più precisi e rapidi

Il tema del momento: utilizzare il Machine learning per trovare, classificare, interpretare, correlare informazioni e testi dispersi nell’archivio aziendale e su fonti esterne.

Il problema di questi progetti è riassunto nella formula garbage in garbage out, cioè dati sporchi in entrata, risultati poco affidabili in uscita.

Garbage in = informazioni non strutturate date in pasto alla macchina sperando che riesca a vederci chiaro almeno lei. Questa speranza si fonda sulla fiducia che la macchina sia una specie di deus ex machina e che dunque la Ragion Informatica possa già oggi fare tutto da sola, anche quando si tratta di parole, le quali, come sappiamo, non sono numeri.

Nonostante i progressi quotidiani, siamo all’inizio dell’era dell’intelligenza artificiale applicata al linguaggio – Natural Language Processing, che fa ancora molti errori.

Noi siamo per la Ragion Informatica ben temperata dalla Ragion Linguistica.

Il Machine learning va istruito, prima di lanciarlo alla ricerca dei significati.

Per nostra fortuna, i testi professionali sono tutti uguali tra loro: tutti i contratti sono uguali tra loro, e sono diversi dalle policy, che sono tutte uguali tra loro, che sono diverse dalle circolari ecc. ecc.

I testi professionali sono cioè caratterizzati da regolarità tipiche che riguardano la struttura informativa, la posizione delle parole, la loro morfologia e lo stile delle frasi.

Se si addestra subito il Machine learning a individuare i contenuti, non si finisce più: sono infiniti. Non solo: i contenuti sono comuni a tanti testi. Invece, se prima lo si addestra a riconoscere le forme dei contenuti, si fa molto prima.

Le forme dei contenuti? Esattamente. Guardiamo questi avvisi:

Che cosa hanno in comune questi avvisi che li distingue da tutti gli altri testi di un archivio?

Gli argomenti no: sono tanti (giochi, strada, guanti, porte) e possono essere comuni ad altri testi.

Le funzione nemmeno (vietare, obbligare ecc.).

In comune hanno 11 forme che tutte insieme li caratterizzano.

7 sono comuni a tutti i cartelli:

  1. Non hanno un titolo che sintetizza il contenuto
  2. Sono scritti in TUTTO MAIUSCOLO
  3. Sono composti da un solo periodo
    • che ha al massimo due tra le forme verbali seguenti
      • solo verbo essere presente o futuro (es. è vietato, sarà interdetta)
      • solo infinito (es. lasciare, mangiare)
      • verbo essere al presente + infinito (è vietato giocare)
      • impersonale Si prega + infinito (si prega di chiudere)

4 forme si trovano in alcuni avvisi, ma non in tutti:

  1. 2 hanno AVVISO
  2. 8 non hanno punteggiatura
  3. 7 non hanno aggettivi
  4. 9 non hanno pronomi

Vuoi distinguere gli avvisi dagli altri testi? Istruisci la macchina a riconoscere le loro forme.

Lo stesso vale per i contenuti. Vogliamo selezionare solo i cartelli che esprimono un obbligo? Bisogna trovare le forme con cui è espresso l’obbligo. Chi le vede?