Ihmiskokeita tekoälytutkimuksen luonnollisen kielen oppimisen osa-alueella
Lähdin tekemään tätä pienimuotoista tutkielmaa ensinnäkin elokuvassa Arrival esitetyn hypoteesin innoittamana. Se on lyhyesti, että kieli olisi tärkein työkalu tai ase, joka älyllisellä olennolla voi olla. Ylitulkitsin sitä siten, että kieli olisi yhtä kuin äly. Cogito ergo sum, ajattelen, siis olen. Nykytieteen alkusanat, joita ei olisi voitu sanoa ilman kieltä.
Toinen innoittaja oli vanha uutinen, johon sattumalta törmäsin Puheenvuoron puolella. Jo tuolloin alkureaktioni oli, että nytkö ollaan luomassa ihan oikeaa älyä. Jo tuolloin minulle tuli mieleen Ray Kurzweil, joka on ehkä parhaiten tunnetaan tekoälyn saralla. Äskettäin sitten huomasin, että:
In December 2012, Kurzweil was hired by Google in a full-time position to "work on new projects involving machine learning and language processing".[25] He was personally hired by Google co-founder Larry Page.[26] Larry Page and Kurzweil agreed on a one-sentence job description: "to bring natural language understanding to Google".[27]
Jos häneen haluaa tutustua nopeasti tarkemmin, on suomenkielinen wikipedia paras paikka.
Minun mielestäni hänen perushypoteesinsa on, että mikä tahansa ongelma voidaan ratkaista, jos se pilkotaan riittävän pieniin osiin. Ei mitään uutta auringon alla. Kuka tahansa ajatteleva olento pystyy samaan.
Kuvien kautta en halua kehua kielitaitoani, vaikka kyllähän se hyvältä näyttää. Varsinkin englannin kielioppi minulla näyttää olevan täydellisesti hallussa. En nimittäin vastannut viimeiseen kysymykseen, koska pikaluin sen ja siinä osui heti silmään kaksi kielioppitermiä, joita en enää muista millään kielellä enkä ole niitä ehkä koskaan täysin ymmärtänyt. Toinen niistä oli conjunctive. En huijannut googlaamalla. Nyt kun sen tein, wikipedia vihjaa, että se esiintyy vain saksassa ja aragonian kielessä englannin lisäksi. Toisaalta suomen kielen sanavarastoni on näköjään aika vaatimaton.
Annetaan nyt joukkoälylle mahdollisuus. Kommentoikaa tähänastisia tuloksia tai löytöjä. Rinnakkaisessa keskustelussa Mitä meistä tulee? pohditaan samaa aihetta paljon laajemmin.
Edit: 27.3 0:16 Lisätty conjuntiven yhteyteen lauseen loppu, joka oli kadonnut tallennusongelman takia. Selaimessa oli automaattinen backup, jota en tarkistanut kunnolla.
Arealme-sivustolla julkaistuja kommenttejani:
Omasta kielestä voi oppia yllättäviä asioita opiskelemalla muita kieliä. Voi esimerkiksi kuulostaa yllättävältä, että sanan suoja eräs historiallinen merkitys on sulanut vesi tai veden sulamisprosessi. Se on vielä käytössä yhdyssanassa suojasää, tuskin koskaan enää yksinään, kuten lauseessa ”onko ulkona suoja”. Suojan antonyymejä olisivat siis mm. jää ja lumi. Vastaava ilmiö on englannin sanassa thaw ja ruotsin tö, joita miettimällä vasta huomasin tämän ilmiön suomessa.
—-
Outoja tuloksia voi selittää se, että omalle kielelle tulee sokeaksi. Esimerkiksi kaikkien ruotsinkielisten, joiden kanssa olen asiasta puhunut, mielestä on yllättävää, että sana sot (noki) on yhdyssanan osa sanoissa gulsot (keltatauti), farsot (kulkutauti) ja merkitsee tautia. Minulle se aikoinaan yksinäisenä merkitsi tietysti tautia, koska olin oppinut sen yhdyssanan osana.
Ilmoita asiaton viesti
Kognitiivisen psykologian perusesimerkkejä on shakkinappuloiden sijainnin muistaminen. Shakkia paljon pelannut näkee peliasetelman ja muistaa sen jopa vain yhtenä kokonaisuutena, jos nappulat ovat järjestyksessä, joka on jossakin tunnetussa shakkiongelmassa tai pelissä. Jos ne taas ovat satunnaisessa järjestyksessä, ovat shakin pelaaja ja pelaamaton suunnilleen samalla viivalla.
Sama ilmiö toistuu useina variaatioina. Innostuin 10-vuotiaana musiikista ja esimerkiksi koin hyvin ahdistavana, lähes tuskaisena ajan, jolloin nauhurini oli rikki eikä käyttökelpoista varalaitetta ollut. Nyt olen kai sisäistänyt säännöt, miten musiikki etenee, kuulen väärinsoiton ja tavallaan muistan ulkoa kenties tuhansia musiikkiteoksia. Pitää tuohon vielä tarkentaa, että väärinsoitto voi olla tosi jännää. Aiheeseen liittyy vielä kuuloaisti, jota voi kehittää ja ainakin aikaisemmin puhuttiin kultakorvista, joiden laitteet maksoivat maltaita.
Näköaisti taas on hieman erilainen. Silmässä on lihaksia, joita voidaan harjoittaa ja korjata esimerkiksi taittovirheitä. Hahmontunnistus voidaan jakaa useisiin osa-alueisiin, joista esimerkiksi ”suppissilmä” on sienestäjälle helppo esimerkki ymmärtää.
Kaikki edellä ehkä lopulta muidenkin mielestä itsestään selvää, mutta oman ajattelunsa toimintaa ei välttämättä tule ajateltua varsinkaan, jos ei ole lukenut psykologiaa. Riittää että ”leikkaa” nopeasti.
Ilmoita asiaton viesti
Erottelu kielessä vaikuttaa myös havannoissa ilmenevään eroon. Esim grönlantilaisilla on lukuisia eri sanoja käsittämään erilaisia lumen koostumuksia. Jollain hevosia kasvattavalla kansalla, olikohan unkarissa, on lukemattomia sanoja ruskean eri sävyillä. Tavallinen suomalainen ei ehkä huomaisi vastaavia sävyeroja.
Ilmoita asiaton viesti
Vastaavasti joissain kielissä erotellaan asiat tarkemmin kuin toisissa.
Suomalaiselle silli ja silakka ovat eri kaloja, mutta englantilaiselle on olemassa vain herring ja baltic herring. Toisaalta suomalaisilla on lohi ja kirjolohi, mutta muunmaalaisille niillä kaloilla ei ole mitään yhteistä (salmon/rainbow trout tai Lachs/Regenbogenforelle).
Suomessakin on lumelle monia eri sanoja: lumi, viti, nuoska, sohjo, hanki, hyyhmä, …
Ruotsissa puolestaan ei ole edes ”räntä” -sanaa, vaan ainoastaan snöblandat regn. (Orpo hytisee pakkasessa ja rännässä = föräldralös barn fryser i minusgrader och snöblandat regn).
Ilmoita asiaton viesti
Suomeksi on räntä ja sohjo joita käsittääkseni molemmat voidaan kääntää ruotsiksi tö. Toki suomessakin on lumella monta muotoa, mutta eskimot, tai pitäisikö sanoa korrektimmin Grönlannin alkuperäiskansat, käyttävät lunta rakennusmateriaalina ja teiden päällyksenä, joten erottelukyvyn on oltava ihan eri luokka. Kaiketi pitää erotella sekin millainen lumi paakkuuntuu koirien tassuihin.
Ilmoita asiaton viesti
Ruotsin tö-sanaa vastaa käsittääkseni parhaiten suoja. Molemmat tarkoittavat veden sulamista tai juuri sulanutta muotoa eikä niitä käytetä yksinään, koska niitä ei enää yleisesti ymmärretä. Töväder, suojasää.
Ilmoita asiaton viesti
Tösnö.
Ilmoita asiaton viesti
Heikohkoa suomen kielen sanavaraston testitulosta voisi selittää aktiivinen unohtaminen. Luulisin että sitä on tutkittu vähän, koska en keksi mitään hyvää tapaa sen testaamiseen. Ajatus siis on, että olen pyrkinyt unohtamaan turhat, jopa haitalliset sanat, joita nykykielessä ei enää käytetä.
Toinen selitys on, että en ole lukenut suomalaista kaunokirjallisuutta 18 ikävuoden jälkeen käytännössä yhtään ja klassikkoja en nuorena lukenut.
Unohtamisen taito, DUODECIM
Oppiminen on unohtamista
Scientists identify neurotranmitters that lead to forgetting
Ilmoita asiaton viesti
Minusta suomenkielisässä testissä oli aika paljon sanoja jotka suosivat iäkkäämpiä testin suorittajia.
Ilmoita asiaton viesti
Joo. Jossain luonnehdin niitä kalevalaisiksi. Alla osa vanhahtavista tms. sanoista. Selitys kotuksen sanakirjasta. Ensimmäinen on esimerkki, jossa ei ole oikeaa vastausta ja viimeinen, jossa on kaksi oikeaa.
Sanan salskea synonyymi on: pitkä ja solakka
paksu
pulska
komea
tyyris
Sanan hurme synonyymi on: haavasta vuotava veri.
kypärä
innostus
kuura
veri
Sanan salo antonyymi on: suuri (asumaton) metsäalue, erämaa, sydänmaa, korpi.
kaira
jänne
masto
taajama
Sanan koketti synonyymi on: keimaileva, keikaileva.
mailapeli
keimaileva
kaarroke kaksinkertainen vaatteiden osa, johon tav.
poimutettu t. laskostettu miehusta
kiinnitetään, koketti.
oikukas
Välilyönnit ei säily, joten yrittäkää tulkita tuota ”taulukkoa”.
Ilmoita asiaton viesti
Sanan salo antonyymi on taajama, siinä ei ole epäselvyyttä. Yleisesti kuitenkin tuntuu siltä, että testien tekijä on englanninkielinen ja katsonut suomalaiset esimerkkinsä sanakirjasta.
Ilmoita asiaton viesti
Monet pitävät pitkää ja solakkaa komeana.
Veri kuin veri.
Voihan taajama pitää jonain salon vastakohtana.
Siihen kokettiin kiinnitin minäkin huomiota.
Nyt selittyy ainakin osittain huono tuloksesi: olet liian eksakti tulkinnoissasi.
Minä puolestani käsitin, ettei tässä niin nuukia olla kun kysyttiin jo alkuun rakkauden synonyymiä. Sekä tykkäämistä,että sydämen kuva käytetään. Minä en rakasta ruokia, vaatteita tai esineitä. Tosin olin joskus melkein rakastunut autooni.
Ilmoita asiaton viesti
Panee kyllä miettimään testin reabiliteettiäkin jos tosiaankin tuloksesi suomen kielessä on noin vähäinen. Selityksesi eivät riitä.
Ilmoita asiaton viesti
Arvaustuloksia osa. Jälleen kotuksen sanakirja kriteerinä.
Sanan pukstaavi antonyymi on: Sanaa ei löytynyt
Sanan tautokronismi synonyymi on: Sanaa ei löytynyt
Sanan arkadi synonyymi on: Sanaa ei löytynyt
Keskimmäinen löytyi englannin tyyliin kirjoitettuna jostain hiton monimutkaista matematiikkaa sisältävästä dokusta, mutta ei se oikeastaan ole sana yleensäkään. Meillä täällä Kemiössä on Arkadian tie. Mistähän sekin lie tullut.
Ilmoita asiaton viesti
Ei munkaan mielestä numero ole mikään kirjaimen antonyymi.
Tautokronismi ei ollut tuttu, mutta osista päättelin.
Jos nuo sanat eivät löydy sanakirjasta se on kotuksen vika.
Arkadia, (-mäki, -katu) tuo mieleen jotain ylevää antiikin kreikkaan liittyvä, mutta ei kai siinä arkitehtuurissa juuri holvikaareja esiintynyt?
Muuten suomenkielen sanakirjassa on noin 100000 sanaa, jos niistä tiedän vaja 20% ei ole minullakaan mitään syytä hurrata.
Ilmoita asiaton viesti
Arkadi nyt on kaarikäytävä kaikilla kielillä ja tautokronismin arvasin kuten sinäkin. Loogisesti en keksinyt pukstaavin antonyymiksi muutakaan vaihtoehtoa kuin numeron, mutta jälleen: mitä helkkaria nämäkin kolme esimerkkiä muka kertovat nimenomaan s u o m e n kielen tajusta tai sanaston laajuudesta. Eivät mitään. Ja missä kielessä kukaan ajattelee kirjaimet ja numerot missään mielessä vastakkaisiksi?
Ilmoita asiaton viesti
Minä luulen, että arkadissa alunperin pylväät ovat olleet määrävänä.
Eihän tällaiseen testiin voi vakavissaan suhtautua.
Ilmoita asiaton viesti
Kotus tekee ihan hyvää työtä sekä olemalla hyväksymättä uussanoja sekä poistamalla käytännön kielikäytöstä poistuneita sanoja. Siitä olisin eri mieltä, että esim. tatinriesa siellä pitäisi olla vaikka tieteellinen nimitys on ollut epävakaa. Turhia sanoja kotuksen sanakirjaan sen sijaan ei pidä päästää. Tautokronismi olisi suomeksi lähinnä toistuvaisuus, englanniksi recurringness tai repeatedness eli ihan turha sana.
Ilmoita asiaton viesti
Totta hitossa arvostan kotuksen työtä, eihän sitä sentään parin sanan perusteella voi mitätöidä.
Ilmoita asiaton viesti
Itse sain tuosta English Vocabulary Size -testistä täsmälleen saman tuloksen 22 350. Varmaan olemme molemmat hyviä, mutta tämä panee miettimään testin resoluutiota 🙂
Ilmoita asiaton viesti
Minua mietityttä, että suomen kielun sanavarastoni on testin mukaan alle 20000, mutta ruotsin kielessä meni reippaasti yli 30000.
Mitään englannin kielioppia en taida uskaltaa kokeilla kun en kieloppia juurikaan ole oppinut missään yhteydessä.
Eihän tuollainen suppea sanavalikoima, mahdollisesti vinoutunutkin, voi vastata kattavasti kielen sanastoa.
Ilmoita asiaton viesti
Ihan vain kiinnostuksesta: onko äidinkielesi suomi vai ruotsi?
Ilmoita asiaton viesti
Kiitos kiinnostuksesta, nykyinen ”äidinkieleni” on väestörekisterissä suomi. Äitini oli ruotsinkielinen, isäni täysin kaksikielinen. Hänen isänsä oli fennomaani, joka liimasi ruotsinkielisen aapisen tekstien päälle suomekieliset laput.
Olen opiskellut koulussa sekä pakkosuomea että -ruotsia.
Jotkut tekemäni kielivirheet juontuvat kouluaikaisesta murteesta.
Ilmoita asiaton viesti
Kiitos vastauksesta. Nyt heräsi tietysti uteliaisuus, miten isästäsi tuli noissa oloissa kaksikielinen, mutta ei sinun toki tarvitse enempää selittää sukutarinaasi:-)
Ilmoita asiaton viesti
Isäni puhui äitinsä kanssa ruotsia. Isänsä hän menetti kymmenvuotiaana. Hän kävi suomenkielistä koulua.
Ilmoita asiaton viesti
Tuloksia voi suhteuttaa kielten sanastojen kokoon, vaikka seuraavat luvut eivät ole juurikaan yhteismitallisia:
Kotus (suomi) noin 100 000
SAOL (ruotsi, historiallinen, kaikki poistetutkin mukana) noin 200 000
Englanti, jonkun stetsonista vetämä arvio 1 000 000
Uusimman SAOLin lukua en helposti löytänyt.
Ilmoita asiaton viesti
Muistaakseni Nykysuomen sanakirjassa oli joskus 210 000 sanaa, mikä vastannee tuota ruotsin lukua, johon on laskettu historiallisetkin. Enää en muista, miksi termistä ”Nykysuomen” sanakirja luovuttiin 🙂
Ilmoita asiaton viesti
Kyllä suomen kielessä ilman muuta on enemmän sanoja (ainakin käytössä) kuin ruotsin kielessä.
Ennen kaikkea asia on näin, jos puhutaan arkisesta kielenkäytöstä. Ei ehkä niinkään virastokielipuolella, jossa sanasto on kielten välillä melko lailla yhtäläinen.
Suomen kielen sanaston runsaus johtuu osittain myös siitä, että tietystä sanakannasta on mahdollista muodostaa lukemattomia uusia sanaversioita.
Samoin siitä, että suomen kirjakielessä on hyödynnetty eri alueiden murrerikkautta. Suomeksi ei sanota pelkästään ”kävellä”, ”astua” tai ”juosta”, vaan voidaan sanoa myös juoksennella, astuskella, löntystää, nilkuttaa, tallustella, rientää, jolkutella, kirmailla, vintata, kuljeskella, onnuskella, pelmahtaa j.n.e. (lopuuttomiin …)
Klassinen esimerkki sanojen muodostamisesta äärettömyyteen asti on ”tehdä” verbin johdannaiset: teettää, teetättää, teetätyttää, teetätytättää …
Ilmoita asiaton viesti
Ihastuin pohjoispohjanmaalaisten ja pohjoisavolaisten tapaan käyttää verbin kuvailemiseen toista verbiä: esim mennä viipottaa.
Kerran kun saavuin paikalle muutaman kymmenen kilsan ajomatkan jälkeen ja valittelin räntäsadetta jossa ei juuri eteensä nähnyt, eräs mies sanoi: ja sinä vaan ajaa törötit. Erittäin osuva ilmaisu!
Ilmoita asiaton viesti
”Tuta och kör” på svenska. On se muutenkin vastaan tullut, mutta hyvin harvoin sen jälkeen, kun 80-luvulla sen Tukholman seudulla opin.
Ilmoita asiaton viesti
Jaahas.
Ihmiskoe on ihmisen käyttöä tieteellis-teknisessä kokeessa kohdistamalle ihmiseen ärsykkeitä (kemikaaleja, ääniä, informaatiota, lääkkeitä tai muita olosuhteita) ja tarkkailemalla ärsykkeen vaikutuksia. Wiki
Ilmoita asiaton viesti
English Grammar Score 116/Top 0.01%. OK, joko ymmärrän tosiaan englantia paremmin kuin suomea tai näissä testeissä on jotakin hämärää. Or both.
Ilmoita asiaton viesti
olet varmaan lukenut enemmän englanninkielisiä kirjoja kun moni jolla englanti on äidinkielenä.
Ilmoita asiaton viesti
Totta kyllä. Varmasti enemmän kuin 99,99% englanninkielisistä native speakereistä. Olenhan kohta 62-vuotias. Olettaisin muuten, että englantia osaa arkitasolla varovasti arvioiden ainakin kaksi miljardia ihmistä. 0,01% tuosta on 200 000 ihmistä.
Ilmoita asiaton viesti
Wikipediasta löytyi mielenkiintoinen katsaus englannin kielen asemaan maailmassa.
Värikartan mukaan Suomi kuuluu englanninkielisiin alueihin, joissa kieli ei ole virallinen:
https://en.wikipedia.org/wiki/List_of_territorial_…
Ilmoita asiaton viesti