"Cool andmeside teadlane saab keskse ettevõtte peadirektorina." Ekspert masinaõpe Yandex. Takso - kuidas andmed ennustavad tulevikku ja moodustavad maailma

Maja, disain, remont, sisekujundus. Õue ja aed. Tee seda ise » Tee seda ise "Cool andmeside teadlane saab keskse ettevõtte peadirektorina." Ekspert masinaõpe Yandex. Takso - kuidas andmed ennustavad tulevikku ja moodustavad maailma

"Cool andmeside teadlane saab keskse ettevõtte peadirektorina." Ekspert masinaõpe Yandex. Takso - kuidas andmed ennustavad tulevikku ja moodustavad maailma

Osana ABC ABC projekti ühiselt oleme juba kirjutanud nn programmide, mis võimaldavad "kasvatada" programmide põhimõtete ja seaduste Darwinia areng. Seni see lähenemine tehisintellektile on kindlasti "tuleviku külaline". Aga kuidas luuakse täna kunstlikud intelligentsusüsteemid? Kuidas nad õpetavad? Selles Viktor Kantor, algoritmide osakonna ja tehnoloogiate osakonna ja MFT programmeerimise tehnoloogiate ja tehnoloogiate osakonna vanem lektor, Yandexi andmete tehase kasutaja käitumise analüüsi rühma juht.

Uurimisfirma Gartneri hiljutise aruande kohaselt uuendab regulaarselt oma "küpsuse tehnoloogia tsüklit", tänasest ootuste tipposast on just masinaõpe. See ei ole üllatav: Viimastel aastatel on masinaõpe välja tulnud algoritmide teooria kitsas ringi ja spetsialistide kitsas ringi huvide valdkonnast ja tungis kõigepealt IT-äri sõnastikku ja seejärel maailmale tavaliste inimestega. Nüüd, kui on selline asi nagu närvivõrk oma erilise "maagiaga", teab kedagi, kes kasutas Prisma appi, otsides laule Shazamiga või nägid pilte, mis on läbinud süvendi kaudu.

Üks asi on aga tehnoloogia kasutada ja teine \u200b\u200bon mõista, kuidas see toimib. Ühised sõnad nagu "Arvuti saab õppida, kas ta annab vihje" või "Neuraleta koosneb digitaalsetest neuronitest ja paigutatud nagu inimese aju" Keegi võib samuti aidata, kuid sagedamini segadusse olukorda. Sama, kes kavatseb tõsiselt tegeleda matid, populaarseid tekste ei ole vaja: nende jaoks on õpikuid ja suurepäraseid online-kursusi. Me püüame minna läbi keskel viisil: selgitada, kuidas sa tegelikult õppinud kõige lihtsamat ülesannet ja siis näidata, kuidas sama lähenemisviisi saab rakendada tegelike huvitavate probleemide lahendamiseks.

Kuidas autosid õppida

Alustamiseks, et tegeleda, kuidas masinaõpe juhtub, me määratleme mõistetega. Selle piirkonna ühe pioneeride määratlemisega hõlmab Arthur Samuel masinaõpe meetodeid, mis võimaldavad arvutitel ilma otsese programmeerimiseta õppida. " Seal on kaks ulatuslikku masinõppe meetodeid: koolitus õpetaja ja koolituse ilma õpetaja. Esimest kasutatakse siis, kui me näiteks me peame õpetama arvutit, et otsida fotosid karja pildiga, teine \u200b\u200b- kui me peame autot tegema, võivad sõltumatult grupi uudiseid kruntidesse, nagu See juhtub teenuseid nagu Yandex.News või Google News. See tähendab, et esimesel juhul tegeleme ülesandega, mis tähendab õige vastuse olemasolu (kass foto või on olemas või mitte), teises - ei ole ainult õiget vastust, kuid on olemas erinevad võimalused probleemi lahendamiseks. Me keskendume esimesele ülesannete klassile kõige huvitavamaks.

Niisiis, me peame õpetama arvutit, et teha mõningaid ennustusi. Veelgi enam, see on soovitav täpsem. Ennustused võivad olla kahest tüübist: kas teil on vaja valida mitme vastuse vahel (hetktõmmis olev kass või mitte - see on kahe kahe versiooni valik, on võimalus piltide valikud tuvastada mitmest kümnest ja nii edasi) või tehke numbriline ennustus. Näiteks ennustada inimese kaal selle kasvu, vanuse, kingade suuruse ja nii edasi. Kaks tüüpi neid ülesandeid vaadata ainult erinevalt, tegelikult nad lahendatakse peaaegu võrdselt. Proovime mõista täpselt, kuidas.

Esimene asi, mida me peame ennustussüsteemi tegema, on koguda nn õppimisproovi, mis on andmed elanikkonna inimeste kaalu kohta. Teine on otsustada märkide kogumi kohta, mille põhjal saame teha järeldusi kaalu kohta. On selge, et üks "tugevamate" märke on inimese kasv, nii et esimeses läheduses on piisav ainult selle tegemiseks. Kui kaal sõltub kasvust lineaarselt, siis meie ennustus on väga lihtne: inimese kaal on võrdne selle kasvuga, mis on korrutatud mingi koefitsiendiga, pluss mingi pidev väärtus, mis on kirjutatud lihtsama valemiga y \u003d kx + b. Kõik, mida me peame tegema, on õpetada autole, et ennustada inimese kaalu, see on kuidagi k ja B.

Masina õppimise võlu on see, et isegi kui sõltuvus, mida me õpime, on väga keeruline, meie väga lähenemisviisis, peaaegu midagi muutub. Me jätkame sama regressiooni tegemist.

Oletame, et selle kasv ei ole lineaarselt inimese kaal ja kolmandal määral (mis on tegelikult oodatud, sest kaal sõltub keha mahus). Selle sõltuvuse arvessevõtmiseks me lihtsalt toome teise liikme meie võrrandis, nimelt kolmanda kasvu aste oma koefitsiendiga, samas kui Y \u003d K 1 x + K 2 x 3 + b. Nüüd, auto koolitamiseks, peame leidma mitte kaks, vaid kolm kogust (K1, K 2 ja B). Oletame, et me tahame meie prognoosida, et võtta arvesse inimese kingade suurust, tema vanust, teleri teleriga kulutatud aega ja tema korteri kaugust lähima kiire Fud-punkti juurde. Pole probleeme: me teeme neid märke lihtsalt sama võrrandiga eraldi liikmetena.

Kõige tähtsam on luua universaalne viis soovitud koefitsientide leidmiseks (K1, K 2, ... K N). Kui ta on, see on peaaegu ükskõikne, mida kasutada märke ennustada, sest auto ise õpetab kinnitage suurt kaalu oluline ja väike - ebaolulised märgid. Õnneks on see meetod juba leiutatud ja peaaegu kõik masinaõpe toimivad edukalt: kõige lihtsamate lineaarsete mudelite hulgast isikute ja kõneanalüsaatorite tunnustamise süsteemidesse. Seda meetodit nimetatakse gradientide laskumiseks. Kuid enne selgitamist, kuidas see toimib, on vaja teha vähe taganemist ja rääkida närvivõrgust.

Neuroseti.

2016. aastal oli neural võrgustik nii tihedalt kaasatud teabekavasse, et nad olid peaaegu identifitseeritud masinaõppega ja edastasid seda üldse. Formally rääkides on vale: närvivõrgustikud Vintage't ei kasutata alati, on ka teisi tehnoloogiaid. Aga üldiselt, muidugi, selline ühendus on arusaadav, sest see on täpselt süsteem põhineb neural võrgustikel nüüd kõige "maagilise" tulemusi nagu võimalus otsida isik fotograafia, välimus rakendused Üks pilt teisele või süsteemi genereerimissüsteemidele konkreetse isiku kõne viisil.

Tee on paigutatud neuroseetikumide jaoks, me oleme juba. Siin ma lihtsalt tahan rõhutada, et närvivõrgu võimsus võrreldes teiste masinaõppe süsteemidega sõlmitakse nende mitmekihiline, kuid see ei muuda neid töömeetodiga midagi põhimõtteliselt suurepäraselt. Mitmekihiline võimaldab tõesti leida väga abstraktseid ühiseid funktsioone ja sõltuvust keerulistes märgistuste komplektides, nagu pildil pikslid. Kuid see on oluline mõista, et neuroväljas õppimise põhimõtete seisukohast ei erine midagi radikaalselt tavapäraste lineaarsete regressioonivahemuste komplektist, mistõttu sama meetod gradientide päritolu töötab suurepäraselt siin.

Neural-võrgu "tugevus" on neuronite vahekihi juuresolekul, mis ühendab sisendkihi väärtused. Selle Neoralio tõttu võib esineda väga abstraktseid omadusi, mida on raske vähendada lihtsaid valemeid nagu lineaarne või putreraatne sõltuvus.

Selgitagem näites. Me peatusime prognoosimisel, kus inimese kaal sõltub selle kasvust ja kasvust Kuuba, mida väljendatakse valemiga Y \u003d K1 x + K 2 x 3 + b. Mõningate venitamisega, kuid tegelikult võib isegi sellist valemit nimetada neuraalseks võrguks. Selles, nagu tavalisel närvivõrgus, on esimene kiht "neuronite", see on märke kiht: see on x ja x 3 (hästi, "ühe neuron", mida me meeles pidada ja mis vastab koefitsiendi b). Ülemine või saadud kiht on esindatud üks "neuron" y, mis on inimese ennustatud kaal. "Neuronite" esimese ja viimase kihi vahel on ühendused, mille võimsus või kaal määratakse koefitsiendid K1, K 2 ja B. Selle "neuralleti" õpetamiseks tähendab nende väga koefitsientide leidmist.

Ainus erinevus "reaalsete" närvivõrgustikest siin on see, et meil ei ole vahepealset (või peidetud) neuronite kihti, mille ülesanne on ühendada sisendmärgid. Selliste kihtide kasutuselevõtt ei võimalda mitte leiutada "välja pea" võimalikke sõltuvust kättesaadavate tähiste vahel, vaid tugineda nende juba olemasolevatele kombinatsioonidele neural-võrgu. Näiteks võib teleri ees olev vanus ja keskmine aeg olla inimese kaalu sünergistlik mõju, kuid närvivõrgul ei ole me kohustatud seda eelnevalt tundma ja tegema oma tööd valemis. Neurosette, seal esineb neuron, mis ühendab mõju kahe märgi ja kui see mõju on tõesti märgatav proovis, siis pärast treeningut, see neuron saab automaatselt palju kaalu.

Gradient laskumine

Niisiis, meil on teadaolevate andmetega näidete koolitusnäide, mis on tabel täpselt mõõdetud inimese kaaluga ja mõne sõltuvuse hüpoteesiga, antud juhul lineaarne regressioon Y \u003d KX + b. Meie ülesanne on leida õigete väärtuste K ja B, ja mitte käsitsi, kuid automaatselt. Ja eelistatult universaalne meetod, mis ei sõltu valemis parameetrite arvust.

Tee seda üldiselt lihtne. Peamine idee on luua teatud funktsioon, mis mõõdab praegust kogu vea ja "väänata" koefitsiendid nii, et kogu vea tase langeb järk-järgult. Kuidas teha vea taseme langemist? Sa pead keerake meie parameetreid soovitud poolel.

Esitage kaks meie parameetrit, mida me otsime, sama K ja B, nagu kaks suundi tasapinnal, nagu Põhja-lõuna teljed ja Lääne-Idas. Iga sellise tasapinna punkt vastab koefitsientide teatud väärtusele, teatud konkreetse seose suurendamise ja kaalu vahel. Ja iga tasapinna sellise punkti puhul on võimalik arvutada vigade kogutase, mis annab talle prognoosida iga valimi näidet.

Selgub midagi nagu konkreetne kõrgus lennukil ja kogu ümbritsev ruum hakkab meenutama mägi maastikku. Mäed on punktid, kus vigade tase on väga kõrge, orud on kohad, kus on vähem vigu. On selge, et meie süsteemi õpetamiseks tähendab madalaima punkti leidmine maapinnale, punkt, kus vea tase on minimaalne.

Kuidas leida selle punkti? Kõige õigem viis on liikuda kogu aeg maha punktist, kus me algselt leidsime. Nii et varem või hiljem jõuame kohalikule miinimumale - allpool olevat punkti, mis peaaegu naabruses pole midagi. Lisaks on soovitatav teha samme erineva suurusega: kui kalle on lahe, saate kõndida laiemalt, kui kalle on väike, siis on parem varjata kohalikule minimaalsele minimaalsele "Tiptoele", vastasel juhul saate ka libiseda.

See on see, kuidas gradiendi päritolu meetodit: me muudame märke kaalude kaalu suurema languse suunas veafunktsiooni suunas. Me muudame oma iteratiivselt, st teatud sammuga, mille väärtus on proportsionaalne kalde kalle. Mis on huvitav, suurendada märkide arvu (lisades inimese kasvukuubi, selle vanuse, kingade suuruse ja nii edasi), mitte midagi muutusi, lihtsalt meie maastik muutub kahemõõtmeliseks, vaid mitmemõõtmeliseks.

Veafunktsiooni saab määratleda kui kõigi kõrvalekallete ruutude summa, mida praegune valem tunnistab inimeste suhtes, kelle kaal on meile juba teada. Võtke mõned juhuslikud muutujad K ja B, näiteks 0 ja 50. Seejärel ennustab süsteem, et iga proovi iga inimese kaal on alati 50 kilogrammi Y \u003d 0 × x + 50 diagrammiga, näiteks sõltuvus sirge, paralleelne horisontaalne. On selge, et see ei ole hea ennustus. Nüüd me võtame selle prognoositud väärtuse kaalu kõrvalekalle, püstitada see ruudu (nii, et arvesse võetakse ka negatiivseid väärtusi) ja kokkuvõttes - see on selles küsimuses viga. Kui olete tuttav analüüsi algusesse, võite isegi selgitada, et suurima sügise suund annab K ja B privaatne tuletisinstrument, ning etapp on praktiliste kaalutluste hulgast valitud väärtus: väike Sammud hõivata palju aega arvutustes ja suur võib viia asjaolu, et me aame minimaalselt.

Noh, ja kui me ei ole lihtsalt keeruline regressioon paljude märke, kuid tõeline närvivõrk? Kuidas me rakendame gradiendi laskumist sel juhul? Tuleb välja, et neuraalse võrguga, gradiendi päritolu toimib samal viisil, ainult treening toimub 1) etappidesse, kihist kiht ja 2) järk-järgult ühest näitest teises. Siinkohal rakendatud meetodit nimetatakse vea pöördsaks algoritmiks, seda süvendati sõltumatult 1974. aastal Nõukogude matemaatika Alexander Galushkina ja Harvardi ülikooli matemaatika Paul John Webrosi matemaatika.

Kuigi algoritmi range esitluse puhul on vaja kirjutada erasektori derivaadid (näiteks), intuitiivse tasemega kõik on üsna lihtne: iga proovis oleva näite puhul on meil mõningane prognoos Neuraalvõrgustik. Õige vastuse saamine saame arvata õige vastuse ennustusest ja seega veale (täpsemalt vigu iga väljundkihi neuroni puhul). Nüüd peame selle vea üle kandma eelmise neuronite kihi ja seda suuremat selle kihi betooni neuronit aitas kaasa veale, seda rohkem peame selle kaalu vähendama (tegelikult kõne jätkub erasektori derivaatide võtmiseks, \\ t liikumise kohta meie kujuteldava maastiku maksimaalsel järsult). Kui me tegime, tuleks sama protseduuri korrata järgmise kihi jaoks, liigub vastupidises suunas, st närvivõrgu väljalaskeava sisenemiseni.

Seega, seega neuroväli iga näitega koolitusproovi ja "keerates" neuronite kaalud õiges suunas, peame lõpuks koolitama. Priver-veajaotusmeetod on mitmekihiliste närvivõrgude gradiendi laskumise meetodi lihtne modifitseerimine ja seetõttu peaks see töötama igasuguse keerukuse närvivõrkude jaoks. Me ütleme siin "must", sest tegelikult on juhtumeid, kui gradientide laskumine annab ebaõnnestumisi ja ei võimalda teil teha head regressiooni või õpetada neuralet. Selle kohta, et sellised raskused tekivad, on kasulik teada.

Raskused gradientide päritolu

Vale valik absoluutse miinimumini. Gradient laskumine meetod aitab otsida kohalikku esurm. Aga me ei ole alati sellega, saame saavutada absoluutse ülemaailmse minimaalse või maksimaalse funktsiooni. Seda seetõttu, et anti-adadimentis liikumisel peatume hetkel, kui me saavutame esimese kohaliku miinimumi, mis meid vastab, ja algoritm peatab selle töö.

Kujutage ette, et sa seisad mägi ülaosas. Kui soovid minna linnaosa madalaimale pinnale, ei saa gradiendi päritolu meetod alati aidata teil, sest teie tee esimene lowline'i ei pruugi olla madalaim punkt. Ja kui elus on võimalik näha, et seal on natuke ronida ja siis saab siis langeda isegi madalam, siis algoritm sellises olukorras lihtsalt peatub. Sageli saab seda olukorda vältida, kui valite õige sammu.

Vale sammud. Gradient laskumine meetod on iteratiivne meetod. See tähendab, et me peame endale valima sammu sammu - kiirus, millega me laskume. Valides liiga palju sammu, saame lennata äärmusliku me peame ja ei leia minimaalselt. See võib juhtuda, kui leiate end väga terava laskumise ees. Ja liiga väikese sammu valik ähvardab algoritmi äärmiselt aeglast tööd, kui me leiame end suhteliselt sileda pinnaga. Kui te jälle ette kujutage, et me oleme õhukese mägi ülaosas, võib olla olukord, mil väga lahe päritolu tõttu me lihtsalt paneme.

Võrgu halvatus.Mõnikord juhtub, et gradiendi laskumise meetod ei suuda leida minimaalset. See võib juhtuda, kui kahest küljest minimaalselt on siledad alad - algoritm, lame krundi löömine vähendab sammu ja peatub aja jooksul. Kui, seisab mägi ülaosas, otsustate liikuda oma koju madalasse, tee võib olla liiga pikk, kui kogemata haarata väga sujuv ala. Või kui on praktiliselt marineeritud "nõlvadel", hüppab algoritm väga suure sammu valimisel ühest kaldest teise, peaaegu ilma minimaalselt liikumata.

Kõik need rasked hetked tuleks võtta arvesse masinaõppe süsteemi kujundamisel. Näiteks on alati kasulik jälgida täpselt seda, kuidas see muudab veafunktsiooni aja jooksul - kas see langeb iga uue tsükli või kohapeal trampimisega, kuna selle sügisel iseloomu muutub sõltuvalt etapi väärtuse muutumisest. Et vältida sattumist halva kohaliku miinimumini, on kasulik alustada erinevate juhuslikult valitud punktide maastiku - siis tõenäosus saada kinni on palju väiksem. On veel palju suuri ja väikeste saladusi ringlusse, millel on gradiendi päritolu, on rohkem eksootilisi õppimisviise, mis on nõrgalt sarnased gradiendi päritoluga. See on siiski juba teise vestluse teema ja eraldi artikkel ABC ABC projekti raames.

Valmis Alexander Erschov

- Kas te saate meile täiesti primitiivse näite kohta öelda, kuidas masinaõpe töötab?

Saab. Seal on näide mehhanismide õppimise nimetatakse "otsustav puu", üks vanimaid asju. Teeme nüüd. Oletame, et abstraktne inimene kutsub teid kuupäeva. Mis teile oluline on?

- Esiteks, ma tean seda või mitte ...

(Victor kirjutab selle tahvlile.)

... kui ma ei tea, siis peate küsimusele vastama, see on atraktiivne või mitte.

Ja kui te teate, ei ole oluline? Tundub, et ma mõistsin, et see on fritsia filiaal! Üldiselt ma kirjutan, kui te ei tea ja ebameeldivat vastust "Jah Ei, ilmselt." Kui te teate - vastus "Jah."

- Kui ma tean, on oluline ka!

Ei, see on prantsuse haru.

Noh, siis vaatame siin huvitavat või mitte. Sellegipoolest, kui sa ei tunne inimest, esimene reaktsioon välimusele koos sõpradega, keda me juba vaatame, mida ta mõtleb ja kuidas.

Teeme teisiti. Ambitsioonikas ta või mitte. Kui ambitsioonikas, see on raske flite, ta tahab rohkem. Ja neosphix kannatab.

(Victor Dorishes otsustava puu.)

Valmis. Nüüd saate ennustada, mida poiss sa kõige tõenäolisemalt tulevad kuupäeval. Muide, mõned dating teenused ennustavad selliseid asju. Analoogia abil saate ennustada ja mitu toodet ostavad kliente ja kus inimesed on sel ajal.

Vastused ei pruugi olla mitte ainult "jah" ja "ei", vaid ka numbrite kujul. Kui soovite täpsemat prognoosi, saate teha mitmeid selliseid puid ja neid keskmistada. Ja selliste lihtsate asjade abil saate tegelikult tulevikku ennustada.

Ja nüüd ette kujutage, kas sellisele skeemile kakssada aastat tagasi sellist skeemi tulla? Absoluutselt mitte! See skeem ei kanna iseenesest pattude killustikku. Fenomeni puhul on masinaõpe umbes pool sajandit. Prognoosi andmete põhjal algas Ronald Fisher isegi 20. sajandi alguses. Ta võttis iirise ja levitas neid pikkuse ja laius tassi ja kroonlehed vastavalt nende parameetrite ta määras taim tüüpi.

Tööstuses hakkas masinõpe viimastel aastakümnetel aktiivselt kasutama: tugevad ja suhteliselt odavad masinad, mis on vajalikud suure hulga andmete käitlemiseks, näiteks sellised otsused ei ole nii kaua aega tagasi. Aga ikka veel vaim löök: me joonistame need tükid iga ülesande ja nende abiga tuleviku prognoosida.

- Noh, kindlasti mitte parem kui jalgpallivõistluste kaheksajadude-ennustajad ...

Ei, hästi, kus me oleme kaheksajalad. Kuigi meil on rohkem varieerumis. Nüüd, abiga masinaõpe, saate säästa aega, raha ja parandada mugavust elu. Masinaõpe Mitu aastat tagasi murdis isiku piltide klassifikatsiooni küsimuses. Näiteks arvuti saab ära tunda 20 kivimid terjerid ja tavaline inimene ei ole.

- Ja kui te kasutate kasutajaid, on iga inimene teie jaoks numbrite kogum?

Umbes rääkimine, jah. Kui me töötame koos andmetega, kirjeldame kõiki objekte, sealhulgas kasutaja käitumist teatud numbrite kogumi. Ja need numbrid peegeldavad inimeste käitumise iseärasusi: kui tihti nad lähevad takso juurde, milline on takso kasutamine, mis tavaliselt lähevad.

Nüüd ehitame aktiivselt pilk-sarnase mudeli, et määrata sarnaste käitumisega inimeste rühmad. Kui tutvustame uut teenust või tahame vanade levitada, pakume seda neile, kes on huvitatud.

Näiteks siin on teenus - kaks lastetoolid taksos. Me saame seda uudiseid õppida ja me saame käsitleda ainult teatud inimeste ringi. Aasta jaoks on nad kogunud mõned arv kasutajaid, kes kirjutas kommentaarides, et nad vajavad kahte lastetoolit. Me leidsime need ja sarnased nendega. Tingimuslikult on need inimesed 30-aastaseks, kes reisivad ja armastavad Vahemere kööki. Kuigi loomulikult on märgid palju muud, näiteks.

- Isegi sellised nüanssid?

See on lihtne asi. Kõik arvutatakse otsingupäringute abil.

Ja rakenduses võib see kuidagi töötada? Näiteks te teate, et ma olen kerjus ja allkirjastatud rühmadele, nagu "Kuidas ellu jääda 500 rubla kuus" - ma pakutakse ainult sündinud odavaid autosid, tellis SpaceX News - ja mul on aeg-ajalt aega aega?

See võib töötada, kuid selliseid asju Yandexis ei ole heaks kiidetud, sest see on diskrimineerimine. Teenuse tegemisel isiklikult on parem pakkuda mitte kõige vastuvõetavamat, vaid taskukohasemat ja seda, mida inimene meeldib. Ja loogika jaotus "See nõuab paremat masinat ja see on vähem hea" - kurja.

Igaühel on pervivastatud soove ja mõnikord peate leidma mitte-Vahemere roogi retsepti, kuid näiteks pildid COPROOPHILIA kohta. Isikupärastamine ja antud juhul toimib?

Seal on alati eraviisiline režiim.

Kui ma ei taha, et keegi tundma oma huve või ütleme, ütleme sõbrad minu juurde ja tahtis näha mõningaid prügikasti, on parem kasutada inkognito režiimi.

Te saate siiski otsustada, mida ettevõte kasutab näiteks Yandexi või Google'i.

- Kas on olemas vahet?

Raske küsimus. Ma ei tea, kuidas teised, kuid Yandexis, kõva isikuandmete kaitsega. Eriti kontrollige personali.

- See tähendab, et kui ma ärkan kutt, ma ei saa teada, kui ta läks sellesse suvila või mitte?

Isegi kui töötate Yandexis. See on muidugi kurb, kuid jah, see ei ole võimalik teada saada. Enamikel töötajatel ei ole isegi nendele andmetele juurdepääsu. Kõik on krüpteeritud. Kõik on lihtne: sa ei saa inimestele spioonida, see on isiklik teave.

Muide, teema eraldamine poisid oli meil huvitav juhtum. Kui me tegime punkti "B" prognoosimise - takso sihtpunkte kehtestati nõuandeid. Vaata.

(Victor sisestab taotluse "Yandex.taxi".)

Näiteks mõtleb ma takso kodus. Ta kutsub mind üles tööle või rudnile minema (ma lugesin seal loenguid masina koolituse andmete kaevandamise raames loenguid). Ja mingil hetkel, töötades välja need juhised, mõistsime, et sa ei pea kasutajat ohustama. Punktid "b" keegi näeb. Nendel põhjustel keeldusime pakkumisest välja nägema. Ja siis istute korralikus kohas korralik inimestega, tellides takso ja nad kirjutavad teile: "Vaata, te pole selles baaris olnud!"

- Millised sinised täpid teie kaardil vilkuvad?

See on pikap punkte. Need punktid näitavad, et takso helistada palju mugavamaks. Lõppude lõpuks saate helistada sellisele kohale, kus kõnelemiseks täiesti ebamugav. Kuid üldiselt saate helistada kõikjal.

- Jah, mis tahes. Ma kuidagi lendasin selle kahe kvartaliga.

Hiljuti oli GPS-iga erinevad raskused, see viis erinevate lõbusate olukordadeni. Inimesed, näiteks Tseverskaya, navigeerimine läbi Vaikse ookeani. Nagu näete, mõnikord on jäänud ja rohkem kaks kvartalit.

- Ja kui te rakenduse taaskäivitate ja vajutate uuesti, varieerub hind mõne rubla. Miks?

Kui nõudlus ületab ettepanekut, genereerib algoritm automaatselt koefitsiendi suurenemise - see aitab takso ära kasutada neile, kes on olulised nii palju kui võimalik, isegi suure nõudluse perioodidel. Muide, kasutades masinaõpet saab ennustada, kus on rohkem nõudlust, näiteks tund. See aitab meil soovitada draivereid, kus on rohkem tellimusi, nii et pakkumine vastab nõudlusele.

- Ärge arvake, et "yandex.taxi" tapab peagi kogu taksoturu?

Ma arvan, et ei. Oleme tervisliku konkurentsi jaoks ja ei karda teda.

Mina ise, näiteks ma kasutan erinevaid taksoteenuseid. Minu jaoks on oluline oodata aega, nii et ma vaatan mitmeid rakendusi, mida takso saab kiiremini.

- Te olete ühendanud Uberiga. Milleks?

See ei ole minu pädevuse kommentaar. Ma arvan, et ühendada on sügav mõistlik lahendus.

Saksamaal paigaldas üks mees drone'ile vanni ja nii lendas burgeri taga. Kas olete arvasin, et õhuruumi juhtimine on aeg?

Ma ei tea õhuruumist. Uudiste jaoks Vaimu "Uber käivitas takso paatidele" Me järgime, kuid ma ei saa õhus midagi öelda.

- ja drone takso?

Siin on huvitav hetk. Me arendame neid, kuid üle selle, kuidas neid kasutada, peate mõtlema. On veel vara teha prognoose, millises vormis ja kui nad ilmuvad tänavatel, kuid me teeme kõik, et arendada tehnoloogiat täielikult autonoomse auto jaoks, kus juht ei vaja juht üldse.

- On muresid, mis drones drones häkkida hallata auto eemalt?

Alati riske ja kõikjal, kus on tehnoloogiaid ja vidinaid. Aga koos tehnoloogiate arendamisega areneb teine \u200b\u200bsuund - nende kaitse ja turvalisus. Igaüks, kes on kuidagi tegelenud tehnoloogiate arendamisega, töötavad kaitsesüsteemides.

- Milliseid andmeid kasutajate kohta kogute ja kuidas neid kaitstate?

Me kogume kasutuselevõtu andmed, näiteks kust, millal ja kus reis tehti. Kõik olulised - meil on olnud.

- Kas sa arvad, sest drones, arvu töökohtade väheneb?

Ma arvan, et see on ainult rohkem. Kuid need drones ka kuidagi tuleb hooldada. See muidugi natuke stressirohke olukord, muuta eriala, kuid mida teha.

- Gref igas loengis ütleb, et inimene muudab oma elukutset vähemalt kolm korda radikaalselt.

Ma ei saa mõnda eriala nimetada, et sajandeid. Arendaja ei tööta kogu oma elu samas keeles ja samu tehnoloogiaid. Kõikjal, kus pead taastama. Masinaõppega tunnen end selgelt nagu poisid, kes on kuus aastat nooremad, palju kiiremini ma arvan. Samal ajal tunnevad inimesed 40 või 45 aastat isegi tugevamaks.

- kogemus enam ei mängi rolli?

Mängib. Kuid meetodid muutuvad, võite tulla piirkonda, kus näiteks sügavat koolitust ei kasutanud, töötavad seal mõnda aega, seejärel tutvustatakse sügava koolituse meetodeid kõikjal ja te ei saa sellest midagi aru. Ja see ongi kõik. Teie kogemused võivad olla kasulikud ainult selle töö planeerimise küsimuses ja see ei ole alati.

- Mis on teie elukutse - andmete teadlane, kas see on nõudlus?

Andmeteaduse spetsialistidel nõudlus lihtsalt raputas. Ilmselgelt nüüd hullu Khaip periood. Tänan Jumalat, aitas Blockchain seda HAIP-i salvestada. Spetsialistid blockchainis demonteerivad endiselt.

Kuid paljud ettevõtted arvavad nüüd, et kui nad panevad raha masinaõppesse, õitsevad nad aiad kohe. See ei ole tõsi. Masinaõpe peaks lahendama konkreetseid ülesandeid ja mitte ainult olemas.

On juhtumeid, kui mõni pank soovib kasutajatele soovitussüsteemi teha. Me küsime: "Kas sa arvad, et see on majanduslikult põhjendatud?" Vastus: "Jah, me oleme joonisel fig. Tegema. Kõik sama soovitussüsteemid, me oleme trendis. "

Valu on see, et asi on ettevõtte jaoks tõesti kasulik, ei saa ühe päeva jooksul teha. Sa pead vaatama, kuidas süsteemi koolitatakse. Ja ta töötab alati alguses vigadega, tal ei pruugi õppida piisavalt andmeid. Sa parandad vigu, seejärel parandage see uuesti ja isegi kõik redid. Pärast seda peate konfigureerima, et süsteem töötas tootmises stabiilne ja skaleeritav, see on veel üks kord. Selle tulemusena võtab üks projekt pool aastat aastas ja rohkem.

Kui vaatate masinaõppe meetodeid musta kasti, saate hõlpsasti vahele jätta, kuidas mõni jama hakkab toimuma. Seal on habemeline lugu. Sõjavägi palus arendada algoritmi, kus seda saab analüüsida, on pildil paak või mitte. Teadlased tegid, testiti, kvaliteet on suurepärane, kõik on suur, andis sõjavägi. Sõjavägi ja öelda, et midagi töötab. Teadlased hakkavad närviliselt mõistma. Selgub, et kõigis paagiga piltidel, mis oli sõjavägi esitatud, kinnitati käepideme nurgas kontrollmärk. Algoritm õppis veatult, et leida märk, et ta ei teadnud paagist midagi. Loomulikult puudus uusi pilte puugid.

Kohtasin lapsi, kes arendavad oma dialoogi süsteeme. Sa ei arvanud, et juba lastega on vaja koostööd teha?

Ma olen sõitnud üsna pikka aega igasuguste koolilapsi sündmuste jaoks, lugesin loenguid masinaõppe kohta. Ja muide, üks neist õpetasid mulle Tint-Graderile rääkima. Ma olin absoluutselt kindel, et minu lugu oleks hea ja huvitav, uhked, hakkasid edastama ja tüdruk on see: "Ja me tahame seda asja minimeerida." Ma vaatan ja mõtlen, aga tõesti, miks ja tõde saab minimeerida ja siin ei ole midagi tõestada. Juba mitu aastat juba möödunud, nüüd on meie loengud õpilasena "Fiztech". Yandex, muide, on Yandex.lith, kus koolilapsed saavad tasuta põhiteadmisi programmeerimisest.

- Nõuanded ülikoolid ja teaduskonnad, kus masinõpet on nüüd õpetatud.

Seal on miton, fivt ja fPAMi teaduskonnad. Isegi "Tower" on suurepärane arvutiteaduste teaduskond Moskva Riiklikus Ülikoolis ICD-s on masinaõpe. Noh, ja nüüd saate kuulata meie kursust Rudnis.

Nagu ma ütlesin, on see elukutse nõudmisel. Väga pikk, inimesed, kes said tehnilist haridust, tegelesid täiesti erinevates küsimustes. Masinaõpe on suurepärane näide, kui kõik asjad, mida inimesed on õpetanud tehnilise haridusega, on vajalikud praegu, kasulikud ja hästi tasustatud.

- Kui hea?

Nimetage summa.

- 500 tuhat kuus.

Te saate, lihtsalt ei ole tavaline andmete teadlane. Kuid mõnedes ettevõtetes võib üsna praktikant tuhande 50 lihtsa töö jaoks saada väga suur hajumine. Üldiselt võib järskude andmete teadlase palka võrrelda mõne keskmise suurusega äriühingu palgaastmelise direktoriga. Paljudes ettevõtetes, lisaks palgale, on töötajale veel palju kukistusi ja kui see on näha, et isik ei ole tulnud hea kaubamärgi jätkamiseks, kuid see on tõesti hea.

Peaaegu aasta möödunud hetkest ebatavalise elemendi algas FIVTT - uuendusliku töökoja. Selle olemus on kogenud mentorite juhendamisel IT käivitamise üliõpilaste meeskondade loomine. See osutus hästi: tänu kursusele veerus keegi osa suvest Crem-orus, keegi sai projekti projekti arendamiseks 800 000 rubla toetuse, keegi ABBYY on valmis projekti täielikult lunastama. Ja see ei ole kõik seminari tulemused!

2011. aasta alguses koguti FVTT Trekchersnikov assambleelas ja teatas: järgmise aasta jooksul peate looma oma käivitamise. Õpilased võtsid selle idee otsetee: see ei olnud selge, kuidas seda üldse teha ja vastutus on ebatavaline - see oli veel vaja teha tehnoloogilist äri ja mitte teist haridusprojekti. See on see, mida võitja üliõpilaste olümpiaadis MFTI füüsika mõtleb, õpilane osakonna "Yandesca" Viktor Kantor:

Kui kui ma sain, ma valisin Fvt, ma lootsin, et meil oleks midagi sarnast. Nii et ma olen rõõmus, et ma lootsin mitte asjata. Aasta jooksul oli tundnud, et kursus on endiselt moodustatud, palju uusi asju, palju küsimusi osutuvad vastuoluliseks mitte ainult õpilastele, vaid ka korraldajatele, kuid üldiselt, ma arvan, et suundumused on positiivsed. Mulle meeldis see kursus.

Õpilaste töö hõlbustamiseks kutsuti erinevaid kuraatorid, kes tegi ettepaneku oma ideede uuenduslike ettevõtete loomiseks. Nende hulgas olid täiesti erinevad inimesed: alates Star'shekurovist ja Graduate õpilastest MFTI Ernst & Young'i nõustajale Juri Pavlovichi ammosovi uuendustest (ta oli kogu kursuse juht) ja Mihhail Batina, mis tegeleb regeneratiivse meditsiini ja elu laiendamise küsimused. Selle tulemusena valisid Fiztechs kõige huvitavamad ideed, meeskondade külge kinnitatud kuraatorid ja tõsised, kuid põnev töö algas.

Peaaegu aasta, poisid silmitsi paljude probleemidega, millest mõned õnnestus lahendada. Nüüd saate oma tulemusi hinnata - hoolimata raskustest, poisid kopeerisid. MFTI üliõpilased (lisaks FIVTOSile, mõned FOPFA üliõpilased ja muud teaduskonnad ühendati protsessiga), et valmistada ette mitmeid üsna huvitavaid ja elujõulisi projekte:

Aderoid (varem küsida droid) - otsida nutitelefonid ( Anastasia Uryashev)

Android App, mis võimaldab teil mugavalt otsida suur hulk otsingumootoreid. Mõned eksperdid on näidanud huvi arengu vastu ning Anastasia tulemusena veedeti kõik varasemad suvel ühes Silicon Valley ühe kuulsamatest inkubaatoridest - Plug & Play. Tehnoloogilise ettevõtluse põhialuste uurimine ja rahvusvaheliste riskiekspertidega rääkimine.

1 minute.ru - üks minut hea (Lev Moragan)

See projekt võimaldab kellelegi lihtsalt kiiresti ja täiesti vabalt vabastada heategevuses. Mudel on lihtne: reklaamijad pakuvad saidil mõningaid tegevusi, kasutajad vabatahtlikult osalevad, kõik reklaami raha on loetletud heategevusfondiga. Nädal pärast käivitamist koguti projekt rohkem kui 6500 kasutajat ja ei kavatse seal peatuda. Selle tulemusena tänu Lev ja tema meeskond, 600 last lastekodustused saavad hinnad kingitusi Santa Claus uue aasta jooksul. Oled sa juba ühe minuti jooksul heaks kiitnud?!

Sisseehitatud töölaua - arvuti telefoni (Alexey Vukolov)

Rakendus, mis võimaldab ühendada ühel juhul. Arvuti võimeid ja telefoni liikuvus on äärmiselt kasulik toode hõivatud inimestele, kes on sageli ärireisidel. See on piisav selleks, et installida seda nutitelefoni ja kasutaja saab "saada" oma arvutiga igas hotelli juures, kontoris ja tõepoolest, kuhu saab leida monitori (ka televiisor on sobiv), klaviatuur ja hiir. Projekt sai toetuse idee arendamiseks ja esitati tehnoloogia tassi näitusel ja meeskond ostis juba aktiivselt saadud raha eest aktiivselt. American MIP-i protsessorite tootja on arengust äärmiselt huvitatud.

Smart Tagger - semantiline otsing dokumentide poolt (Victor Kantor)

Mis siis, kui sa mäletad, et kusagil postkastis on väga oluline kiri, mis rääkis viimasest suurest Bang Theory seeriast, kuid samal ajal te ei mäleta tekstist märksõnu? Otsi Yandexi ja Google on jõuetu. Smart Tagger rakendatakse päästmiseks - "Smart" programm semantilise otsingu abil annab teile kõik tekstid, mille tähendus on põimunud populaarse telesarjaga. Projekt võitis toetuse U.M.N.I.K konkursil. Kogusumma 400 000 rubla!

Mathocrin - valemiga tuvastamine (Victor Pruun)

ABBYY pakkus huvitavat ülesannet rakendada - luua programm, mis tunnustab mis tahes keerukuse matemaatilisi valemeid. Festa üliõpilased, kes on huvitatud FOPPH-dega koostööd, täitnud ülesanne - moodul tunnustab tõesti Mathani või füüsika õpikutest skaneeritud valemeid. Tulemus: ABBYY on valmis ostma palju toote suurt raha.

Artiklid teemal:

IP Ulanova organisatsiooni struktuuri analüüs a Ekvatoriaal-Guinea geoloogiline struktuur ja nafta- ja gaasipotentsiaal Inimeste elupaikade üldine omadus Foneetiliste (kuulmistundlike) oskuste moodustamine: seadistamine, korrigeerimine, parandamise viis, kuidas parandada hääldusoskusi keskel Kolmnurga Bokeh Kindria-puksiiri bauksiidi hoiuste moodustamise tingimused, pouksiidi hoiused geokeemilised depomogeensus ja uurimisvõrgu parameetrite optimeerimine (Guinea)

Uus: