Masjienleer
Masjienleer laat die rekenaar leer deur data en statistiek te bestudeer.
Masjienleer is 'n stap in die rigting van kunsmatige intelligensie (KI).
Masjienleer is 'n program wat data ontleed en leer om die uitkoms te voorspel.
Waar om te begin?
In hierdie tutoriaal gaan ons terug na wiskunde en studiestatistieke, en hoe om belangrike getalle te bereken gebaseer op datastelle.
Ons sal ook leer hoe om verskeie Python-modules te gebruik om die antwoorde te kry wat ons nodig het.
En ons sal leer hoe om funksies te maak wat die uitkoms kan voorspel op grond van wat ons geleer het.
Datastel
In die gedagtes van 'n rekenaar is 'n datastel enige versameling data. Dit kan enigiets van 'n skikking tot 'n volledige databasis wees.
Voorbeeld van 'n skikking:
[99,86,87,88,111,86,103,87,94,78,77,85,86]
Voorbeeld van 'n databasis:
Karnaam | Kleur | Ouderdom | Spoed | AutoPass |
BMW | rooi | 5 | 99 | Y |
Volvo | swart | 7 | 86 | Y |
VW | grys | 8 | 87 | N |
VW | wit | 7 | 88 | Y |
Ford | wit | 2 | 111 | Y |
VW | wit | 17 | 86 | Y |
Tesla | rooi | 2 | 103 | Y |
BMW | swart | 9 | 87 | Y |
Volvo | grys | 4 | 94 | N |
Ford | wit | 11 | 78 | N |
Toyota | grys | 12 | 77 | N |
VW | wit | 9 | 85 | N |
Toyota | blou | 6 | 86 | Y |
Deur na die skikking te kyk, kan ons raai dat die gemiddelde waarde waarskynlik rondom 80 of 90 is, en ons kan ook die hoogste waarde en die laagste waarde bepaal, maar wat anders kan ons doen?
En deur na die databasis te kyk, kan ons sien dat die gewildste kleur wit is, en die oudste motor is 17 jaar, maar wat as ons kan voorspel of 'n motor 'n AutoPass het, net deur na die ander waardes te kyk?
Dit is waarvoor Masjienleer is! Ontleed data en voorspel die uitkoms!
In Masjienleer is dit algemeen om met baie groot datastelle te werk. In hierdie tutoriaal sal ons probeer om dit so maklik moontlik te maak om die verskillende konsepte van masjienleer te verstaan, en ons sal met klein maklik verstaanbare datastelle werk.
Datatipes
Om data te ontleed, is dit belangrik om te weet met watter tipe data ons te doen het.
Ons kan die datatipes in drie hoofkategorieë verdeel:
- Numeries
- Kategories
- Ordinaal
Numeriese data is getalle en kan in twee numeriese kategorieë verdeel word:
- Diskrete Data
- getalle wat beperk is tot heelgetalle. Voorbeeld: Die aantal motors wat verbyry. - Deurlopende data
- getalle wat van oneindige waarde is. Voorbeeld: Die prys van 'n item, of die grootte van 'n item
Kategoriese data is waardes wat nie aan mekaar gemeet kan word nie. Voorbeeld: 'n kleurwaarde, of enige ja/nee-waardes.
Ordinale data is soos kategoriese data, maar kan aan mekaar gemeet word. Voorbeeld: skoolgrade waar A beter is as B ensovoorts.
Deur die datatipe van jou databron te ken, sal jy kan weet watter tegniek om te gebruik wanneer jy dit ontleed.
Jy sal in die volgende hoofstukke meer leer oor statistiek en die ontleding van data.