|
| |
| |
Data mining i New York Times |
| Forsøg med maskinanalyse |
| |
Et hold af forskere fra University of California-Irvine er gået i gang med at udsætte artiklerne i New York Times for data mining – eller rettere text mining. Idéen var at lade software analysere teksten for at se, hvilke resultater en maskinel analyse vil give i forhold til at sammenkoble begreber og skabe relationer mellem ord. Resultatet er meget lovende.
Softwaren har analyseret teksten i New York Times fra 2000-2002 for at finde mønstre. Denne proces af mønstergenkendelse lærer maskinen ordenes slægtskab eksempelvis "rider," "bike," "race," "Jan Ullrich" og "Lance Armstrong" – som alle hører til Tour de France. Resultatet bliver, at maskinen kan bruge dette mønster til at ’forstå’ andre artikler, som den ikke har analyseret før og knytte dem sammen med relevante emneord. Den nye teknik kaldes "topic modeling".
Tidligere forsøg på noget tilsvarende har skullet involvere menneskeligt input, men det nye er, at det ikke er nødvendigt med den nye teknik.
Forsøget viser, at analysesoftware snart kan anvendes i genfindingssystemer, der kan forstå, hvad folk mener – ikke hvad de siger. |
Emerging technology trends
http://blogs.zdnet.com/emergingtech/?p=304
|
Ars technica: Mining the New York Times with machines
http://arstechnica.com/news.ars/post/20060802-7408.html
|
| KMA |
| |
| Redigeret 04-08-2006 |
|