Logo for Informationsportalen

Logo for Danmarks Biblioteksskoles Bibliotek
     
     
 BDI-faglige emner  
 Biblioteksdrift
 Bog og blad
 Faget og fremtiden
 Historisk BDI
 Kataloger
 Struktur
 BDI vejviser
 Web
  
  Andre emner
    Erhvervsliv  
    Humaniora  
    Naturvidenskab  
    Reference  
    Samfundsvidenskab  
    Sundhedsvidenskab  
    Teknologi  

 



Lokal
Web
   Sitemap
 

Data mining i New York Times

Forsøg med maskinanalyse
 
Et hold af forskere fra University of California-Irvine er gået i gang med at udsætte artiklerne i New York Times for data mining – eller rettere text mining. Idéen var at lade software analysere teksten for at se, hvilke resultater en maskinel analyse vil give i forhold til at sammenkoble begreber og skabe relationer mellem ord. Resultatet er meget lovende.

Softwaren har analyseret teksten i New York Times fra 2000-2002 for at finde mønstre. Denne proces af mønstergenkendelse lærer maskinen ordenes slægtskab eksempelvis "rider," "bike," "race," "Jan Ullrich" og "Lance Armstrong" – som alle hører til Tour de France. Resultatet bliver, at maskinen kan bruge dette mønster til at ’forstå’ andre artikler, som den ikke har analyseret før og knytte dem sammen med relevante emneord. Den nye teknik kaldes "topic modeling".

Tidligere forsøg på noget tilsvarende har skullet involvere menneskeligt input, men det nye er, at det ikke er nødvendigt med den nye teknik.

Forsøget viser, at analysesoftware snart kan anvendes i genfindingssystemer, der kan forstå, hvad folk mener – ikke hvad de siger.
  Emerging technology trends
  http://blogs.zdnet.com/emergingtech/?p=304
  Ars technica: Mining the New York Times with machines
  http://arstechnica.com/news.ars/post/20060802-7408.html
KMA
 
Redigeret 04-08-2006


Til top Forrige side    Næste side Tip en ven