Numer: 01b/2012 Str. 26
Autorzy: Lejiang Guo , Wei Wang , Fangxin Chen , Xiao Tang , Weijiang Wang :
Tytuł: Metoda detekcji podwójnych danych bazująca na rozmytym klastrowaniu
Streszczenie: Artykuł proponuje nowe metody czyszczenia danych z uwzględnieniem liczby przypadków, wielu źródeł, podwójnych rekordów i innych kryteriów oceny. Ulepszona metoda detekcji wykorzystuje algorytm rozmytego klastrowania w dystansem Levenshteina. W ten sposób szybko wykrywane są i usuwane podwójne wiersze danych.
Słowa kluczowe: czyszczenie danych, rozmyte klastrowanie.