Analiza powiązań – fuzzy matching

Michał Rączy
Michał Rączy Doświadczony Menedżer
kontakt

Jednym z kluczowych narzędzi w przyborniku audytora śledczego są metody analizy danych. Dzisiaj opiszemy technikę analityczną szczególnie przydatną w przypadku identyfikowania przypadków konfliktu interesów. Logika rozmyta ang. fuzzy matching jest wykorzystywana do wyszukiwania ciągów znaków, które są do siebie podobne.

Załóżmy, że chcemy sprawdzić czy występuje konflikt interesów pomiędzy pracownikami oraz dostawcami firmy X. Przez konflikt interesów rozumiemy sytuację, kiedy prywatny interes pracownika stoi w sprzeczności z interesem pracodawcy. Często kończy się to wymiernymi stratami finansowymi dla pracodawcy. Na przykład jeden z pracowników, który ma prawo zlecać usługi marketingowo reklamowe jest powiązany z firmą C, do której kieruje większość zleceń.

Do wykrycia takiej sytuacji możemy wykorzystać fuzzy matching porównując jednocześnie dane o wszystkich dostawcach oraz pracownikach. W Firmie X mamy 12 000 dostawców oraz 500 pracowników. Dostępne do analizy dane to na przykład nazwy dostawców, nazwiska, numery identyfikacyjne (NIP, REGON, PESEL) oraz adresy. Dodatkowo możemy wykorzystać bazy zewnętrzne – KRS z prawie pół milionem wpisów oraz bazę CEiDG z ponad czterema milionami wpisów. Jeżeli pracownicy są powiązani z dostawcami osobowo lub kapitałowo, możemy to zidentyfikować łącząc powyższe źródła danych patrząc między innymi na:

– zbieżność nazw firm z nazwiskami pracowników,

– podobieństwo adresów zamieszkania, korespondencyjnych, siedzib firm.

Do ich porównania wykorzystujemy fuzzy matching. Najprostszy algorytm to odległość Levenshteina. Odległość w tym przypadku odnosi się do tego jak bardzo dwa ciągi znaków różnią się miedzy sobą, czyli do określenia liczby znaków, jaką trzeba zmienić w jednym ciągu, aby uzyskać drugi. Porównajmy wyrazy „gazeta” oraz „gazet”. Odległość wynosi 1 ponieważ dodając literę „a” do wyrazu „gazet” otrzymamy „gazeta”.

Dla ulic „Osiedle XXX lecia PRL 654” oraz „Osiedle Trzydziestolecia PLR 654” możemy wykorzystać miarę odległości osobno dla każdego ciągu znaków. Dwa ciągi są w pełni zgodne („Osiedle” oraz „654”), jeden ciąg ma odległość 2 („PLR” oraz „PRL”), jednak składa się z takich samych liter, jeden ciąg jest niezgodny (‘XXX’ oraz ‘Trzydziestolecia’). Automatyzując powyższą logikę i agregując uzyskane informacje możemy otrzymać jedną liczbę, która opisze procentowo podobieństwo pomiędzy nazwami ulic.

Jak wygląda produkt końcowy takiej analizy? Poniższa grafika prezentuje przykłady porównania w oparciu o adres oraz nazwę.

Audytor śledczy na podstawie takiego wyniku może przystąpić do weryfikacji podejrzenia konfliktu interesów i sprawdzić czy powoduje on straty w firmie. W rezultacie można przerwać szkodliwy proceder.

Powiązane wpisy


Jedna odpowiedź do: “Analiza powiązań – fuzzy matching”

Napisz komentarz

XHTML: Możesz użyć tagów: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>