W pracy omówiono najważniejsze metody, za pomocą których można ocenić stratę informacji spowodowaną przeprowadzaniem kontroli ujawniania danych (ang. statistical disclosure control, SDC). Kontrola ta ma na celu ochronę przed identyfikacją jednostki i dotarciem do dotyczących jej wrażliwych informacji przez osoby nieupoważnione. Zastosowanie metod zarówno opartych na ukrywaniu określonych danych, jak i prowadzących do ich zniekształcania powoduje stratę informacji, która ma wpływ na jakość danych wynikowych, w tym rozkładów zmiennych, kształt ich związków oraz estymacji. Celem artykułu jest krytyczna analiza mocnych i słabych stron metod oceny straty informacji na skutek zastosowania SDC. Przedstawiono również nowatorskie propozycje prowadzące do uzyskania efektywnych i dobrze interpretowalnych mierników, m.in. nową możliwość wykorzystania funkcji cyklometrycznej (arcus tangens) do wyznaczenia odchylenia wartości od tych oryginalnych po przeprowadzeniu SDC. Ponadto zastosowano odwróconą macierz korelacji do oceny wpływu SDC na siłę związków między zmiennymi. Pierwsza z przedstawionych metod umożliwia uzyskanie efektywnych i dobrze interpretowalnych mierników, druga – maksymalne wykorzystanie wzajemnych powiązań między zmiennymi (także tych trudno uchwytnych za pomocą klasycznych metod statystycznych) w celu lepszej analizy skutków kontroli w tym zakresie.
Empiryczna weryfikacja użyteczności sugerowanych metod potwierdziła m.in. przewagę funkcji cyklometrycznej w pomiarze odległości w zakresie uwypuklania odchyleń od danych oryginalnych, a także potrzebę umiejętnej korekcji jej spłaszczenia przy dużej wartości argumentów.
kontrola ujawniania danych, SDC, strata informacji, funkcja cyklometryczna, odwrócona macierz korelacji
C19, C63, C80, D82
Antal, L. (2016). Statistical Disclosure Control for Frequency Tables [Rozprawa doktorska, University of Manchester]. Pobrane z: https://www.research.manchester.ac.uk/portal/files/54587025/FULL_TEXT.PDF .
Biemer, P. P., de Leeuw, E., Eckman, S., Edwards, B., Kreuter, F., Lyberg, L. E., Tucker, N. C., West, B. T. (2017). Total Survey Error in Practice. Hoboken: John Wiley & Sons.
Box, G. E., Cox, D. R. (1964). An analysis of transformations. Journal of the Royal Statistical Society. Series B (Methodological), (26), 211–252.
Domingo-Ferrer, J., Mateo-Sanz, J. M., Torra, V. (2001). Comparing SDC methods for microdata on the basis of information loss and disclosure risk. Pre-proceedings of ETK-NTTS (Exchange of Technology and Know-how – New Techniques and Technologies for Statistics), (2), 807–826. Pobrane z: http://neon.vb.cbs.nl/casc/NTTSJosep.pdf
Hundepool, A., Domingo-Ferrer, J., Franconi, L., Giessing, S., Nordholt, E. S., Spicer, K., de Wolf, P.-P. (2012). Statistical Disclosure Control. Chichester: John Wiley & Sons.
Mateo-Sanz, J. M., Domingo-Ferrer, J. (1998). A Comparative Study of Microaggregation Methods. Qüestiió, 22(3), 511–526. Pobrane z: https://upcommons.upc.edu/bitstream/handle/2099/4090/article.pdf
Młodak, A. (2019). Wykorzystanie miernika kompleksowego w ocenie straty informacji na skutek kontroli ujawniania mikrodanych. Przegląd Statystyczny, 66(1), 7–26.
Shlomo, N., Young, C. (2006). Information loss measures for frequency tables. Monographs of official statistics, Work session on statistical data confidentiality, Geneva, 9–11 November 2005 (s. 277–289). Luxembourg: Office for Official Publications of the European Communities.