Данните, с които системите за изкуствен интелект се обучават, включват огромни количества снимки и текстове от интернет. В този голям информационен масив се съдържат и личните данни на много хора. АРД публикува разследване на германски журналисти, което разкрива, че този процес представлява проблем за защитата на личните данни.
Германската обществено-правна телевизия дава за пример казус с гола снимка на холандец, която може да се открие в интернет. Описанието ѝ съдържа името и фамилията на човека, както и географските координати на мястото, където тя е била направена. Ако някой потърси с тази информация въпросния човек в интернет, той много бързо може да бъде намерен.
И това не е изолиран случай, подчертава АРД. При анализ на вероятно най-голямата в света база данни за обучение на изкуствен интелект, генериращ изображения, журналисти от "Байеришер Рундфунк" са открили огромно количество информация, с която могат да бъдат идентифицирани конкретни хора.
Още: Експерти: Чатботове са обречени вечно да съчиняват лъжи
Базата данни включва изображения на лица и имена, географски координати или имейли и дори номера на банкови сметки. LAION5B, акроним от "Large-scale Artificial Intelligence Open Network" (от англ.: мащабна отворена мрежа на изкуствен интелект), се състои от 5 млрд. интернет връзки към изображения и техните описания. Това е единствената подобна база данни, използвана за обучение на системи, използващи изкуствен интелект, която е публично достъпна.
Проблемните лични данни вече са в масивите за обучение
Данните, използвани за обучение на изкуствения интелект, осигуряват суровия метериал за системите, които на свой ред после трябва да генерират нови текстове и изображения. Милиони хора по света ги използват в момента - това са т. нар. генератори на изображения като Stable Diffusion, Midjourney, Dall-e от OpenAI и други. Потребителите описват с кратки текстове какъв мотив желаят да присъства в поръчаното от тях изображение. След това програмите използват данните, с които са били обучени, за да създадат новото изображение.
В края на юни тази година анонимна група подаде в САЩ съдебен иск срещу компанията OpenAI, чийто продукт е и чатботът ChatGPT, посочва АРД. Ищците обвиняват компанията в масови нарушения на неприкосновеността на личния живот, наред с други обвинения към нея.
Още: Иновация или опасност: Сливат човешки мозъчни клетки с изкуствен интелект
Рисковете, свързани с EXIF данните
Т.нар. EXIF (Exchangeable Image File Format - от англ. "обменяем файлов формат на изображения) метаданни обозначават информацията, събирана във файловета на изображенията. Записват се времето, в което е била направена снимката, модела камера, а понякога и точното местоположение.
Анализът на немскоезичната секция на базата данни LAION е разчел успешно точната локация на 310 000 изображения. Освен при липса на основателни аргументи за обратното, подобни данни винаги трябва да се премахват при споделяне на файловете, смята Германската федерална служба за информационна сигурност.
Експерт по защита на данните: "Силно проблематично"
Според Айке Клайнфелд, който работи за комисаря по защита на личните данните в Хамбург, масовото разпространение на информация за местоположението чрез метаданните представлява проблем, ако е чувствителна информация, която позволява да се правят заключения за конкретни физически лица.
Още: Защо изкуственият интелект няма да замени шпионите
Съоснователят на LAION Кристоф Шуман казва, че сега разбират за проблема. LAION представлява доброволческо сдружение на хора от Европа и Северна Америка, които се борят за демократизация на изкуствения интелект. Шуман разказва какви са причините за създаването на организацията: "Основахме LAION от ентусиазъм към изкуствения интелект и от желание да го видим демократизиран. А не в крайна сметка да останат само 2 или 3 големи компании."
Радикалната прозрачност отличава LAION от конкуренти като Microsoft, Google, Midjourney и OpenAI. Четирите компании не са отговорили на въпроси на АРД за начина, по който събират и използват данните за обучението на изкуствените интелекти, които разработват. Ако журналисти и учени искат да проучат как функционират популярни генератори на изображения, използващи изкуствен интелект, в момента инструментите на LAION са единствената възможност за това.
Европейското законодателство и масивите за обучение
Брюксел предвижда да въведе в предстоящото си законодателство за изкуствения интелект по-голяма прозрачност за информационните масиви, които са били използвани при обучение на системите. Все още обаче не е ясно как ще изглеждат бъдещите регулации на ЕС.
Още: БСК: Всяка четвърта фирма у нас използва изкуствен интелект
Преговорите по темата продължават, информира АРД. Правилата трябва да бъдат приети до края на годината и да влязат в сила през 2025 година.
Източник: Дойче веле
Още: Люта надпревара в изкуствения интелект: Илон Мъск стартира компанията си xAI
"Тренд": 45% от българите се страхуват, че ИИ ще доведе до загуба на работни места