Sztuczny wzrok

Tworząc pojęcie sztucznej inteligencji (SI), naukowcy zamierzali wynaleźć cyfrowy byt, który naśladowałby sposób myślenia człowieka. Ponieważ ludzie funkcjonują w otoczeniu korzystając z pięciu zmysłów, w takowe również powinna być docelowo wyposażona uniwersalna SI. Kluczową rolę w wykonywaniu przez nas wielu czynności odgrywa wzrok, stąd naturalne dążenie do obdarzenia maszyn widzeniem.

W 1966 roku naukowcy z MIT rozpoczęli realizację programu „The Summer Vision Project”, podczas którego zamierzali stworzyć system komputerowy zdolny do identyfikacji wizualnej obiektów. W rzeczywistości ten wakacyjny projekt przedłużył się aż do roku 2010, gdy pojawiły się wreszcie na rynku dostatecznie tanie i niezawodne detektory obrazu. Również postęp w dziedzinie uczenia maszynowego i neuronauki spowodował, że współcześnie możemy mówić o konkretnych sukcesach w przetwarzaniu i rozpoznawaniu danych wizualnych.

Fundamentalnym wyzwaniem dla badaczy są różnice w widzeniu biologicznym i cyfrowym. Nasz wzrok jest efektem milionów lat ewolucji, ciągłego doskonalenia realizowanych funkcji oraz dostosowania do zmian otoczenia i potrzeb. Trudno jest podważać sposób jego działania, bo innego nie znamy. Możemy za to uczyć się na podstawie tego, jak biologia radzi sobie z problemami związanymi z widzeniem i wykorzystywać te rozwiązania jako inspirację do tworzenia lepszych algorytmów cyfrowych. Niezbędne było (i jest nadal) stworzenie teorii widzenia pozwalającej zaimplementować widzenie w komputerach w sposób porównywalny z żywymi istotami. Ta teoria musi być specyficznie szczegółowa, aby nie być ani abstrakcją, ani kopią rozwiązania biologicznego. Stworzenie sztucznego biologicznego oka jest wyzwaniem ponad ludzkie możliwości, a samo naśladowanie działania ludzkiego wzroku na podstawie doświadczeń z obserwacji to zdecydowanie za mało.

Pozostaje wykorzystanie sztucznych sieci neuronowych i ich żmudne uczenie. W sukurs badaczom przyszły tzw. konwolucyjne, czyli splecione sieci neuronowe. Operują one na warstwach, dzięki którym obraz jest dzielony na różne elementy funkcjonalne (cechy), upraszczany tam, gdzie jest to możliwe, a wynik analizy stanowi złożenie wyników wnioskowań cząstkowych. Takie podejście zdecydowanie zwiększyło jakość dokonywanych analiz wizyjnych, co nastąpiło w 2012 roku. Od tego czasu neuronowe sieci konwolucyjne triumfują na rynku, choć nadal do pełnego sukcesu jest dość daleko. Potrzebujemy bowiem więcej wyników badań przetwarzania sygnałów w sześciu warstwach kory mózgowej, w tym w obrębie poszczególnych warstw, pomiędzy nimi oraz tzw. impulsów wstecznych (sprzężeń zwrotnych). To, co dotychczas osiągnęliśmy można porównać do jakości zdjęć z początków fotografii cyfrowej i zestawić je z możliwościami współczesnych aparatów.

Poza tym nasz wzrok jest zmysłem bardzo uniwersalnym, a sieci neuronowe są wysoce specjalistyczne. Patrząc na obraz rejestrowany przez wzrok, jesteśmy w stanie odpowiedzieć na mnóstwo pytań z nim związanych, a SI tego nie potrafi, bo nie ma algorytmu uniwersalnego, działającego z akceptowalną szybkością. Analizując sygnały wzrokowe, podświadomie uzupełniamy je o elementy dotyku, węchu czy słuchu. Komputer tego też nie potrafi.

Przed naukowcami jest długa droga. Współczesne systemy wizyjne potrafią coraz lepiej interpretować ruchome obrazy. Bardziej skomplikowaną sprawą jest jednak integracja widzenia ze złożonymi obszarami mózgu. U ludzi widzenie jest głęboko zintegrowane z innymi funkcjami mózgu, takimi jak logika, rozumowanie, język i wiedza zdroworozsądkowa. Stąd komputer nie jest w stanie zinterpretować np. obrazów o charakterze komicznym (chociażby popularnych memów) czy nieudanych zdjęć. Pojęcia związane z emocjami, etyką, zdrowym rozsądkiem, wieloznacznością są dla komputerów całkowicie obce. Naukowcy dziś jeszcze nie znają odpowiedzi, kiedy i jak uda się powyższe elementy zintegrować z analizą obrazu. W ciągu najbliższych lat z całą pewnością będą podejmowane ogromne wysiłki, aby dokonać przełomowych odkryć, które umożliwią komputerom swobodniejszą interakcję z ludźmi, co pozwoli na pewne i skuteczne wsparcie człowieka w realizacji coraz większej liczby zadań.

Krzysztof Hajdrowski

Czytaj dalej