Skocz do zawartości

Głębia 3D z pojedynczej fotografii - abstrakt naukowy


adek

Rekomendowane odpowiedzi

  • Odpowiedzi 30
  • Created
  • Ostatniej odpowiedzi

Top Posters In This Topic

Top Posters In This Topic

Ne wiem czemu kazdy probuje wynalezc kolo uzywajac cyklopa. Nawet czlowiek z jednym okiem nie poradzi sobie z prostym zadaniem zlapania kubka, nie mowiac o lecacej do niego pilce. Faktycznie mega sposob na wydawanie funduszy na research.

Odnośnik do komentarza
Udostępnij na innych stronach

Bliska mi osoba zyle od lat z jednym okiem i widzialem jakim problemem dla niej byla przestrzen, czy chocby zlapanie kubka z herbata, ziomka o ktorym mowisz nie znam, ale na pewno jego przyklad to dobry powod by wydawac miliony na research niz dokupic druga kamera za 10 dolarow.

 

Zeby nie bylo, ze sie wymadrzam bez powodu. Mialem okazje w przeszlosci rozmawiac z dwoma teamami inzynierow desperacko budujacymi systemy rozpoznawania przestrzeni przez cyklopy. Oczywiscie oba przypadki to pelne faile bez wzgledu na moc obliczeniowa i fundusz wyplute na to. Takie podejscie sprawi - sprawia - ze w systemach odpowiedzialnych za wazne decyzje np. Kontrola ruchu, nadzor implementuje sie rozwiazania obierajace sie na zawilym i bardzo zawodnym algorytmie zamiast dodac drugie oko i wymienic algorytm na dziecinnie prosty, ktory latwo walidowac i usprawniac.

 

Tyle, ale naukowcy sa od przepalania budzetow.

Edytowane przez olaf
Odnośnik do komentarza
Udostępnij na innych stronach

Zaslon sobie jedno oko i idz grac w squasha

 

- - - Połączono posty - - -

 

Ta bliska mi osoba, do momentu kiedy mi nie powiedziala ze ma takie problemu nie zauwazalem tego nawet - ale jak wiesz, to potrafisz wylapac w jakich sytuacjach brak stereoskopii zawodzi.

Odnośnik do komentarza
Udostępnij na innych stronach

Jedno oko + ruch, to nie to samo co jedno oko i still. Nasz mozg po prostu matchuje te dane zastepujac stereoskopie. Gdyby jednak mialo to dzialac tak jak uwazasz, drapieznikom nie bylaby potrzebna stereoskopia.

Druga sprawa. Jakby bylo inaczej to dzieci mieszkajace w duzych miastach nie stalyby sie fenomenem dla naukowcow jako nie potrafiace rozpoznawac bardziej zlozonej glebi - zwyczajnie nie rozumialy czym jest horyzont i nie rozumialy tego co widza - nie wiedzialy, ze obiekty w oddali to np. Budynki. Zbyt wiele lezy w rozwinietym mozgu, ktory potrafi posilkowac sie tymi danymi, by ekstrapolowac wrazenia.

Teraz sobie wypbraz, ze zamiast glupiej kamerki oni beda siedziec i jesc paczki dywagujac nad tym jak komputer ma rozumiec ze chodnik z reguly ma 10-20cm...

Odnośnik do komentarza
Udostępnij na innych stronach

Olaf, nie zgodze się. Zakryj oko i zerknij za okno. To nie para oczu a mozg odpowiada za percepcje przestrzeni i tego jak postrzegamy swiat. Tak jak mowil Monio, para oczu to dodatek a nie wymog widzenia swiata przestrzennie. Gdyby było tak jak mówisz, to osoby które utracily wzrok w jednym oku lub takie się urodzily, nie potrafily by okreslic odleglosci przedmiotow w przestrzeni.

Odnośnik do komentarza
Udostępnij na innych stronach

Ale wlasnie o tym mowie, badali dzieci ktore mieszkaly wsrod wierzowcow i mozg nie wyksztalcil zdolnosci percepcji perspektywy i dzieci nie rozumialy, ze male obiekty ktore widza, to oddalone budynki normalnej wielkosci. Pogadal bym sobie o tym, ale porownujecie rozwiniety mozg, ktory potrafi sobie zastpic wiele rzeczy poprzednimi wrazeniami do algorytmu, ktoremu trzebaby napisac funkcje kognitywne, bo ktos uznal, ze dolozenie drugiej czy nawet trzeciej kamery to zla droga. Ok jezeli uwazaja ze latwiej zbudowac mozg niz dodac kamerke, niech walcza tylko takie bardzo zawodne algorytmy podlaczaja do samochodow i sie dziwia czemy autko sie przed kukla nie zatrzymalo po poludniu jak do 10 rano na tym samym parkingu sobie radzil... Tylko tyle. Nie chce niczego udowadniac, moja prywatna opinia, ze to wymyslanie kola.

Odnośnik do komentarza
Udostępnij na innych stronach

Olaf jak zwykle specjalista od wszystkiego hehe...

 

Człowieku zasłoń jedno oko i popatrz na viewport. Póki obraz w nim jest nieruchomy mózg nie wie co jest dalej a co bliżej. Ale wystarczy nim poruszyć, a mózg na podstawie wzajemnego przesunięcia elementów (paralaksy) od razu tworzy obraz przestrzenny.

 

Powiem nawet więcej. Mózg ma pewien problem oglądając obraz 3d (ruch z paralaksą) na płaskim ekranie (wie że jest płaski poprzez stereoskopie) - zwyczajnie ma dwa przeciwstawne sygnały. Dlatego znacznie realistyczniej wygląda 3d (ruch z paralaksą) na monitorze przy zasłoniętym jednym oku. Polecam to sprawdzić każdemu np. w jakiejś grze FPS itp.

 

Nie wiem z jakimi specjalistami Olaf rozmawiałeś ale efekt paralaksy jest od dawna wykorzystywany np. do pomiarów odległości do najbliższych gwiazd. Więc nie sądzę też żeby jakimś szczególnym problemem bylo napisanie programu, który w czasie rzeczywistym analizuje wzajemny ruch elementów, aby określić do nich odległości, znając przesuniecie detektora.

Odnośnik do komentarza
Udostępnij na innych stronach

Traitor - dokładnie. Jestem po fizyce i jak widze autorytatywne stwierdzenia typu "naukowcy sa od przepalania budżetów" to już wiem że mam do czynienia z osobą, który własne przekonania nie poparte żadnym doświadczeniem stawia ponad naukę. Więcej - nie rozumie na jakiej zasadzie nauka działa i jak sie rozwija, a teza to dla takiego to samo co teoria.

 

I jeszcze te badania dzieci które mieszkały wśród wieżowców i nie wykształciła im sie percepcja perspektywy. Hmm... to ciekawe dlaczego zawsze przy ilustracji do tego pojęcia, jest ulica z wysokimi budynkami ciągnącymi sie aż do horyzontu :D.

Odnośnik do komentarza
Udostępnij na innych stronach

Ok ale paralaksa uwzglednia przesuniecie czyli masz dwa punkty odniesienia lub wiecej, to jakbys mial dwoje oczu, jak jestes po fizyce to chyba tyle potrafisz zrozumiec, oni probuja budowac przestrzen z jednego punktu widzenia i to mi nie pasuje, bo pala budzet na cos co czlowiek rozumie wlasnie z uwagi na rozwoj kognitywny mozgu w poczatkowych latach rozwoju, ktory uzupelnia pozniej dane.

Z ruchomego nie musza, bo masz do tego otwarte biblioteki juz dawno wykonane. I zgadzam sie, ze nie jest to problemem i bedzie dzialalo bardzo dobrze, ale oni siluja sie z czym innym i zwyczajnie nie rozumiem po co.

Jasne, ze jestem specem od wszystkiego, bo w koncu grafik ma zakaz rozwijania wiedzy, ktora wiaze sie z przetwazaniem obrazu i rozwojem percepcji wzgledem wieku. Ta wiedza sie nie przydaje w pracy, a juz na pewno w reklamie i do tego reklamie wizualnej. Najwazniejsze to przez 15lat kariery doskonalic skroty klawiszowe z trzech programow, reszta to juz wymadrzanie sie nikomu nie potrzebne.

Odnośnik do komentarza
Udostępnij na innych stronach

uncle - dobre :D

 

olaf - ja nie wnikam czy ktoś kasę wyrzuca, może znajdzie się ktoś kto użyje chociaż części tego do zrobienia czegoś zupełnie innego. Mają pieniądze, to niech wydają (przynajmniej pieniądze krążą w gospodarce hehe).

Wracając do tego rozwiązania to mimo, że obecnie efekt nie jest powalający, to kto wie czy tego nie dopracują. A użycie tego może być nawet bardzo popularne moim zdaniem. Przykład to TV czy miliony YT-berów, którzy robią filmiki. Przyjmijmy, że dopracują i każdy kto ma kamerkę i się nagrywa nie będzie musiał się bawić więcej w greenscreeny. Będzie wystarczyło przesunąć regulację, żeby wszystko za pierwszym planem znikało. Czy takie rozwiązanie/zastosowanie też nie ma sensu? Wystarczy jak popatrzę na plany filmowe, gdzie rozciągają dziesiątki metrów kw zielonej szmaty w tle. Nie robię filmików, ale takie wykorzystanie wydaje mi się mieć sens. Chyba już ze 2 lata temu samsung zrobił aparat, który ma 4 piksel przy RGB zapisujący głębię. Jakoś tego nie wypuszczają, a to też moim zdaniem była rewelacja, bo te firmy do skanowania gdzie wciskają po 50 aparatów albo i więcej mając piksel z głębią dały by rade pewnie przy 10 aparatach, a jakość by była nawet lepsza. Kto wie, jednak tego nie produkują. Pewnie czekają, że stara technologia zarobi na siebie jak zawsze:).

Odnośnik do komentarza
Udostępnij na innych stronach

Jasne masz racje, to ze uwazam, ze niepotrzebnie probuja wynaleźć koło, nie znaczy ze im nie kibicuje w czymś tam, co bedzie miało sens. Tylko taki młody rosjanin zrobił świetny de-blurer - bez budzetu, ktory od razu kupil Google; Disney research hub co miesiac wrzuca nowe świetne papiery, a oni dziękują za hojne dotacje, pokazuja robote bardziej naciąganą niż Euclidion infinite detail, takie cos na poziomie pracy doktorskiej - to szydera z hiperbolą, żaden osąd.

Odnośnik do komentarza
Udostępnij na innych stronach

może i w tych badaniach jest coś interesującego, może coś wnosi do wiedzy o naszym postrzeganiu przestrzeni, może nawet komuś się przyda, żeby zrobić coś-jak-3d z jednego stilla, ale Olaf ma rację. to jest taki rower z jednym kołem: cyrk, a nie jazda. Jak by dodać 2gie zdjęcie z odrobiną paralaksy, to zadanie robi się trywialne.

 

Trywialne jak zetknięcie 2 ołówków gumkami patrząc oboma oczami. A zamknijcie jedno oko i zobaczycie jak zaskakująco staje się to trudne.

Odnośnik do komentarza
Udostępnij na innych stronach

Dobre. Jeżeli to dopracują, to kazda komorka będzie potrafila zrobić fotke niczym z dobrego jasnego obiektywu. Algorytm zapewne analizuje zbieg perspektywiczny i jasność pixela.

 

To o czym mowa zostało zrobione w aparatach google'a rok temu:

http://www.cs.berkeley.edu/~barron/BarronCVPR2015_slides.pdf

 

Prawda, że dla 2+ fotografii sprawa wydaje się łatwa ale zabawa pojawia się, gdy chcemy uruchomić to dla dużych rozdzielczości na np. telefonie i generować niemal w czasie rzeczywistym.

Metoda z filmu jest o tyle ciekawa, że używa uczenia maszynowego ale rozdzielczość dalej pozostawia wiele do życzenia. Najlepsze wyniki uzyskali w wersji korzystającej zarówno z mono jak i stereo.

Akurat zainteresowałem się tematem przy okazji mojej pracy magisterskiej.

Odnośnik do komentarza
Udostępnij na innych stronach

...ale oni siluja sie z czym innym i zwyczajnie nie rozumiem po co.

 

Naprawdę uważasz że badania naukowe powinny dotyczyć tylko tego co rozumiesz? :)

 

Jak dla mnie zagadnienie jest całkiem ciekawe. Człowiek widząc płaski obrazek (na monitorze czy odbitce foto) bez problemu potrafi określić na nim odległości i wymiary obiektów, jeśli tylko ma jakiś odnośnik - coś czego wielkość zna. Co więcej, potrafi sobie wyobrazić to miejsce w trzech wymiarach, tak jakby tam przebywał. Dlaczego miałby nie potrafić tego zrobić komputer?

 

Bardzo ważna uwaga - to nie są badania strikte techniczne - bo pojedyncze urządzenia do określania odległości używamy na co dzień np. radar, sonar, czy choćby detekcja fazowa na matrycy w aparacie foto, gdzie dla każdego piksela można by przypisać odległość do obiektu który sie na nim znajduje.

 

To są bardziej badania z zakresu cybernetyki i procesów postrzegania.

Odnośnik do komentarza
Udostępnij na innych stronach

Wszyscy sobie zasloncie oczy i idzcie grac w squasha... i zabierzcie przy okazji olafa...

 

 

 

 

Co do algorytmu. To jest otwieranie juz otwartych drzwi... Nikt nie bedzie robil robota z jednym okiem ryzykujac ze zderzy sie z czyms czego tworcy programu nie przewidzieli. W przypadku gdy nie liczy sie czas... fakt mozna zrobic detektor glebi tylko z jedna kamera ale jej pozycja musi ulegac zmianie lub pozycja otoczenia... inaczej nie da sie przeprowadzic triangulacji...

Edytowane przez norden
Odnośnik do komentarza
Udostępnij na innych stronach

Z metod jednoobiektywowych mozna otrzymac glebie z tzw Z-stackingu jako ze dziura przez ktora pada swiatlo na sensor zawsze ma niezerowa srednice. Z innych metod to oczywiscie lasery i pomiar czasu fali odbitej. Da sie tez dzwiekowo mierzyc odleglosc tak jak robia to zwierzeta. Tak czy inaczej wybierajac najlepsza metode raczej liczy sie czas obliczania glebi. Byla rowniez metoda rekonstrukcji glebi obserwujac jak rzucana siatka zalamuje sie na obiektach. Kamera obok obserwuje jak linia rozni sie od modelu. Zaloze sie ze moznaby rowniez mierzyc natezenie fali odbiej bez pomiaru czasu ale to na pewno wymagaloby duzego pudla. Widzialem tez kiedys papier w ktorym uzywali tylko fragmentu sensora i roznych kombinacji obserwowanego obrazu do wyciagniecia glebi bez z-stackingu...

Edytowane przez norden
Odnośnik do komentarza
Udostępnij na innych stronach

Ta ich metoda to bardziej uczenie komputera jak na glebie wplywa natezenie duzych i malych obiektow oraz trapezow. Na pewno mozna to zrobic w wieksza precyzja i mniejsza moca obliczeniowa, ale rozwiazanie machinelearning to chyba nie najlepsze wyjscie. Ludzki nadzor i prad to realne koszta ktore przy ML mysle szybko przekraczaja koszt dobrego algorytmu i jego implementacji.

 

- - - Połączono posty - - -

 

Ale jeszcze jestesmy na etapie uczenia sie, ze nie kazdy obiad da sie zjesc widelcem i to pochlania w ich przypadku dotacje.

 

EDIT: zeby nie bylo, w zeszlym roku byłem na wykladzie kolesia, ktory dla jednego Holdingu mediowego od 2lat pracuje z obrazami i metodą ML i mialem okazje z nim prywatnie gadać - superwizja jest kluczem i ograniczeniem ML wiec nie jest ono rozwiązaniem na kazdy problem i tu wyglada podobnie.

Odnośnik do komentarza
Udostępnij na innych stronach

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Jedynie zarejestrowani użytkownicy mogą komentować zawartość tej strony.

Zarejestruj nowe konto

Załóż nowe konto. To bardzo proste!

Zarejestruj się

Zaloguj się

Posiadasz już konto? Zaloguj się poniżej.

Zaloguj się



×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Wykorzystujemy cookies. Przeczytaj więcej Polityka prywatności