Във вторник по време на конференцията Google I/O 2024 бе

...
Във вторник по време на конференцията Google I/O 2024 бе
Коментари Харесай

Още един специализиран ИИ: Google представи Gemini Live – AI асистент с памет, естествена реч и компютърно зрение

Във вторник по време на конференцията Гугъл I/O 2024 бе оповестена нова функционалност за чатбота с изкуствен интелект на Gemini. Това е Gemini Live, която дава опция на потребителите да водят „ задълбочени “ гласови разговори с Gemini на своите смарт телефони. Потребителите могат да прекъсват Gemini по време на репликите му, с цел да задават уточняващи въпроси, а чатботът ще се приспособява към речта на потребителя в действително време. Освен това Gemini може да вижда и да реагира на заобикалящата потребителя среда, като употребява камерите на смарт телефона или предоставени му фотоси и видеа.

Gemini Live е в прочут смисъл композиция от платформата за компютърно зрение Гугъл Lens и виртуалния помощник Гугъл Assistant, както и тяхното по-нататъшно развиване. На пръв взор Gemini Live не наподобява като коренно усъвършенстване на съществуващата технология. Но Гугъл твърди, че системата употребява нови техники за генеративен изкуствен интелект, с цел да обезпечи по-добър и по-малко податлив към неточности разбор на изображенията, и комбинира тези техники с усъвършенстван речеви енджин за по-последователен, прочувствено експресивен и реален многогласен разговор.

Техническите нововъведения, употребявани в Gemini Live, се дължат частично на плана Astra – новата самодейност на DeepMind за основаване на приложения и „ сътрудници “, основани на изкуствен интелект, които да схващат в действително време разнообразни източници на данни – текст, аудио и изображения.

„ Винаги сме желали да създадем повсеместен сътрудник, който да е потребен в всекидневието “, съобщи на брифинга Демис Хасабис, основен изпълнителен шеф на DeepMind. – Представете си сътрудници, които могат да виждат и чуват какво вършим, да схващат по-добре подтекста, в който се намираме, и да реагират бързо в диалог, което прави темпото и качеството на взаимоотношението доста по-естествени “.

Gemini Live, който ще бъде показан едвам по-късно тази година, ще може да дава отговор на въпроси за предмети, които се намират в полезрението на камерата на смарт телефона (или неотдавна са се намирали в него), като да вземем за пример в кой квартал се намира потребителят или името на счупена част от велосипед. Или пък потребителят ще може да насочи системата към част от компютърен код, а Live ще изясни защо дава отговор той. А когато попитате къде може да са очилата на потребителя, Gemini Live ще му каже къде ги е видял за финален път. А и какъв брой елементарно ще бъде намирането на изгубеното дистанционно управление на тв приемника!

Live може да се трансформира и в самобитен виртуален ментор, като оказва помощ на потребителите да репетират тирада за обещано събитие, да мислят за нови хрумвания и така нататък Live може да ви каже кои умения да наблегнете на идно изявление за работа или стаж или да ви даде съвет за обществено говорене.

Способността на Gemini Live да „ помни “ какво се е случило неотдавна е допустима с помощта на архитектурата на главния модел Gemini 1.5 Pro, както и на други „ характерни “ генеративни модели, само че в по-малка степен. Gemini 1.5 Pro има доста огромен контекстен прозорец, което значи, че може да поеме и обработи огромно количество данни – към час видео – преди да приготви отговора. Гугъл означи, че Gemini Live ще запомни всичко, което се е случвало през последните няколко часа.

Gemini Live наподобява на генеративния изкуствен интелект, употребен в очилата на Meta, които по сходен метод могат да преглеждат изображения, снимани от камера, и да ги интерпретират в съвсем действително време. Съдейки по демонстрациите, които Гугъл сподели по време на презентацията, Live също по този начин доста наподобява на неотдавна обновения ChatGPT на OpenAI.

Основната разлика сред новия ChatGPT и Gemini Live е, че решението на Гугъл няма да е гратис. След като бъде пуснато, Live ще бъде извънредно за Gemini Advanced – по-сложна версия на Gemini, която е налична за клиентите на Гугъл One AI Premium Plan против 20 $ на месец.

Може би като отпратка към очилата на Meta, една от демонстрациите на Гугъл сподели човек, носещ AR очила, оборудвани с приложение, сходно на Gemini Live. Въпреки това Гугъл, желаейки да избегне следващия неуспех със смарт очилата, отхвърли да каже дали този или сходен артикул с генеративен AI ще се появи на пазара в близко бъдеще.

Източник: kaldata.com

СПОДЕЛИ СТАТИЯТА


Промоции

КОМЕНТАРИ
НАПИШИ КОМЕНТАР