Google I/O 2024 – эра Gemini в поиске и не только

Опубликовано Май 15, 2024

Искусственный интеллект будет создавать рисунки, видео и музыку, а также предупреждать о телефонных мошенниках

На нынешней конференции Google I/O поисковый гигант продемонстрировал, что не собирается уступать лидерство во внедрении искусственного интеллекта. ИИ будет плотнее интегрирован в Google Фото, Google камеру, Gmail, поиск и другие приложения, а Gemini станет основным персональным ассистентом, с которым можно будет общаться текстом, голосом, и камерой.

Сейчас смотрят

iOS 18.2 выйдет на несколько дней раньше, чем планировалось

Представлен суперкар Karma Invictus

Gemini теперь станет ведущим ассистентом в Android. О судьбе Google Ассистента ничего не сказано, но все мы знаем привычки Google.
Генерация изображений – по детальному описанию Gemini создаст изображения даже несуществующих объектов. Также можно создавать красивые надписи.
Генерация видео по описанию. Видео можно продлевать до нужной продолжительности. Очень перспективный инструмент для блогеров, чтобы получать бесплатные тематические видеовставки.
Music AI Sandbox – инструмент для генерации по текстовому описанию музыкального сэмпла или обработать входную аудиодорожку.
Google Фото теперь будет анализировать весь контекст фотографий. Можно будет не только искать изображения по описанию того, что на них снято, а и делать тематические подборки, например прогресс от тренировок за год и т.д.
API Gemini 1.5 Pro – языковая модель, которая будет предоставлять 1 Млн токенов для обработки запросов, будет помнить историю разговора и учитывать самый большой среди конкурентов контекст. Летом количество доступных токенов будет удвоено. Gemini 1.5 Flash – API быстрого ИИ для получения результатов практически в режиме реального времени.
ИИ для обучения будет систематизировать и объяснять учебный материал, в том числе на бытовых примерах.
Circle to search – фишка, анонсированная в Galaxy S24 Ultra, которая затем попала в Google Pixel, скоро появится на всех Android-смартфонах. Напомним, достаточно обвести объект на экране, чтобы Google определил, что именно там изображено, и запустил поиск этого объекта.
Глубокий анализ контекста. Например, попросив Gemini организовать поездку, она не только приобретет билет, а и предложит место проживания и проверит прогноз погоды. Или при заказе обуви сможет самостоятельно подтянуть ваш размер из переписки в Gmail.
Запрос Gemini можно делать не только с помощью текста или голоса, но и с помощью камеры. На демонстрационном видео Gemini объясняла что делает объект в кадре, на ходу анализирует программный код и объясняет, что он делает, разгадывает ребусы, помнит, где был объект, который был виден в кадре до этого.
Эра Gemini в поиске. Мало того, что поиск будет сразу выдавать сгенерированные ИИ выдержки и ответы, в поиске теперь можно будет составлять планы и задачи. Можно будет вводить сложные запросы, после чего при необходимости Gemini проложит маршрут, проверит рейтинг заведения или составит меню на неделю, сразу составив список покупок и мест, где их можно сделать.
Gmail теперь будет предоставлять выписку из писем, причем можно будет объединить несколько писем и делать выписку из них вместе. Также с помощью ИИ можно будет и отвечать всем отправителям этих писем, добавлять задачи в календарь, или даже составить в Google Sheets таблицу все однотипные предложения, поступившие на почту.
Для командной работы Gemini будет анализировать все ваши рабочие чаты, искать и анализировать информацию в них, а также отвечать нужным коллегам даже если вы не знаете, в каком именно чате происходит нужное обсуждение.
Gemini можно отправить на анализ PDF-файл размером до 1500 страниц и попросить сделать краткий перевод. Или видео длительностью до 1 часа, причем Gemini проанализирует все фрагменты и при необходимости продемонстрирует именно необходимый пользователю отрезок.
Gemini можно будет спросить, почему не работает определенный механизм, например диджейский пульт или фотоаппарат, и ИИ даст ответ как это исправить. Для этого ИИ распознает механизм в кадре, его модель, действие, которое пытается сделать пользователь, по этим данным делает поиск, анализирует его и делает извлечение именно необходимой информации.
ИИ для программистов будет генерировать код по описанию задачи, создавать базу данных по фотографии объектов, искать ошибки.
Защита от мошеннических звонков. ИИ в реальном времени будет анализировать ваши разговоры, и если собеседник будет вести себя подозрительно, например спросит ваши банковские реквизиты – то выдаст звуковой сигнал и предупреждение о возможном мошенничестве.
Искусственный интеллект будет поддерживать 35 языков и будет иметь самое большое контекстное окно среди всех конкурентов.

В этом году Сундар Пичаи отреагировал на юмор относительно прошлогодней презентации Google I/O и сразу предоставил статистику, что за почти 2 часа презентации аббревиатура “AI” прозвучала 120 раз. А потом еще раз.

Источник