⌘K

Gemini Multimodal Features

Working with Images

Describe: "What's in this image?"
Extract text: Upload screenshots to OCR
Analyze: "Explain what this chart shows"
Answer questions: "Where was this photo taken?"

Combining Inputs

Upload an image + ask a text question for powerful analysis:

"[Upload receipt photo] Calculate the total and check for errors"

Document Analysis

PDF summarization
Data extraction from spreadsheets
Chart interpretation
Handwriting recognition