Google tiếp tục mở rộng khả năng tương tác trực quan cho trí tuệ nhân tạo Gemini khi âm thầm thử nghiệm một tính năng mới cho phép người dùng đánh dấu trực tiếp các khu vực quan trọng trên hình ảnh. Với cải tiến này, Gemini có thể hiểu chính xác hơn phần nội dung mà người dùng muốn AI phân tích, từ đó đưa ra phản hồi sát ngữ cảnh và giảm thiểu việc hiểu sai ý định. Đây được xem là bước tiến quan trọng trong việc nâng cao trải nghiệm sử dụng AI đa phương thức, nơi hình ảnh và ngôn ngữ được kết hợp chặt chẽ hơn bao giờ hết.
Trong bối cảnh Gemini ngày càng được Google tích hợp sâu vào hệ sinh thái tìm kiếm, chỉnh sửa và phân tích nội dung, việc bổ sung khả năng đánh dấu hình ảnh cho thấy định hướng rõ ràng của hãng trong việc giúp AI “nhìn” và “hiểu” giống con người hơn.
Mục lục
Gemini bổ sung công cụ đánh dấu giúp AI hiểu đúng trọng tâm hình ảnh
Theo các thông tin ghi nhận được từ cộng đồng công nghệ, Google đã bắt đầu thử nghiệm tính năng đánh dấu hình ảnh trên cả ứng dụng Gemini dành cho thiết bị di động và phiên bản Gemini hoạt động trên trình duyệt web. Trước đó vài tháng, giới quan sát đã phát hiện các dấu hiệu cho thấy Google đang phát triển khả năng này, nhưng đến hiện tại, tính năng mới thực sự xuất hiện trong trải nghiệm sử dụng thực tế của một số người dùng.
Cụ thể, khi người dùng đính kèm hình ảnh trong Gemini trên Android, ứng dụng sẽ hiển thị thông báo giới thiệu về công cụ đánh dấu. Điều này cho thấy Google không chỉ thử nghiệm âm thầm mà còn chủ động hướng dẫn người dùng làm quen với cách tương tác mới, nơi họ có thể trực tiếp chỉ ra khu vực quan trọng thay vì mô tả bằng lời một cách vòng vo.

Đánh dấu hình ảnh giúp phân tích chính xác và tiết kiệm ngữ cảnh
Điểm cốt lõi của tính năng đánh dấu nằm ở khả năng hướng sự chú ý của Gemini đến đúng vùng nội dung mà người dùng quan tâm. Thay vì buộc AI phải phân tích toàn bộ hình ảnh và suy đoán đâu là chi tiết quan trọng, người dùng giờ đây có thể khoanh vùng, chạm hoặc đánh dấu trực tiếp đối tượng cần phân tích.
Nhờ đó, khi người dùng đặt câu hỏi hoặc yêu cầu xử lý hình ảnh, Gemini có thể nhanh chóng xác định chính xác phần nội dung đang được nhắc tới. Điều này đặc biệt hữu ích với những bức ảnh có nhiều chi tiết hoặc nhiều chủ thể, nơi việc mô tả bằng văn bản thường gây mơ hồ và dễ dẫn đến hiểu sai.

Khả năng nhận diện trong giai đoạn thử nghiệm
Trong các thử nghiệm ban đầu, Gemini cho thấy khả năng tiếp nhận và xử lý khá tốt thông tin từ các vùng được đánh dấu. Dù vẫn tồn tại một số trường hợp phân tích chưa hoàn toàn chính xác, AI nhìn chung đã nhận diện đúng đối tượng hoặc khu vực mà người dùng muốn đề cập.
Ví dụ, với một bức ảnh chụp nhiều người, Gemini có thể xác định đúng cá nhân được đánh dấu, thay vì nhầm lẫn giữa các chủ thể khác trong khung hình. Điều này cho thấy công cụ đánh dấu không chỉ mang tính hình thức mà thực sự đóng vai trò quan trọng trong việc cải thiện độ chính xác của phản hồi.

Gemini và bước tiến trong trải nghiệm AI đa phương thức
Việc thử nghiệm tính năng đánh dấu trực tiếp trên hình ảnh phản ánh rõ chiến lược phát triển Gemini theo hướng AI đa phương thức toàn diện. Thay vì chỉ xử lý văn bản hoặc hình ảnh một cách tách biệt, Gemini đang được huấn luyện để hiểu mối liên hệ giữa hình ảnh, vùng nội dung cụ thể và câu lệnh của người dùng.

Kết luận
Dù hiện tại Google chưa công bố rõ liệu tính năng này đang được triển khai ở phạm vi thử nghiệm hạn chế hay chuẩn bị phát hành rộng rãi, nhiều khả năng hãng sẽ sớm làm rõ trong thời gian tới. Trong lúc chờ đợi, người dùng Gemini có thể kiểm tra trực tiếp trên thiết bị của mình để xem đã được trải nghiệm khả năng đánh dấu hình ảnh mới hay chưa.
Với những cải tiến liên tục như vậy, Gemini đang dần khẳng định vị thế là một trong những nền tảng AI có khả năng tương tác trực quan và linh hoạt hàng đầu hiện nay.



