Thứ Năm, Tháng Mười Hai 25, 2025
spot_img
Trang chủAIGoogle ra mắt Gemini 2.5 Computer Use: AI có thể thao tác...

Google ra mắt Gemini 2.5 Computer Use: AI có thể thao tác trên trình duyệt như con người

Google vừa chính thức giới thiệu mô hình AI Gemini 2.5 Computer Use, đánh dấu bước tiến quan trọng trong việc giúp trí tuệ nhân tạo thao tác trực tiếp trên trình duyệt web như một người dùng thực thụ.

AI có thể thao tác trực tiếp trong trình duyệt

Gemini 2.5 Computer Use cho phép AI thực hiện hàng loạt hành động quen thuộc của con người như click, cuộn trang, nhập liệu, kéo-thả và điều hướng web. Điều này giúp AI có thể xử lý các tác vụ trên những giao diện không có API hoặc kết nối trực tiếp, mở ra tiềm năng ứng dụng trong nhiều lĩnh vực như tự động hóa, kiểm thử phần mềm hay hỗ trợ người dùng.

Năng lực nhận thức hình ảnh và suy luận của Gemini 2.5

Theo Google, Gemini 2.5 Computer Use được trang bị khả năng nhận thức và suy luận hình ảnh (visual understanding and reasoning), giúp AI hiểu được nội dung hiển thị trên màn hình. Nhờ đó, AI có thể tự động điền biểu mẫu, gửi dữ liệu, hoặc điều hướng qua các thành phần giao diện người dùng — tương tự như cách con người thao tác.

Gemini 2.5 Computer Use: La IA De Google Que Navega Por Ti | Cultura  Informática

Ứng dụng và thử nghiệm nội bộ của Google

Trước khi ra mắt chính thức, một số phiên bản của Gemini 2.5 đã được thử nghiệm trong các dự án nội bộ như AI ModeProject Mariner. Trong các thử nghiệm này, AI có thể thêm sản phẩm vào giỏ hàng hoặc hoàn thành các nhiệm vụ trong trình duyệt dựa trên yêu cầu hoặc danh sách nguyên liệu người dùng cung cấp.

Cuộc đua giữa Google, OpenAI và Anthropic

Đáng chú ý, thời điểm Google công bố Gemini 2.5 Computer Use chỉ một ngày sau sự kiện Dev Day của OpenAI, nơi ChatGPT ra mắt loạt tính năng mới. Trước đó, Anthropic cũng từng giới thiệu công nghệ tương tự mang tên “computer use” cho mô hình Claude.
Google khẳng định Gemini 2.5 vượt trội hơn các đối thủ trong các bài kiểm tra chuẩn web và di động, nhờ khả năng nhận diện và thao tác chính xác hơn.

Giới hạn và khả năng hiện tại

Khác với ChatGPT Agent hay Claude Computer Use, mô hình của Google hiện chỉ hoạt động trong môi trường trình duyệt, chưa có khả năng điều khiển toàn bộ hệ điều hành máy tính. Tuy nhiên, Gemini 2.5 đã hỗ trợ 13 loại thao tác như mở trình duyệt, nhập văn bản, kéo-thả và di chuyển các thành phần UI, đủ để xử lý phần lớn tác vụ phổ biến.

Hiện tại, Gemini 2.5 Computer Use đã có sẵn cho nhà phát triển thông qua Google AI StudioVertex AI. Người dùng phổ thông cũng có thể xem bản demo trực tiếp trên Browserbase, nơi AI thực hiện các tác vụ thú vị như “chơi trò 2048” hoặc “tìm các chủ đề đang tranh luận trên Hacker News”.


4.9/5 - (173 votes)
BÀI VIẾT LIÊN QUAN
spot_img

BÀI VIẾT PHỔ BIẾN