Google vừa chính thức giới thiệu mô hình AI Gemini 2.5 Computer Use, đánh dấu bước tiến quan trọng trong việc giúp trí tuệ nhân tạo thao tác trực tiếp trên trình duyệt web như một người dùng thực thụ.
Mục lục
AI có thể thao tác trực tiếp trong trình duyệt
Gemini 2.5 Computer Use cho phép AI thực hiện hàng loạt hành động quen thuộc của con người như click, cuộn trang, nhập liệu, kéo-thả và điều hướng web. Điều này giúp AI có thể xử lý các tác vụ trên những giao diện không có API hoặc kết nối trực tiếp, mở ra tiềm năng ứng dụng trong nhiều lĩnh vực như tự động hóa, kiểm thử phần mềm hay hỗ trợ người dùng.
Năng lực nhận thức hình ảnh và suy luận của Gemini 2.5
Theo Google, Gemini 2.5 Computer Use được trang bị khả năng nhận thức và suy luận hình ảnh (visual understanding and reasoning), giúp AI hiểu được nội dung hiển thị trên màn hình. Nhờ đó, AI có thể tự động điền biểu mẫu, gửi dữ liệu, hoặc điều hướng qua các thành phần giao diện người dùng — tương tự như cách con người thao tác.

Ứng dụng và thử nghiệm nội bộ của Google
Trước khi ra mắt chính thức, một số phiên bản của Gemini 2.5 đã được thử nghiệm trong các dự án nội bộ như AI Mode và Project Mariner. Trong các thử nghiệm này, AI có thể thêm sản phẩm vào giỏ hàng hoặc hoàn thành các nhiệm vụ trong trình duyệt dựa trên yêu cầu hoặc danh sách nguyên liệu người dùng cung cấp.
Cuộc đua giữa Google, OpenAI và Anthropic
Đáng chú ý, thời điểm Google công bố Gemini 2.5 Computer Use chỉ một ngày sau sự kiện Dev Day của OpenAI, nơi ChatGPT ra mắt loạt tính năng mới. Trước đó, Anthropic cũng từng giới thiệu công nghệ tương tự mang tên “computer use” cho mô hình Claude.
Google khẳng định Gemini 2.5 vượt trội hơn các đối thủ trong các bài kiểm tra chuẩn web và di động, nhờ khả năng nhận diện và thao tác chính xác hơn.
Giới hạn và khả năng hiện tại
Khác với ChatGPT Agent hay Claude Computer Use, mô hình của Google hiện chỉ hoạt động trong môi trường trình duyệt, chưa có khả năng điều khiển toàn bộ hệ điều hành máy tính. Tuy nhiên, Gemini 2.5 đã hỗ trợ 13 loại thao tác như mở trình duyệt, nhập văn bản, kéo-thả và di chuyển các thành phần UI, đủ để xử lý phần lớn tác vụ phổ biến.
Hiện tại, Gemini 2.5 Computer Use đã có sẵn cho nhà phát triển thông qua Google AI Studio và Vertex AI. Người dùng phổ thông cũng có thể xem bản demo trực tiếp trên Browserbase, nơi AI thực hiện các tác vụ thú vị như “chơi trò 2048” hoặc “tìm các chủ đề đang tranh luận trên Hacker News”.




