Google ra mắt Gemini 2.5 Computer Use: AI có thể thao tác trên trình duyệt như con người

09/10/2025

Google vừa chính thức giới thiệu mô hình AI Gemini 2.5 Computer Use, đánh dấu bước tiến quan trọng trong việc giúp trí tuệ nhân tạo thao tác trực tiếp trên trình duyệt web như một người dùng thực thụ.

Mục lục

AI có thể thao tác trực tiếp trong trình duyệt

Gemini 2.5 Computer Use cho phép AI thực hiện hàng loạt hành động quen thuộc của con người như click, cuộn trang, nhập liệu, kéo-thả và điều hướng web. Điều này giúp AI có thể xử lý các tác vụ trên những giao diện không có API hoặc kết nối trực tiếp, mở ra tiềm năng ứng dụng trong nhiều lĩnh vực như tự động hóa, kiểm thử phần mềm hay hỗ trợ người dùng.

Năng lực nhận thức hình ảnh và suy luận của Gemini 2.5

Theo Google, Gemini 2.5 Computer Use được trang bị khả năng nhận thức và suy luận hình ảnh (visual understanding and reasoning), giúp AI hiểu được nội dung hiển thị trên màn hình. Nhờ đó, AI có thể tự động điền biểu mẫu, gửi dữ liệu, hoặc điều hướng qua các thành phần giao diện người dùng — tương tự như cách con người thao tác.

Gemini 2.5 Computer Use: La IA De Google Que Navega Por Ti | Cultura Informática

Ứng dụng và thử nghiệm nội bộ của Google

Trước khi ra mắt chính thức, một số phiên bản của Gemini 2.5 đã được thử nghiệm trong các dự án nội bộ như AI Mode và Project Mariner. Trong các thử nghiệm này, AI có thể thêm sản phẩm vào giỏ hàng hoặc hoàn thành các nhiệm vụ trong trình duyệt dựa trên yêu cầu hoặc danh sách nguyên liệu người dùng cung cấp.

Cuộc đua giữa Google, OpenAI và Anthropic

Đáng chú ý, thời điểm Google công bố Gemini 2.5 Computer Use chỉ một ngày sau sự kiện Dev Day của OpenAI, nơi ChatGPT ra mắt loạt tính năng mới. Trước đó, Anthropic cũng từng giới thiệu công nghệ tương tự mang tên “computer use” cho mô hình Claude.
Google khẳng định Gemini 2.5 vượt trội hơn các đối thủ trong các bài kiểm tra chuẩn web và di động, nhờ khả năng nhận diện và thao tác chính xác hơn.

Giới hạn và khả năng hiện tại

Khác với ChatGPT Agent hay Claude Computer Use, mô hình của Google hiện chỉ hoạt động trong môi trường trình duyệt, chưa có khả năng điều khiển toàn bộ hệ điều hành máy tính. Tuy nhiên, Gemini 2.5 đã hỗ trợ 13 loại thao tác như mở trình duyệt, nhập văn bản, kéo-thả và di chuyển các thành phần UI, đủ để xử lý phần lớn tác vụ phổ biến.

Hiện tại, Gemini 2.5 Computer Use đã có sẵn cho nhà phát triển thông qua Google AI Studio và Vertex AI. Người dùng phổ thông cũng có thể xem bản demo trực tiếp trên Browserbase, nơi AI thực hiện các tác vụ thú vị như “chơi trò 2048” hoặc “tìm các chủ đề đang tranh luận trên Hacker News”.

4.9/5 - (173 votes)

Bài trướcTop 5 địa điểm du lịch mùa thu ở Hà Lan: Khám phá “xứ hoa tulip” chuyển mình sang thu

Bài kế tiếpEsports World Cup 2026 công bố danh sách các tựa game sẽ góp mặt

BÀI VIẾT LIÊN QUAN

Google ra mắt Gemini 2.5 Computer Use: AI có thể thao tác trên trình duyệt như con người

AI có thể thao tác trực tiếp trong trình duyệt

Năng lực nhận thức hình ảnh và suy luận của Gemini 2.5

Ứng dụng và thử nghiệm nội bộ của Google

Cuộc đua giữa Google, OpenAI và Anthropic

Giới hạn và khả năng hiện tại

Manus ra mắt công cụ chỉnh sửa ảnh tích hợp Nano Banana Pro

Samsung tích hợp trợ lý AI Gemini của Google vào tủ lạnh Bespoke AI

Cách tùy chỉnh tiếng Việt trên NotebookLM đơn giản, dễ thực hiện

BÀI VIẾT PHỔ BIẾN

Manus ra mắt công cụ chỉnh sửa ảnh tích hợp Nano Banana Pro

Samsung tích hợp trợ lý AI Gemini của Google vào tủ lạnh Bespoke AI

Nghỉ Hè Sợ Nghỉ Hưu – Phim mới của Huỳnh Lập ra mắt 2026

Hong Kong và Patan lọt top điểm đến ẩm thực hấp dẫn nhất năm 2026

Hướng dẫn

Mẹo tải tệp tin Google Drive bị giới hạn 24 giờ đơn giản và hiệu quả

Microsoft tiếp tục cắt giảm 650 nhân viên mảng game trong bối cảnh tái cấu trúc

Top 7 công cụ AI nổi bật được đánh giá cao năm 2024

Bài viết phổ biến

Incantation (Chú Nguyền): Review, giải thích phim kinh dị Đài Loan đáng sợ nhất từ trước đến nay

Tổng hợp công thức nấu ăn và cách lấy trong Genshin Impact

Giải mã post-credit The Witch 2: Hé lộ có phần 3, căng như dây đàn

Thể loại phổ biến

VỀ CHÚNG TÔI

THEO DÕI CHÚNG TÔI