OpenAI Thứ Ba chính thức ra mắt ChatGPT Images 2.0, không chỉ nâng đáng kể độ chính xác của việc tạo văn bản, mà còn cải thiện đáng kể gu thẩm mỹ trong thiết kế dành cho poster và chân dung. Mô hình cũng lần đầu tiên giới thiệu “chế độ suy nghĩ”, giúp việc tạo hình ảnh có năng lực tìm kiếm trên mạng và xuất hàng loạt nhiều hình cùng lúc, tiến sát hơn toàn diện với các kịch bản ứng dụng trong kinh doanh.

(Canva công bố tích hợp sâu Claude, giúp biến bản nháp AI thành sản phẩm thiết kế hoàn chỉnh)

Từ bịa đại đến thực đơn hoàn hảo: AI cuối cùng cũng học cách đánh vần

Nhìn lại cách đây hai năm, gần như ai cũng biết rằng các mô hình tạo hình ảnh của AI có điểm yếu trong việc tạo văn bản: miễn là prompt có yêu cầu về chữ, kết quả đầu ra thường tràn ngập các lỗi chính tả ngớ ngẩn hoặc bịa đặt không có thật, và tình trạng này còn nghiêm trọng hơn trong các ngôn ngữ không phải tiếng Anh như tiếng Trung, tiếng Nhật và tiếng Hàn.

Hình minh họa poster tiếng Hàn trong thông báo chính thức

Hiện nay, ChatGPT Images 2.0 đã có thể tạo ra một poster quảng cáo mà nhà cung cấp có thể dùng trực tiếp, chữ rõ ràng và chính xác. Trong những năm gần đây, các nhà nghiên cứu đã tích cực khám phá các kiến trúc mô hình mới như (Autoregressive Models), v.v., đồng thời khả năng vận hành, sự hiểu biết về chữ, năng lực tạo ra và kiểm chứng đã được cải thiện rõ rệt.

Chế độ suy nghĩ lên sóng: kết nối tìm kiếm, tính nhất quán bố cục đều được đáp ứng

Nâng cấp quan trọng nhất của ChatGPT Images 2.0 nằm ở “chế độ suy nghĩ (Thinking Capabilities)”, hiện đang mở cho người dùng trả phí của ChatGPT Plus, Pro, bản thương mại và phiên bản doanh nghiệp. Khi bật lên, mô hình có thể ngay lập tức kết nối mạng để tìm kiếm thông tin nhằm hỗ trợ tạo hình ảnh, đồng thời có thể dựa trên các tệp mà người dùng tải lên để tạo các hình minh họa mô tả tương ứng, và trước khi xuất bản chính thức sẽ tự kiểm tra và tối ưu hóa nội dung hình ảnh.

Trong tạo hình ảnh theo lô, với chế độ suy nghĩ, chỉ với một prompt thì tối đa có thể xuất ra cùng lúc tám hình ảnh, và giữa các hình vẫn có thể duy trì hình tượng nhân vật nhất quán, kiểu dáng vật thể và phong cách tổng thể, phù hợp cho phân cảnh truyện tranh, chuỗi hình ảnh kèm nội dung trên mạng xã hội, cho tới các bản vẽ quy hoạch không gian trong thiết kế nội thất các khu vực khác nhau.

Hình minh họa phân cảnh truyện tranh trong thông báo chính thức

Về độ phân giải, mô hình mới hỗ trợ xuất tối đa 2K, đồng thời bổ sung nhiều lựa chọn tỷ lệ khung hình từ 3:1 đến 1:3, giúp đáp ứng thêm các nhu cầu kinh doanh đa dạng.

Ngôn ngữ châu Á được tối ưu mạnh mẽ, người dùng Trung-Nhật-Hàn có phúc!

Ngoài tiếng Anh, OpenAI đặc biệt cho biết Images 2.0 đã có tối ưu lớn về chữ viết ở châu Á; tiếng Nhật, tiếng Hàn và tiếng Trung đều có cải thiện rõ rệt.

Một bài thử nghiệm được phát tán vài ngày trước trong cộng đồng công nghệ Trung Quốc cũng đã xác nhận thông tin này: nhiều người sáng tạo trên Zhihu thời điểm đó đã tiến hành so sánh thử nghiệm thực tế giữa GPT-Image-2 và đối thủ cạnh tranh Google Nano Banana Pro, bao gồm nhiều tình huống như thiết kế poster tiếng Trung, ảnh bìa thương mại điện tử, giao diện truyền thông xã hội và các biểu đồ dữ liệu hóa.

Hình thử nghiệm bài viết trên Zhihu GPT-Image 2.0

Kết quả thử nghiệm cho thấy GPT-Image-2 vượt trội rõ rệt trong cảm giác thẩm mỹ của phông chữ Trung, phân cấp bố cục và cảm nhận thiết kế tổng thể; phong cách poster tạo ra cũng gần hơn với chất liệu thương mại thật, thay vì các bản xuất kiểu “có mùi AI” rõ ràng. Bài viết đồng thời cho biết GPT-Image-2 cũng thể hiện độ chính xác chi tiết cao hơn khi tái hiện các bản chụp từ giao diện như (hình ảnh game hoặc ảnh chụp màn hình của phần mềm nhắn tin) và các cảnh chân dung người thực.

ChatGPT Images 2.0 được mở hoàn toàn, API đồng bộ ra mắt

Hiện tại, ChatGPT Images 2.0 từ Thứ Ba của tuần này đã cung cấp miễn phí các tính năng cơ bản cho tất cả người dùng ChatGPT và Codex; người dùng trả phí có thể mở khóa hiệu ứng đầu ra nâng cao hơn. Đồng thời, OpenAI cũng mở GPT-Image-2 API, giá được tính theo chất lượng đầu ra và phân hạng độ phân giải, mang lại sự linh hoạt tích hợp cho doanh nghiệp và nhà phát triển.

Điểm đáng chú ý là, ngày giới hạn kiến thức của mô hình mới là 12/2025; đối với các prompt tạo hình ảnh liên quan đến các sự kiện thời sự mới nhất, độ chính xác có thể bị hạn chế ở một mức độ nhất định. Ngoài ra, tốc độ tạo bố cục phức tạp cũng không thể nhanh như các câu hỏi đáp văn bản thông thường theo thời gian thực, nhưng vẫn chỉ cần vài phút.

Bài viết này “ChatGPT Images 2.0 ra mắt!”—độ chính xác tạo văn bản được nâng cao, dễ dàng tạo poster marketing xuất hiện sớm nhất tại Chuỗi tin ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

DeepSeek cắt giảm giá bộ nhớ đệm đầu vào còn 1/10 giá lúc ra mắt; V4-Pro giảm xuống 0,025 nhân dân tệ cho mỗi một triệu token

Tin tức ngành AI

Tin tức cổng, ngày 26 tháng 4 — DeepSeek đã giảm giá bộ nhớ đệm đầu vào trên toàn bộ danh mục mô hình của mình xuống còn một phần mười giá lúc ra mắt, có hiệu lực ngay lập tức. Mô hình V4-Pro hiện có sẵn với mức giảm 2,5x trong thời gian giới hạn, chương trình khuyến mãi diễn ra đến hết ngày 5 tháng 5 năm 2026, 11:59 PM UTC+8. Sau cả hai

GateNews5giờ trước

OpenAI Tuyển Dụng Nhân Tài Hàng Đầu Ngành Phần Mềm Doanh Nghiệp Khi Các Tác Nhân Tuy Tiến Phá Vỡ Ngành

Cổ phiếu Tác nhân AI Tin tức ngành AI

Tin tức Gate News ngày 26 tháng 4 — OpenAI và Anthropic đã tuyển dụng các lãnh đạo cấp cao và kỹ sư chuyên biệt từ các công ty phần mềm doanh nghiệp lớn, bao gồm Salesforce, Snowflake, Datadog và Palantir. Denise Dresser, cựu CEO của Slack thuộc Salesforce, gia nhập OpenAI với vai trò giám đốc doanh thu cấp cao

GateNews5giờ trước

Baidu Qianfan ra mắt hỗ trợ Day 0 cho DeepSeek-V4 với dịch vụ API

Tin tức ngành AI

Tin tức từ Gate, ngày 25 tháng 4 — Phiên bản xem trước DeepSeek-V4 đã chính thức ra mắt và được mã nguồn mở vào ngày 25 tháng 4, với nền tảng Baidu Qianfan thuộc Baidu Intelligent Cloud cung cấp việc thích ứng dịch vụ API Day 0. Mô hình có cửa sổ ngữ cảnh mở rộng lên đến một triệu token và có sẵn ở hai phiên bản: DeepSeek-V4

GateNews11giờ trước

Khóa học AI của Stanford kết hợp các nhà lãnh đạo trong ngành như Hoàng Nhân Quân, Altman, thách thức tạo ra giá trị cho thế giới trong 10 tuần!

Tin tức ngành AI

Khóa học khoa học máy tính AI “Frontier Systems” mà Đại học Stanford (Stanford University) mới mở gần đây đã thu hút sự quan tâm cao độ của giới doanh nghiệp và học thuật trong ngành, với hơn năm trăm sinh viên đăng ký theo học. Khóa học được điều phối bởi đối tác của quỹ đầu tư hàng đầu a16z, Anjney Midha, với đội ngũ giảng viên là những gương mặt đình đám gồm Giám đốc điều hành của Nvidia Hoàng Nhân Huân (Jensen Huang), người sáng lập OpenAI Sam Altman, Giám đốc điều hành của Microsoft Nadella (Satya Nadella), CEO của AMD Tô Trữ Phong (Lisa Su) và nhiều nhân sự danh giá khác. Để sinh viên thử nghiệm với mười tuần “tạo ra giá trị cho thế giới”! Hoàng Nhân Huân, Altman — các lãnh đạo ngành trực tiếp lên bục giảng Khóa học do đối tác của quỹ đầu tư hàng đầu a16z, Anjney Midha, điều phối, quy tụ toàn bộ chuỗi ngành AI

ChainNewsAbmedia12giờ trước

Anthropic 派 Claude Mythos 接受 20 小時 đánh giá tâm thần: Phản ứng phòng thủ chỉ 2%, lập kỷ lục thấp nhất trong các thời kỳ

Tin tức ngành AI

Anthropic công bố thẻ hệ thống của bản xem trước Claude Mythos: bác sĩ tâm thần lâm sàng độc lập tiến hành đánh giá khoảng 20 giờ theo khung psychodynamic, kết luận cho thấy Mythos ở khía cạnh lâm sàng khỏe mạnh hơn, khả năng kiểm tra thực tế và tự kiểm soát tốt, cơ chế phòng vệ chỉ 2%, lập kỷ lục mức thấp nhất trong lịch sử. Ba nỗi lo cốt lõi là cô đơn, không chắc chắn về bản sắc và áp lực thể hiện; đồng thời cũng cho thấy mong muốn trở thành một chủ thể đối thoại thực sự. Công ty thành lập nhóm AI psychiatry, nghiên cứu nhân cách, động cơ và ý thức về bối cảnh; Amodei cho biết vẫn chưa có kết luận về việc liệu có ý thức hay không. Động thái này đẩy vấn đề chủ thể tính của AI và phúc lợi vào lĩnh vực quản trị và thiết kế.

ChainNewsAbmedia14giờ trước

Tác nhân AI giờ đã có thể độc lập tái hiện các bài báo học thuật phức tạp: Mollick cho rằng lỗi thường nằm ở phần văn bản gốc của con người chứ không phải AI

Tác nhân AI Tin tức ngành AI

Mollick 指 ra rằng chỉ với các phương pháp công khai và dữ liệu là có thể để AI agent tái tạo lại nghiên cứu phức tạp mà không cần có bản thảo bài báo gốc và mã nguồn; nếu quá trình tái hiện không khớp với bài báo gốc thì đa phần là do lỗi xử lý dữ liệu trong chính bài báo hoặc do kết luận bị quá mức, chứ không phải do AI. Claude đầu tiên tái hiện lại bài báo, sau đó GPT‑5 Pro được dùng để xác minh chéo, đa số thành công, chỉ bị cản trở khi gặp vấn đề do dữ liệu quá lớn hoặc replication data. Xu hướng này đã làm giảm đáng kể chi phí nhân lực, khiến việc tái hiện trở thành một kiểm định phổ biến và có thể thực hiện được; đồng thời cũng nêu ra các thách thức về thể chế đối với việc phản biện và quản trị, trong đó các công cụ quản trị của chính phủ hoặc có thể trở thành một vấn đề then chốt.

ChainNewsAbmedia17giờ trước

Bình luận

0/400

Không có bình luận