GPT-4 が公式になりました: 人工知能の最新バージョンのしくみ

現在のChatGPTの真っ最中 ブーム 、彼の会社、 OpenAI、GPT-4 をリリース 、以前のモデルのより強力なアップグレードであり、画像を分析することもでき、より優れた推論機能を備えています。 OpenAI は、GPT-4 が伴う革命に非常に自信を持っているため、それを宣言することを躊躇しませんでした。」 高度な推論機能で ChatGPT を上回る "

GPT-4 は、深層学習を人工知能に拡張する OpenAI の取り組みにおける最新のマイルストーンです。 GPT-4 は大規模なマルチモーダルモデル (画像とテキストの入力を受け入れ、テキスト出力を発行する) であり、多くの現実世界のシナリオでは人間よりも能力が劣りますが、 人間レベルのパフォーマンス さまざまな観点で。学術的および専門的な参照。

GPT-4 は新しい革命です

GPT は Generative pretrained Transformer の略で、GPT-4 は、 オリジナル GPT 2018年。最初のリリースの後、OpenAI は 2 年に GPT-2019 を発表し、3 年に GPT-2020 を発表しました。GPT-3.5 と呼ばれる別の改良版が 2022 年に到着しました。3.5 月に OpenAI は ChatGPT をリリースしました。 .

時間の経過とともに、OpenAI は各 GPT モデルのサイズと複雑さを増大させてきました。その結果、タスクによって異なりますが、同じシナリオで人間がテキストを完成させる方法と比較して、一般的にモデルよりも優れたパフォーマンスが得られました。 GPT-4 は 画像処理が可能な優れたマルチモーダルモデル テキスト入力とテキスト出力の生成。対話システム、テキスト要約、機械翻訳など、幅広いアプリケーションで使用できる可能性があります。

オープンAI

@OpenAI

大規模なマルチモーダルモデルである GPT-4 を発表し、機能と整合性で過去最高の結果を達成: https://t.co/TwLFssyALF https://t.co/lYWwPjZbSg

14年2023月18日 • 00:XNUMX

58.2K

4.9K

この新しいバージョンを開発する主な目標の XNUMX つは、 自然言語テキストを理解して生成する能力を向上させる 、特により複雑なシナリオで。このようなシナリオでその機能をテストするために、GPT-4 は元々人間用に設計されたさまざまなテストでテストされました。これらの評価で非常に優れたパフォーマンスを発揮し、多くの場合、人間の受験者の大多数、通常は受験者の上位 10% よりも優れています (これは、ChatGPT のベースとなったバージョンである GPT-3.5 とは対照的であり、スコアは下位 10% でした)。）。

GPT-4 は、これまで以上に創造的で協力的です。ユーザーを使用して生成、編集、および反復できます クリエイティブおよびテクニカルライティング 曲の作曲、脚本の執筆、ユーザーの文体の学習などのタスク。カジュアルな会話では、GPT-3.5 と GPT-4 の違いは微妙です。タスクの複雑さが十分なしきい値に達すると、違いが生じます。 GPT-4 はより信頼性が高く、創造的で、能力が高い GPT-3.5 よりもはるかに具体的な指示を処理します。

「GPT-6 の安全性と信頼性を高めるために 4 か月を費やしました。 GPT-4 は、許可されていないコンテンツのリクエストに応答する可能性が 82% 低く、 信頼できる回答が得られる可能性が 40% 高くなります 内部評価では GPT-3.5 よりも優れています。」

この革命にもかかわらず、 制限はまだ認識されています . 「GPT-4には、社会的偏見、幻覚、相反する徴候など、対処しようとしている多くの既知の制限がまだあります. 社会がこれらのモデルを受け入れるにつれて、透明性、ユーザー教育、および AI リテラシーの向上を奨励および促進します。また、人々が私たちのモデルを形作るための参入経路を広げるつもりです。」

現時点では、 GPT-4 は ChatGPT Plus で API として利用できます 開発者がアプリケーションとサービスを構築するため。すでに提携が発表されているブランドには、Duolingo、Be My Eyes、Morgan Stanley、Khan Academy などがあります。

GPT-4でできること

OpenAI の社長兼共同創設者である Greg Brockman は、GPT-4 のプレゼンテーションで、この新しいバージョンのモデルを使用できるいくつかの用途を示しました。たとえば、 画像認識 、それらを分析し、それらについての会話を開始することができます。冷蔵庫にあるものと一緒に写真をアップロードして尋ねると、 「これらの材料で何ができますか？」 それはあなたに完全な処方箋を返すはずです。

また、Be My Eyes を使用すると、さまざまなボックスやセクションに分割されていても、画像の注目点を説明して理解することができます。 Be My Eyes は GPT-4 を使用して視覚的なアクセシビリティを変革します . Be My Eyes の CTO である Jesper Hvirring Henriksen 氏は、GPT-4 と他の言語および機械学習モデルとの違いは、会話をする能力と、この技術が提供する高度な分析能力の両方にあると説明しています。

「基本的な画像認識アプリは、目の前にあるものだけを教えてくれます。彼らは、麺に適切な種類の材料が含まれているかどうか、または床にある物体が単なるボールではなくつまずきの危険があるかどうかを理解し、それを伝えるための議論を行うことができません。」

OpenAI によって示されたデモの XNUMX つでは、単純な入力をコードに変換する機能さえあり、 シンプルな画像から Web ページを作成する 示されていた。ユーザーが HTML と JavaScript で作成したい Web ページの非常に基本的なスケッチを含む画像が表示され、GPT-4 は、スケッチに示されているように、その Web ページを作成するために必要なすべてのコードを順番に返しました。

ローワン・チャン

@rowancheung

GPT-4 が手描きのスケッチを機能的な Web サイトに変えるのを見たところです。

これは非常識です。 https://t.co/P5nSjrk7Wn

14年2023月21日 • 47:XNUMX

10.7K

690

あなたが「たくさんのテキスト」ミームのファンなら、GPT-4 は、テキストの大きな文字列を理解し、合成するのに役立つ強力な味方です。 GPT-4 は 25,000 語以上のテキストを処理できます 、長い形式のコンテンツの作成、拡張された会話、ドキュメントの検索と分析などのユースケースを可能にします。

になると文芸、あなたは本当に驚くべきことを成し遂げることができます。 OpenAI が強調したい例は、次の要求に対する応答を示しています。結果 (英語) はこれ以上完璧ではありませんでした。 «熱心に住んでいる美しいシンデレラは、ついに幸せを手に入れます。嫉妬深い親族を鼓舞し、愛は魔法のように豪華な王子を育てます。静かに救助し、スリッパの勝利を収め、非常に驚くほど団結し、ゼニアルな若者を熱心に».

ライナス (●ᴗ●)

@LinusEkenstam

人々がGPT-4ですでに行っている驚くべきことをいくつか紹介します

3.5時間未満です

🧵 スレッド

14年2023月22日 • 27:XNUMX

29.5K

968

　 コードを書くという点で飛躍する も相当なものです。の中に Twitter 最初の GPT-4 アプリケーションのいくつかを含む上記のスレッドを参照すると、Snake や Pong などの単純なゲームがどのように再作成され、プログラミングの知識がない人々にコードを提供するかがわかります。

たとえば、 GPT-4 は新しい Bing の原動力です 、この新しいバージョンで実行されている Microsoft 検索用にカスタマイズしました。過去 4 週間の任意の時点で新しい Bing プレビューを使用したことがある場合は、この強力なモデルの以前のバージョンを既に経験しています。 OpenAI は GPT-XNUMX 以降にアップデートを行うため、 Bing はこれらの改善の恩恵を受けるコミュニティのフィードバックに基づいた独自の更新とともに。実際にGPT-4を体験したい方は、新しい Bing プレビューにサインアップするにアクセスすると、新しい Bing を使用して、検索、返信、チャット、作成を行うことができます。