Claude 3.5 Sonnet。本日、2024 年 10 月 23 日の時点で、この大規模言語モデル (LLM) は、コンピューターの多くの機能を処理できるようになりました。はい、Claude AI は、カーソルの移動から入力、クリック、ブラウジングまで、PC に対する人間の操作を模倣できます。
「コンピューター使用」機能と呼ばれるこの最新アップデートにより、Claude は簡単なコマンドでシステムを制御できるようになりました。画面上で何が起こっているかを分析することで、Claude はこれまで直接入力する必要があったタスクを自動化できます。たとえば、あるアプリ (スプレッドシートなど) から情報を抽出し、オンライン フォームやドキュメント エディターなどの別のアプリに入力できます。Anthropic が示したデモでは、AI がリアルタイムでデータを取得して処理することで、複雑なフォームに自律的に入力することができました。
では、どのように動作するのでしょうか。Claude はデスクトップのスクリーンショットを頼りにし、その画像を使用してどのようなアクションを取るべきかを理解します。AI は、画面上で「見た」ものに基づいて、カーソルをどれだけ動かすか、どのキーを押すかを計算します。現時点では完璧ではありません。スクロールやズームなどの基本的なアクションには苦労することがありますが、これは目覚ましい進歩です。
この機能はベータ版で、Google Cloud の Vertex AI や Amazon の Bedrock などのプラットフォーム上の Anthropic の API 経由でアクセスできます。開発者はすでにこの機能を試して、単純な管理タスクからアプリの検証プロセスまですべてを自動化するツールを作成しています。
ユーザーは、AI が実行できることをある程度制御するために、特定の権限を付与する必要があります。しかし、Claude が進化し続けるにつれて、AI システムにどの程度の自律性を与えることができるのか、また、悪用を防ぐためにどのような安全策が必要なのかという疑問が生じます。つまり、これは AI 開発におけるエキサイティングで少し不安な瞬間です。問題は、「Claude は今何ができるのか」ではなく、「いつさらに多くのことができるようになるのか」です。このような機能により、Claude はアシスタントから自律オペレーターへと急速に進化しているので、この分野から目を離さないでください。