banner
P2N2

P2N2

P2N2代表两个正电荷,两个负电荷,而这正是氦原子的内部结构。夏荷的英文名称是Helim,来自Helium。 你可能觉得这样取名字脑洞未免太大了,但我觉得挺适合的。
mastodon

AI絵画原理についての小さな明確化

本文には ChatGPT(GPT3.5-Turbo)が生成した内容が含まれていますが、すべてをそのままコピーしたわけではありません。

人工知能技術は進化しており、AI 絵画の分野も社会の各界から注目を集めています。AI 絵画は 2022 年末から、物議を醸す新興技術として多くの人々の神経に触れました。しかし、AI 絵画について自分の見解を発表する多くの人々は、AI 絵画の原理に対する誤解から多くの偏見を生じています。その中で最も一般的なものは、AI 絵画が単に画家の作品を組み合わせたものであり、せいぜい接合部でいわゆる技術的なスムージング処理を施しただけで、独創性や創造力が全くないと考えることです。このような考え方は、厳密な科学研究の精神に対する裏切りであり、事実を重視する芸術精神への侮辱でもあり、AI 絵画や伝統芸術の研究と発展にとっても不利です。したがって、Stable Diffusion をはじめとする一連の AI 絵画の原理について具体的に説明することは非常に重要です。また、Stable Diffusion は AI 絵画の中で最初に注目を集めたものであるものの、現代の CS 界で最も先進的な絵画プログラムではなく、特に人物以外の面では Midjourney の方が優れているかもしれません。

Stable Diffusion 公式リポジトリ NovelAI 公式ウェブサイト Midjourney 公式ウェブサイト

まず、私たちは固有の思考方法が、AI 絵画に対する異なる立場や認識を導くことを認める必要があります。伝統的な思想に慣れた人々にとって、AI 絵画が単に画家の作品を組み合わせたものであると考えるのは非常に自然なことです。彼らの思考はすでに固定されており、標準化された伝統芸術や商業芸術の美学を大量に目にした後、AI 絵画を自然に伝統芸術の延長と見なすため、AI 絵画の形式と意味を根本的に理解することが難しいのです。このような固有の観念は彼らを伝統的な芸術の枠組みに閉じ込め、AI 絵画の全く新しい解体と超越を見つけることが難しくしています。パズルという見解は、古い観念と半端な学びの態度が共に生み出した悪果であり、あるいは悪意のある人々が公衆に恐怖を広める方法でもあります。多くの画家が AI 絵画をパズルだと簡単に信じるのも、パズルが古典的な盗作手段であり、AI の著作権問題という争いの事実とぴったり一致するからです。

しかし、AI 絵画には確かにいくつかの欠陥が存在することも否定できません。特定の対象を描く際、AI 絵画には依然としていくつかの限界があり、人間のアーティストのように柔軟で多様な表現ができず、感情や微妙な表情を自然に表現することが難しく、具体的な物事、例えば手や麺を描くことが難しいのです。同様に、AI 絵画の創造も完全に独立したものではなく、以前の作品を学習し模倣する必要があるため、一定の「型にはまった」や「創造性の制限」が存在し、トレーニングセット内の内容が著作権や人権を侵害する場合、これらの作品は複雑な世論の嵐や法的な論争に直面することになります。しかし、これが AI 絵画が単なる接合であることを示すわけではなく、あるいは一部の人々が考えるような「錬金術」の技術であるとも言えません。むしろ、これは AI が簡単に結論を下せない複雑な工業製品であることを示しています。AI は自己学習や深層学習のアルゴリズムを強化することで、人間の思考や表現に無限に近づくことができ、発展の中で「感情」や「意境」をより自然に表現することができるのです。もし単なるパズルであれば、手や麺などの要素がどうしてぼやけてしまうのでしょうか?「原画」がもともとぼやけているから一筆で済ませてしまうのでしょうか?考えてみれば、そうではないでしょう。未知の技術に直面したとき、無駄に推測するよりも、それを単純な「ブラックボックス」として扱う方が、でたらめを言うよりも実際的です。

論理的な証明は空虚ですが、実際に見てみると、Stable Diffusion の公式リポジトリにはその内部の具体的な作業原理が説明されています。ただし、多くの専門用語が含まれており、「パズル」は誤った過度の単純化です。Stable Diffusion の本質は、生成時に実際には降噪アルゴリズムであるということです。これは、不明瞭な画像を明確にするための「ブラックテクノロジー」と理解できます。具体的な比喩としては、冬になると窓に多くの水蒸気が凝結し、外の世界がぼやけてしまうということです。これが Stable Diffusion が画像を生成する際に最初に行うステップです。NLP(自然言語処理)を通じてユーザーのプロンプトを分析し、その情報に基づいて極めてぼやけた色のブロックを生成します。それはまるでガラスの厚い霧のようです。しかし、ノイズ画像に対して何度も反復処理を行うことで、つまりガラスを拭くために紙を使うことで、徐々に高解像度でリアル感のある画像を生成することができます。この紙は、すべての AI に頻繁に現れる技術、「勾配降下アルゴリズム」であり、その力を使って「画像ノイズ」と呼ばれる霧を拭き取ります。数学的には、中学校の知識を使って説明すると、上に開いた関数のグラフの頂点を探すことに似ています。例えば、二次関数の場合、その定点の横座標は-b/2aです。原理は似ています。ただし、コンピュータが処理するこの関数は、中学校で学ぶような関数とは異なり、1 つのパラメータだけではありません。逆に、数億のパラメータを持つことができます。CPU や GPU の強力な計算能力を駆使して、コンピュータは特定の損失関数を最小化し、特定の入力条件に一致する画像を生成するために、n 次元の関数の最低点に徐々に近づいていきます。

Diffusion の英語の意味は「拡散」であり、これがこの AI の本来の仕事です。(Stable は自画自賛で、安定性を表現しています。)このプロセスには画像の具体的な処理部分が含まれており、まずはノイズ画像を準備する必要があります。この画像にはいくつかのランダムなノイズ要素が含まれており、非常に不明瞭です。この画像の生成は、NLP によるユーザーのプロンプトの処理結果といくつかのランダム数に基づいてトレーニングセットから選択されます。実際、人間の絵画プロセスと大差はなく、ただ反復回数がはるかに多いだけです。人間の絵画は下書きを作成する必要がありますが、このノイズ画像は AI の下書きであり、AI はこの時点でどこに何があるべきか、どの色であるべきかを決定します。そして、深層神経ネットワーク(このネットワークの形成も大量の画像トレーニングに依存し、その重みやパラメータを調整します)を利用して反復処理を行い、各反復ごとにノイズ画像を「拡散」し、より詳細で複雑な画像に変換します。したがって、窓を拭くための紙や布も、これらの画像を混ぜ合わせて作られています。各反復の後、数学関数を通じて生成された画像の質を評価し、フィードバックに基づいて次の反復を調整します。

このように見ると、Stable Diffusion の原理はそれほど邪悪ではなく、少なくとも公然とした盗作ではありません。しかし、これは Stable Diffusion で作成された作品が完全な著作権を主張し、法律から完全に保護されることができるというわけではありません。この問題は実際にはより高いレベルで考えるべきであり、著作権そのものに関する問いかけです。SD の原理が人間と同じ学習行動と見なすことができるかどうか、したがって生成された作品が完全な著作権を主張できるのか、それとも技術実験、製品として公共の領域に置かれる運命にあるのか、CS 愛好者のニッチな趣味として、商業利用を厳禁とすべきかどうかは、考慮すべきです。

しかし、いずれにせよ、私たちは AI 絵画の実際の価値を無視することはできず、AI 絵画を単純に選択することはできません。AI 絵画を通じて、私たちはデジタル製図やアルゴリズムによる描画の効率を大幅に向上させ、科学技術の進歩のペースを加速させることができます。AI 絵画を通じて、小さなクリエイターは知識や資金の制約を超え、自分の作品により良いアイデアを提供し、いくつかの寄付を集めることができます(AI 絵画を直接利益にするのではなく)、人間の画家とより良い協力を選ぶ自由を得て、芸術の発展を新しい段階に進めることができます。同時に、AI 絵画は技術に力を与え、CS に新しい機会をもたらし、コンピュータという偉大なインターネットツールを完成させるのに役立ちます。

以上のように、私たちは AI 絵画を理解し認識する際に、弁証法的な思考方法を持ち、比較分析を行う必要があります。私たちはその限界だけを見ることはできず、その利点や実際の価値を過度に誇張することもできません。多くの CS 作業者は、2022 年から 2023 年にかけて爆発的に成長した AI が、原理的には特に革新がないことを発見しています。彼らはただより大きなトレーニングセットを使用しているだけです。それがどれほどの障害であっても、AI は進化し続け、技術の反復は必然的に芸術に多くの影響を与えるでしょう。同時に、伝統的な芸術創作者を尊重することも重要です。芸術は工業ではなく、人間が美しいものを追求することと社会的手段です。人工知能と文化芸術の共同発展を進めることが、今後最も可能性のある主流の声となるでしょう。

臨考日記計画
SHSEE Diary Project#

雁過留声,人過留文。中考まであと49日、私は日記を書く方法で中考の約1週間前まで続け、見たこと、聞いたこと、感じたことを記録したいと思います。
これは本計画の第2篇です。ご支援ありがとうございます!

中心化ブログ 個人ホームページ ブログナビゲーション

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。