OpenAI 部署網路爬蟲為 GPT 5 做準備

openai 推出了一款名為“gptbot”的網路爬蟲工具，旨在增強未來 gpt 模型的功能。

該公司表示，通過 gptbot 收集的資料可能會提高模型的準確性並擴充套件其功能，這標誌著人工智慧驅動的語言模型的發展邁出了重要一步。

網路爬蟲（也稱為網路蜘蛛）在為廣闊的網際網路內容建立索引方面發揮著關鍵作用。 google 和 bing 等著名搜尋引擎依靠這些機械人來用相關網頁填充其搜尋結果。

openai 的 gptbot 將有乙個獨特的目的：收集公開資料，同時小心避開涉及付費牆、個人資料收集或違反 openai 政策的內容的**。

*所有者只需在標準伺服器檔案中執行“禁止”命令即可阻止 gptbot 抓取其**。這使他們能夠控制網路爬蟲可以訪問其內容的哪些部分。

openai 緊接著該公司提交了“gpt-5”商標申請，預計該商標將接替當前的 gpt-4 模型。

該檔案於 7 月 18 日向美國專利商標局提交，內容涵蓋“gpt-5”在基於人工智慧的人類語音和文字、音訊到文字轉換、語音識別和語音合成中的使用。

然而，儘管 gpt-5 商標申請讓人工智慧愛好者興奮不已，但 openai 首席執行官 sam altman 警告不要抱有過早的期望。 altman 透露，該公司距離啟動 gpt-5 培訓還很遠，因為在開始這一過程之前需要進行廣泛的安全審核。

openai 最近的努力並非沒有引起爭議。人們對該公司的資料收集做法感到擔憂，特別是圍繞版權和同意問題。

6 月，日本隱私監管機構就未經授權的資料收集向 openai 發出警告。今年早些時候，義大利因涉嫌違反歐盟隱私法而暫時禁止使用 chatgpt。

openai 和微軟目前還面臨 16 名原告提起的集體訴訟，他們聲稱 chatgpt 使用者互動中的私人資訊在未經適當同意的情況下被訪問。這些公司還因 github copilot 而受到訴訟，原告指控該**生成工具在未提供適當歸屬的情況下抓取了開發人員的**，從而侵犯了開發人員的權利。

如果這些指控屬實，openai 和微軟都有可能違反《計算機欺詐和濫用法》，這是與網路抓取案件相關的法律先例。

隨著 openai 不斷突破人工智慧技術的界限，它必須應對這些挑戰，以確保人工智慧領域負責任和道德的發展。