15亿参数的GPT-2被两个CS硕士复制出来了,没有语言建模经验,花了5万美元

机械之心报道 [本文来自:www.ii77.com]

介入:杜伟、张倩
前几天,OpenAI 发布了 7.74 亿参数量的新一版 GPT-2,并透露将在几个月之内发布 15.58 亿参数量的完整版本。但还没比及完整版官宣,有人就已经等不及了,索性本身着手复制了一个 15 亿参数量的 GPT-2,并将其定名为 OpenGPT-2。项目作者是来自布朗大学的两位硕士研究生,他们复制 GPT-2 的破费大约是 5 万美元。
[转载出处:www.ii77.com]

项目的两位作者:Aaron Gokaslan 和 Vanya Cohen 。

读者能够在 Google Colab 上接见该模型并生成文本。

Google Colab 地址:https://colab.research.google.com/drive/1esbpDOorf7DQJV8GXWON24c-EQrSKOit


模型权重:https://drive.google.com/drive/u/0/folders/1KfK5MXtvgH8C615UUZoKPIUVJYIdJxX1

作者透露,复制 GPT-2 没有那么难,论文中的好多究竟都是他们两人能够复制的,而且二人并没有说话建模的经验。所以,只要你感乐趣(壕),你也能本身复制一份。


复制方式和成本


OpenGPT-2 的实现基于 Grover 模型,经由点窜它们的代码库来达到 GPT-2 的说话建模练习方针。因为 Grover 模型是在雷同的大型语料库长进行练习,所以好多代码和超参数很轻易反复使用。他们也没有对 Grover 的超参数进行大量点窜。


至于成本嘛,他们使用本身的代码从零起头练习 GPT-2 模型大约破费了 5 万美元。但需要注重的是,5 万美元只是云较量的估算成本,没有包含更细微的内涵成本(在其他效率更低的易用较量资源上练习模型的结果会更差)。


数据集


OpenAI GPT-2 的原始论文中有对清理数据集的详解。在该论文中,Open AI 的研究人员用到了一个名为 WebText 的数据集,个中包含数百万个网页。


论文地址:https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf


如 WebText 一般,本文中的两位研究者首先解析 Reddit 上 3 个 up-vote 以上的所有链接。同时,他们行使了 Pushshift Reddit scrape 数据集,该数据集鸠合了持续更新的 Reddit 帖子、谈论和有关元数据。然后,作者对这些链接进行过滤,删除那些不太或者包含有效文本或 HTML 的文件类型(即视频文件、PDF 和 CSS 花样文件)的直接链接。


此外,作者还过滤了网页,以删除被各类评估基准和数据集所使用的 Wikipedia 内容。他们并不克确定本身的过滤方式是否相符 OpenAI 的尺度。是以,他们使用 Newspaper Python 库从 HTML 网页上提取文本,然后使用 fastText Python 库只过滤掉英文文本。


具体来说,作者使用了 WhatTheLang python Wrapper。他们行使局部敏感哈希(locally sensitive hashing,LSH)删除这些文档。最后,他们将这些文档散列到了 5-gram 的鸠合中,并删除了相似度阈值大于 0.5 的所有文档。


作者还从数据集中删除了 token 数少于 128 的文档。这些短文档往往质量较低。作者将这一数据集作为 OpenWebTextCorpus 发布。


数据集链接:https://skylion007.github.io/OpenWebTextCorpus/


在编码数据集时,作者使用了 Radford 等人发布的适用于小模型的 Binary Pattern 编码器。他们还行使 OpenWebText 网页爬庖代码库的修订版作为自身数据集鸠合的肇端点。


从公斥地布的 WebText 的 26 万篇文档的鸠合来看,作者发现所有文档的双字节编码(BPE)长度最小为 40,最大为 1024。而 OpenWebText 的分歧之处在于作者将文档长度的最低值设为 128 个 token(替代 BPE),而且不限制文档最大长度。此外,原始 WebTextCorpus 是在这些样本可用之前发布的,是以作者没有使用这些信息来生成清理开导式。


尽管在练习分布上存在差别,作者依然得出了与多数数据集接近的疑心度。


结果


两位作者在 medium 博客中展示了 OpenGPT-2 的生成绩果。他们供应给模型的提醒为:「Recycling is good for the world. NO! YOU COULD NOT BE MORE WRONG!!」,输入模型之后获得了以下输出:



reddit 网友也凭据作者给出的保持进行了测试,并将测试究竟与 OpenAI 前几天发布的 7.74 亿参数量版本进行了对比。有人透露:

我使用沟通的提醒离别测试了 OpenGPT-2 和 OpenAI 的 GPT-2 7.74 亿参数版本,究竟照样 OpenAI 的输出结果更好,所以作者的复制过程或许存在一些问题。


当然,也有人认为 OpenGPT-2 的结果更好:


我认为作者的 OpenGPT-2 结果优于 OpenAI 的 GPT-2 7.74 亿参数版本,但还不足以用来制造令人信服的假新闻。几回测验输入「Shocking revelation! Vladimir Putin and Donald Trump are」,我得出了以下结果最佳的文本。该文本可以更长时间地连结语义连贯性,语句也更有意义,但照样对照轻易被识破。但弗成否认,OpenGPT-2 对研究的确很有匡助。


但我还有一个疑问,OpenGPT-2 究竟只是把它读过的文本随机组合到一路,照样真正地缔造出了新文本。



至于 OpenGPT-2 的生成绩果事实若何,人人能够凭据文中供应的链接测试一下。


参考链接:


https://www.reddit.com/r/MachineLearning/comments/cu9xgi/p_opengpt2_we_replicated_gpt2_because_you_can_too/
https://medium.com/@vanya_cohen/opengpt-2-we-replicated-gpt-2-because-you-can-too-45e34e6d36dc


WAIC 2019 斥地者日将于 8 月 31 日在上海世博中心举办,包含 1 个主单元、4 个分单元、黑客马拉松竞赛和斥地者诊所互动区。

届时,全球顶尖 AI 专家、手艺大牛、知名企业代表以及数千名斥地者将齐聚上海,环绕人工智能前沿理论手艺和斥地实践进行分享与解读。

点击阅读原文,立刻报名。

自媒体 微信号:ii77 扫描二维码关注公众号
爱八卦,爱爆料。

小编推荐

  1. 1 大暴雨!大暴雪!12级大风!降温超12℃!强冷空气来袭,三轮降水过程上线!气象部门紧急提醒→

    昨日,西藏、川西高原、青海及新疆等地部门区域显现雨雪天色。估计将来三天,南方区域将有较强降雨过程,存眷或者激发的次生灾祸及局地强对

  2. 2 毕业生抓紧!这11个行业都招人!

    日前,为全力促进2024届高校卒业生就业,充裕施展分行业就指委和相关行业协会在财富内汇聚资源的优势,国度大学生就业办事平台——24365校园雇

  3. 3 怎么折回旋飞机(怎么折回旋飞机百度网盘)

    大家好,小伟今天来为大家解答怎么折回旋飞机以下问题,怎么折回旋飞机百度网盘很多人还不知道,现在让我们一起来看看吧!1、拿一张正方形纸

  4. 4 什么是汉方药(汉方药什么意思)

    大家好,小伟今天来为大家解答什么是汉方药以下问题,汉方药什么意思很多人还不知道,现在让我们一起来看看吧!1、汉方药其实就是在日本经过

  5. 5 黄腊石冻石价格(黄蜡石冻石多少一克)

    大家好,小娟今天来为大家解答黄腊石冻石价格以下问题,黄蜡石冻石多少一克很多人还不知道,现在让我们一起来看看吧!1、黄蜡石冻蜡价格60-

  6. 6 桐乡这个“宅女”,竟然招回了一批亿元大项目!

    栏目手刺桐乡发布推出《奔驰吧 招商员》专栏。以“商”招商,以“链”招商。2024,桐乡“战狼型”招商军团全力冲刺项目招引,让更多的招商项目

  7. 7 dnf技能栏不见(dnf技能栏不见了按哪一科)

    大家好,小美今天来为大家解答dnf技能栏不见以下问题,dnf技能栏不见了按哪一科很多人还不知道,现在让我们一起来看看吧!1、您要问的是dnf不显

  8. 8 电脑下载歌曲到sd卡(电脑下载歌曲到sd卡上)

    大家好,小娟今天来为大家解答电脑下载歌曲到sd卡以下问题,电脑下载歌曲到sd卡上很多人还不知道,现在让我们一起来看看吧!1、首先将歌曲下载

本文内容来自网友供稿,如有信息侵犯了您的权益,请联系反馈核实

Copyright 2024.爱妻自媒体,让大家了解更多图文资讯!