NLP大全：论文、博客、教程、工程进展全梳理

发布日期：2020/2/22 19:56:47 访问次数：484

机器之心编译在整个2019年，NLP范畴都沉淀了哪些东西？有没有什麼是你错过的？假如觉得本人梳理太费时，无妨看一下本文作者整理的后果。2019 年对自然言语处置（NLP）来说是令人印象深入的一年。本文将着重讲述一些 2019 年我在机器学习和自然言语处置范畴有所见闻的重要事情。我会把重点次要放在自然言语处置上，但也会触及若干人工智能范畴的趣闻。次要内容包括研讨论文、博客、工具和数据集、社区讨论、教程资源等。长文预警，建议先点珍藏。目录研讨论文机器学习/自然言语处置的发明力和社群工具和数据集博文文章教程资源人工智能伦理学研讨论文2019 年，谷歌人工智能团队带来了 ALBERT，它是用于情境化言语表征的自监视学习模型 BERT 的精简版。次要的改良在于增加了冗余，愈加无效地分配了模型的功能。此办法在 12 个自然言语处置义务上到达了以后最佳功能（SOTA）。2018 年底，英伟达的研讨者们宣布了一份抢手论文 (A Style-Based Generator Architecture for Generative Adversarial Networks)（取名爲 StyleGAN），提出了对立生成网络的另一种生成器架构，灵感来自于作风迁移成绩。2019 年，这份打工有了更新 (Analyzing and Improving the Image Quality of StyleGAN)，着重研讨了诸如重新设计生成器正则化的进程等方面。下面一行爲目的图像，上面一行爲分解图像。图源：https://arxiv.org/abs/1912.049582019 年，我最爱的论文之一是 code2seq (https://code2seq.org/)，这是一种从构造化表征的代码中生成自然言语序列的办法。这样的研讨可以对自动代码摘要和文档化的使用起到助益。你可曾想过，有没有能够爲生物医学文本发掘训练一个生物医学的言语模型？答案就是 BioBERT (BioBERT: a pre-trained biomedical language representation model for biomedical text mining)，这是一个可以从生物医学文献中提取重要信息的语境化模型。在 BERT 宣布后，Facebook 的研讨者们发布了 RoBERTa (RoBERTa: A Robustly Optimized BERT Pretraining Approach)，引入新的优化办法来改良 BERT，也在多项自然言语处置的基准测试中到达了以后最优效果。最近，Facebook 人工智能部门的研讨者们还宣布了一种基于全留意力层来改良 Transformer 言语模型效率的办法 (https://ai.facebook.com/blog/making-transformer-networks-simpler-and-more-efficient/)。这个研讨组的其它打工 (https://ai.facebook.com/blog/-teaching-ai-to-plan-using-language-in-a-new-open-source-strategy-game/) 还包括了如何教人工智能零碎经过制定方案来运用自然言语。全留意力层。图来：https://arxiv.org/pdf/1907.01470.pdf可解释性依然是机器学习和自然言语处置范畴的重要议题。这篇论文 (Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI) 关于可解释性、分类法以及将来研讨的机遇提供了一份片面的综述。Sebastian Ruder 的博士论文也值得一看，题爲：Neural Transfer Learning for Natural Language Processing。新加坡国立大学等机构的研讨者开发了一种办法 (Emotion Recognition in Conversations with Transfer Learning from Generative Conversation Modeling)，可以在对话的情境下完成心情辨认，这将爲情感染的对话生成铺平路途。另一项相关打工则是用一种叫做 DialogueGCN (DialogueGCN: A Graph Convolutional Neural Network for Emotion Recognition in Conversation) 的图神经网络办法，来探测对话中的心情。作者还提供了代码完成：https://github.com/SenticNet/conv-emotion/tree/master/DialogueGCN。谷歌量子人工智能团队在 Nature 宣布了一篇论文，宣称开发了一台量子计算机，速度比世界上最大的超级计算机更快。之前提到过，可解释性是神经网络架构里需求大幅改良的一个范畴。这篇论文 (Attention is not not Explanation) 讨论了在言语模型的情境下，留意力机制造爲可解释性的一种牢靠办法所具有的局限性。神经逻辑机 (Neural Logic Machines) 是一种神经符号网络架构，在归结学习和逻辑推理上效果都不错。这个模型尤爲擅长数组排序和寻觅最短途径之类的义务。神经逻辑机架构。图源：https://arxiv.org/pdf/1904.11694.pdf这里还有一篇论文 (On Extractive and Abstractive Neural Document Summarization with Transformer Language Models)，把 Transformer 言语模型使用到了抽取式和摘要式 Neural document summarization。研讨者们开收回了一种办法，着重于应用比拟来打造和训练机器学习模型。这种办法 (https://blog.ml.cmu.edu/2019/03/29/building-machine-learning-models-via-comparisons/) 不需求少量的特征-标签对，它将图像与之前见过的图像相比拟，以断定这张图像能否应该属于某个标签。Nelson Liu 等宣布的论文 (Linguistic Knowledge and Transferability of Contextual Representations) 讨论了 BERT 和 ELMo 等预训练的语境模型所捕获到的言语学知识类型。XLNet是一种自然言语处置的预训练办法，在 20 个义务上比 BERT 更胜一筹。我在这里(https://medium.com/dair-ai/xlnet-outperforms-bert-on-several-nlp-tasks-9ec867bb563b) 写过一篇关于这项重要研讨的总结。这份 DeepMind 的研讨 (Learning and Evaluating General Linguistic Intelligence) 展现了一项触及面普遍的实证调查后果，其目的爲评价用于各种义务的言语了解模型。这项剖析关于更好天文解言语模型捕捉的内容、进步模型效率尤爲重要。VisualBERT (VisualBERT: A Simple and Performant Baseline for Vision and Language) 是一个小而弱小的框架，用于爲图像-言语类义务建模，相关义务包括 VQA 、Flickr30K 等。这个办法运用了堆叠的 Transformer 层和自留意力机制，来对齐一段文本和一块图像区域之中的元素。这份研讨 (To Tune or Not to Tune? Adapting Pretrained Representations to Diverse Tasks) 提供了一份比拟自然言语处置迁移学习办法的详尽剖析，以及爲自然言语处置打工者们预备的指南。Alex Wang 和 Kyunghyun 提出了 BERT 的一种完成办法 (BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model)，可以生成高质量且流利的后果。你可以运用这份 Colab 笔记原本试试：https://colab.research.google.com/drive/1MxKZGtQ9SSBjTK5ArsZ5LKhkztzg52RVFacebook 的研讨者们发布了 XLM 的 PyTorch 版代码 (https://github.com/facebookresearch/XLM)，这是一个跨言语的预训练模型。这份研讨 (https://www.cl.uni-heidelberg.de/statnlpgroup/blog/rl4nmt/) 对神经机器翻译范畴强化学习算法的使用做了综合剖析。这篇在 JAIR 上宣布的论文 (A Survey of Cross-lingual Word Embedding Models) 对跨言语词嵌入模型的训练、评价和运用做了片面综述。The Gradient 上宣布了一篇极佳的文章 (https://thegradient.pub/the-promise-of-hierarchical-reinforcement-learning/)，详述了以后强化学习的局限性，并提供了应用分层强化学习的潜在开展方向。很快就有人发布了一系列优秀的教程 (https://github.com/araffin/rl-tutorial-jnrr19/blob/master/1_getting_started.ipynb)，你可以经过这组教程来开端接触强化学习。这篇论文 (Contextual Word Representations: A Contextual Introduction) 是情境化词表征的精简版入门读物。机器学习/自然言语处置的发明力和社群机器学习被用于处理真实世界的各种成绩，同时它也被用在了一些风趣且有发明力的中央。机器学习的发明力和人工智能的任何其他研讨范畴异样重要，由于最终，我们希望造出可以协助我们塑造文明和社会的人工智能零碎。到了年末之际，Gary Marcus 和 Yoshua Bengio 在深度学习、符号人工智能和混合型人工智能零碎的想法等议题上停止了争辩。2019 斯坦福年度AI报告于年底面世，报告中关于人工智能现状片面的剖析可以协助我们更好天文解人工智能的全体进程。知识推理依旧是一个重要的研讨范畴，由于我们想要建造的人工智能零碎，不只应该能基于数据做预测，还应该了解这些决议并对它们停止推理。这类技术可以用于对话式人工智能，其目的是使得智能代理可以自然地和人们停止对话。看看 Nasrin Mostafazadeh 的这份采访 (https://www.forbes.com/sites/ayurellahornmuller/2018/12/31/the-art-of-ai-storytelling-how-one-30-under-30-scientist-is-teaching-devices-to-make-assumptions/#12824a1e2a4f)。他在采访中讨论了知识推理以及讲故事、言语了解等使用。你也可以看看这篇关于如何在知识推理中运用言语模型的新论文 (Explain Yourself! Leveraging Language Models for Commonsense Reasoning)。激活图谱是谷歌和 Open AI 的研讨者们开发的一项技术，用于更好天文解和可视化神经网络中神经元之间发作的交互。InceptionV1 的图像分类网络的激活图谱展现了很多完全完成的特征，如电子商品、修建物、食物、植物的耳朵、动物和多水的背景。图来：博文 https://openai.com/blog/introducing-activation-atlases/看一下 Geoffrey Hinton 和 Yann LeCun 出品的这份图灵课程 (https://fcrc.acm.org/turing-lecture-at-fcrc-2019)，往年他俩和 Yoshua Bengio 一同取得了图灵奖。这篇论文 (Tackling Climate Change with Machine Learning) 讨论了如何用机器学习应对气候变化。OpenAI 宣布了一篇触及面很广的报告 (Release Strategies and theSocial Impacts of Language Models)，讨论了言语模型的社会影响力，包括合理运用以及潜在的技术滥用等主题。心情剖析依然被用于各种各样的使用。The Mojifier (https://themojifier.com/) 是一个很酷的项目，它可以检查图像并检测其中的心情，然后把脸交换成检测到的心情所对应的表情符号。往年将人工智能技术使用于放射学的研讨也非常抢手。这里有篇不错的文章 (Radiological images and machine learning: trends, perspectives, and prospects) 总结了这个研讨范畴的趋向和瞻望。纽约大学的研讨者们发布了一个基于 Pytorch 的深度神经网络 (https://medium.com/@jasonphang/deep-neural-networks-improve-radiologists-performance-in-breast-cancer-screening-565eb2bd3c9f)，可以改良放射科医生对乳腺癌的筛查。这里还发布了一个重要的数据集，叫作 MIMIC-CXR (https://physionet.org/content/mimic-cxr/2.0.0/)，其中包括了 X 光胸片和放射学文本报告的数据库。纽约时报写了一篇报道 (https://www.nytimes.com/2019/01/02/obituaries/karen-sparck-jones-overlooked.html)，记叙了 Karen Spark Jones 在自然言语处置和信息检索范畴做出的具有创始性的奉献。OpenAI Five (https://openai.com/blog/openai-five-defeats-dota-2-world-champions/) 成爲首个在电竞游戏上打败世界冠军的人工智能零碎。全球人工智能人才报告关于世界范围内的人工智能人才储藏，以及全球对人工智能人才的需求做了一份详细的汇总。DeepMind 团队的播客 (https://deepmind.com/blog?filters=%7B%22category%22:%5B%22Podcasts%22%5D%7D)值得一看。这个节目的嘉宾们会讨论人工智能当下最爲紧迫的话题。关于人工智能的潜力，Demis Hassbis 在经济学人做了一个访谈 (https://worldin.economist.com/article/17385/edition2020demis-hassabis-predicts-ai-will-supercharge-science?utm_medium=pr&utm_source=inf-a&utm_campaign=worldin)，议论了一些将来学的想法，比方把人工智能作爲人类大脑的延伸，或许能以此处理一些重要的迷信成绩。2019 异样见证了机器学习在安康范畴的杰出开展。比方，麻省总医院（波士顿综合性医院）的研讨者们开发了一个可以辨认脑出血的人工智能零碎 (https://venturebeat.com/2019/01/04/massachusetts-generals-ai-can-spot-brain-hemorrhages-as-accurately-as-humans/)，精度可以到达人类程度。人工智能零碎剖析的脑部扫描Janelle Shane 总结了一组「奇异」的实验 (https://aiweirdness.com/post/181621835642/10-things-artificial-intelligence-did-in-2018)，展现了机器学习如何地被使用于各种风趣的实验。有时分，这种实验能协助我们真正了解人工智能零碎究竟在干什麼，以及没有在干什麼。有些实验触及把神经网络用于生成假蛇，或许讲笑话。蛇的品种。图源：https://aiweirdness.com/post/181621835642/10-things-artificial-intelligence-did-in-2018学习如何运用基于 TensorFlow 的机器学习模型来寻觅行星：https://www.blog.google/topics/machine-learning/hunting-planets-machine-learning/OpenAI 讨论了关于发布大规模无监视言语模型的担忧（包括潜在的歹意运用案例）：https://openai.com/blog/better-language-models/#sample1这个 Colab 笔记本有一份十分棒的入门教材：https://colab.research.google.com/github/google/nucleus/blob/master/nucleus/examples/dna_sequencing_error_correction.ipynb，协助你学习如何把 Nucleus 和 TensorFlow 用于 DNA 序列纠错。这里还有一篇优秀的博文 (https://blog.floydhub.com/exploring-dna-with-deep-learning/)，讲了如何把深度学习架构用于探究 DNA。图片来源：https://raw.githubusercontent.com/google/nucleus/master/nucleus/examples/images/consensus-approach-overview.jpgAlexander Rush 是一位哈佛的自然言语处置研讨者，他写了一篇关于张量成绩的重要文章，以及它们在以后的库上是如何暴显露来的。他也议论了关于把命名索援用于张量的提议。工具和数据集这里我次要记载一些和软件以及数据集有关的故事，这些软件和数据集对自然言语处置和机器学习的研讨和工程化起到了帮助作用。Hugging Face 发布了一个抢手的 Transformer 库 (https://github.com/huggingface/transformers)，基于 Pytorch，名爲 pytorch-transformers。它使得自然言语处置从业者和研讨者可以复杂地运用最先进的通用架构，诸如 BERT、GPT-2 和 XLM 等。假如你对如何运用 pytorch-transformers 感兴味，你可以从很多中央开端着手。不过这篇 Roberto Silveira 的教程 (https://rsilveira79.github.io/fermenting_gradients/machine_learning/nlp/pytorch/pytorch-transformer-squad/) 十分详尽，通知你如何把这个库用于机器阅读了解，我特别爱。TensorFlow 2.0 发布了，有许多新的功用。在这里可以读到最佳运用办法 (https://medium.com/tensorflow/effective-tensorflow-2-0-best-practices-and-whats-changed-a0ca48767aff)。Fran ois Chollet 还在这个 Colab 笔记本 (https://colab.research.google.com/drive/1UCJt8EYjlzCs1H1d1X0iDGYJsHKwu-NO) 中写了一篇关于新功用的片面综述。PyTorch 1.3发布了，多了一大堆的新功用，其中包括命名张量和其它前端的改良。艾伦人工智能研讨所发布了 Iconary (https://iconary.allenai.org/)，这是一个可以和人类玩猜图游戏的人工智能零碎。这项打工结合了图像/言语学习零碎和知识推理。他们还宣布了一个新的知识推理基准 (Abductive Commonsense Reasoning)，名爲 Abductive-NLI。spaCy 发布了新的库 (https://explosion.ai/blog/spacy-transformers)，支持把 Tranformer 言语模型结合到他们本人的库中，从而可以在 spaCy 自然言语处置体系中提取特征并加以运用。这项打工基于 Hugging Face 开发的著名 Transformer 库。Maximilien Roberti 还写了一篇不错的文章 (https://towardsdatascience.com/fastai-with-transformers-bert-roberta-xlnet-xlm-distilbert-4f41ee18ecb2)，讲述如何把 fast.ai 的代码和 pytorch-transformers 结合起来。Facebook 人工智能团队发布了 PHYRE (https://phyre.ai/)，这是一个物理推理的基准，目的是经过处理各种物理成绩，测试人工智能零碎物理推理的才能。图片来源：https://phyre.ai/斯坦福的自然言语处置组发布了 StanfordNLP 0.2.0 (https://stanfordnlp.github.io/stanfordnlp/) 版本，这是一个用于自然言语剖析的 Python 库。你可以在 70 多种不同的言语上停止不同的言语剖析，比方词形复原和词性标注。GQA (https://cs.stanford.edu/people/dorarad/gqa/) 是一个视觉问答数据集，帮助在视觉推理方面的研讨。exBERT（exBERT: A Visual Analysis Tool to Explore Learned Representations in Transformers Models）是一个可视化交互工具，探究 Transformer 言语模型的嵌入向量和留意力。你可以在这里 (http://exbert.net/) 尝试 demo。exBERT。图源：http://exbert.net/Distill 宣布了一篇关于如何可视化循环神经网络 (RNN) 的记忆进程的文章 (https://distill.pub/2019/memorization-in-rnns/)。Mathpix这个工具可以依据你提供的一张公式图片输入 latex 版本的公式。图片来源：https://mathpix.com/Parl.ai (https://parl.ai/) 这个平台拥有许多知名数据集，触及各项研讨，包括对话和对话式人工智能。Uber 的研讨者们发布了 Ludwig (https://uber.github.io/ludwig/)，这个开源的工具使得用户们可以复杂地训练和测试深度学习的模型，只需写几行代码即可。次要是爲了防止训练和测试模型时的代码量。谷歌人工智能团队发布了「自然成绩」数据集，这是一个用于训练和评测开放域上的问答零碎的大规模语料库。博客文章往年是 NLP 数据迷信作家和喜好者数量激增的一年。这对我们的范畴十分无益，我们也鼓舞更多的互相讨论和学习。这里我列出一些风趣且必看的博客文章：Christian Perone 对最大似然估量（MLE）和最大后验概率（MAP）停止了详细引见，它们是协助我们了解如何估量模型参数的重要原理。文章链接：http://blog.christianperone.com/2019/01/mle/Reiichiro Nakano 在博客中讨论了基于对立性鲁棒分类器的神经作风迁移。文章链接：https://reiinakano.com/2019/06/21/robust-neural-style-transfer.html；Colab 笔记本链接：https://colab.research.google.com/github/reiinakano/adversarially-robust-neural-style-transfer/blob/master/Robust_Neural_Style_Transfer.ipynbSaif M. Mohammad 撰写了一系列文章讨论了 ACL 的历时剖析。文章链接：https://medium.com/@nlpscholar/state-of-nlp-cbf768492f90「三张图辨别表示从事 NLP 的均匀学术年龄、中位数学术年龄以及作者在学术年龄发第一篇论文的百分比。」——图片来源 https://medium.com/@nlpscholar/state-of-nlp-cbf768492f90言语模型可以学习语法吗？这篇文章经过运用构造探测证明运用上下文表示法和查找树构造的办法是可行的。文章链接：https://nlp.stanford.edu/~johnhew/structural-probe.htmlAndrej Karpathy 写了一篇博客总结了如何无效训练神经网络的办法并停止了理论。Google AI 研讨人员和其他研讨人员协作增强了对运用 BERT 模型的搜索了解。像 BERT 这样的语境化模型足以了解搜索行爲面前的意图。文章链接：https://www.blog.google/products/search/search-language-understanding-bertRectified Adam（RAdam）是基于 Adam 优化器的新优化技术，有助于改善 AI 架构。在寻觅更好、更波动的优化器上我们曾经付出许多努力，但该文章称要将重点放在优化的其他方面，这些方面关于进步收敛性异样重要。文章链接：https://medium.com/@lessw/new-state-of-the-art-ai-optimizer-rectified-adam-radam-5d854730807b随着近来机器学习工具的少量开发，关于如何完成机器学习零碎以处理实践成绩的讨论也越来越多。Chip Huyen 写了一篇风趣的文章讨论了机器学习零碎设计，强调了超参数调优和数据管道。NVIDIA 发明了最大言语模型的记载，训练了数十亿参数的模型。Abigail See 撰写了一篇不错的博客，解释如何在爲执行自然言语生成义务而开发的零碎环境中停止良好的对话。文章链接：http://www.abigailsee.com/2019/08/13/what-makes-a-good-conversation.htmlGoogle AI 发布了两个自然言语对话数据集，旨在运用更复杂和自然的对话数据集来改善对话式使用顺序，例如数字助理。文章链接：https://ai.googleblog.com/2019/09/announcing-two-new-natural-language.html深度强化学习依然是 AI 范畴中讨论最普遍的话题之一，它甚至惹起了心思学和神经迷信范畴人员的兴味。Samira Abner 撰写了一篇博客，总结了 Transfoemer 和胶囊网络及其衔接面前的次要结构要素。文章链接：https://staff.fnwi.uva.nl/s.abnar/?p=108Adam Kosiorek 在基于堆叠的胶囊自动编码器（一种胶囊网络的无监视版本）上写了这篇文章，可以使用于目的检测。文章链接：http://akosiorek.github.io/ml/2019/06/23/stacked_capsule_autoencoders.html图片来源：https://staff.fnwi.uva.nl/s.abnar/?p=108研讨人员在 Distill 上宣布了一篇互动文章，旨在展现对高斯进程可视化的探究。文章链接：https://distill.pub/2019/visual-exploration-gaussian-processes/经过 Distill，Augustus Odena 呼吁研讨人员处理有关 GAN 的几个重要的开放性成绩。图卷积网络（GCN）的 PyTorch 完成如下，可用于对渣滓邮件发送者和非渣滓邮件发送者停止分类。PyTorch 完成：https://github.com/zaidalyafeai/Notebooks/blob/master/Deep_GCN_Spam.ipynb年终，VentureBeat 发布了由 Rumman Chowdury、Hilary Mason、Andrew Ng 和 Yan LeCun 等专家参与的 2019 预测列表。可以看看他们的预测能否正确。这篇文章解释了如何优化 BERT 以执行多标签文本分类：https://medium.com/huggingface/multi-label-text-classification-using-bert-the-mighty-transformer-69714fa3fb3d由于 BERT 的盛行，在过来的几个月中，许多研讨人员开发了一些办法来「紧缩」BERT，在原来版本的根底上构建更快、更小且内存效率更高的版本。Mitchell A.Gordon 撰写了一篇引见紧缩类型与运用办法的综述。文章链接：http://mitchgordon.me/machine/learning/2019/11/18/all-the-ways-to-compress-BERT.html超级智能依然是专家们争论的话题。这是一个需求正确了解框架、政策以及细心察看的重要主题。我发现了一系列的风趣综合文章，关于了解有关超级智能的成绩和留意事项很有用。文章链接：https://www.fhi.ox.ac.uk/wp-content/uploads/Reframing_Superintelligence_FHI-TR-2019-1.1-1.pdfEric Jang 写了一篇博客引见了元学习的概念，旨在树立和训练机器学习模型，这种模型不只可以预测，而且可以学习。文章链接：https://blog.evjang.com/2019/02/maml-jax.htmlSebastian Ruder 总结了 AAAI 2019 的会议重点：https://ruder.io/aaai-2019-highlights/图神经网络往年遭到了普遍的讨论。David Mack 撰写了一篇不错的可视化文章，引见了他们如何运用此技术并执行最短途径计算。文章链接：https://medium.com/octavian-ai/finding-shortest-paths-with-graph-networks-807c5bbfc9c8贝叶斯办法依然是一个风趣的话题，尤其是如何将它们使用于神经网络，以防止过拟合等罕见成绩。上面是 Kumar Shridhar 关于该话题建议的阅读清单。文章链接：https://medium.com/neuralspace/bayesian-neural-network-series-post-1-need-for-bayesian-networks-e209e66b70b2「以点估量爲权重的网络与以概率散布爲权重的网络」。图片来源：https://arxiv.org/pdf/1806.05978.pdf教程资源在这一章，我将列出一系列教程资源。CMU 发布了「NLP 神经网络」课程资料和教学纲要。Elvis Saravia 和 Soujanya Poria 发布了一个名爲 NLP-Overview 的项目，旨在协助先生和从业人员取得适用于 NLP 的深度学习技术的扼要综述，包括实际、算法、使用顺序和最新技术效果，相关链接：https://github.com/omarsar/nlp_overviewNLP 概述。微软研讨实验室在数据迷信的根底上出版了收费的电子书，范围从马尔可夫链蒙特卡罗到随机图。电子书链接：https://www.datasciencecentral.com/profiles/blogs/new-book-foundations-of-data-science-from-microsoft-research-lab《机器学习数学》是一本收费的电子书，引见了机器学习中运用的最重要的数学概念。它还包括一些描绘机器学习局部的 Jupyter 笔记本教程。电子书链接：https://mml-book.github.io/Jean Gallier 和 Jocelyn Quaintance 撰写了一本收费电子书，涵盖了机器学习中运用的数学概念。电子书链接：https://www.cis.upenn.edu/~jean/math-deep.pdf斯坦福大学发布了有关「自然言语了解」课程的视频播放列表。关于学习，OpenAI 整理了一份很棒的清单，提供了有关如何持续学习和进步机器学习技艺的建议。他们的员工每天都运用这些办法来不时学习和扩展知识。清单链接：https://openai.com/blog/learning-day/Adrian Rosebrock 发布了一本长达 81 页的指南，引见如何运用 Python 和 OpenCV 完成计算机视觉。指南链接：https://www.pyimagesearch.com/start-here/Emily M. Bender 和 Alex Lascarides 出版了一本名爲《NLP 的言语根底》的书。这本书的次要讨论了 NLP 的意义，解释了 NLP 在语义学和语用学方面的根底。电子书链接：http://www.morganclaypoolpublishers.com/catalog_Orig/product_info.php?products_id=1451Elad Hazan 在「机器学习的优化」上宣布了他的课堂笔记，旨在经过简明的数学和符号将机器学习训练成绩引见爲一个优化成绩。笔记链接：https://drive.google.com/file/d/1GIDnw7T-NT4Do3eC0B5kYJlzwOs6nzIO/viewDeeplearning.ai 还宣布了一篇很棒的文章，讨论了运用直观、可互动的方式停止神经网络参数优化。文章链接：https://www.deeplearning.ai/ai-notes/optimization/?utm_source=social&utm_medium=twitter&utm_campaign=BlogAINotesOptimizationAugust272019Andreas Mueller 发布了一个视频列表，对应一个名爲「使用机器学习」的新课程。视频链接：https://www.youtube.com/playlist?list=PL_pVmAaAnxIQGzQS2oI3OWEPT-dpmwTfAFast.ai 发布了新 MOOC 课程，名爲「从根底中停止深度学习」。课程衔接：https://www.fast.ai/2019/06/28/course-p2v3/麻省理工学院发布了有关「深度学习入门」课程的一切视频和教学纲要。课程链接：https://www.youtube.com/playlist?list=PLtBw6njQRU-rwp5__7C0oIVt26ZgjG9NIChip Huyen 在推特上发布了一条极好的入门机器学习的收费在线课程清单。Andrew Trask 出版的书名爲《Grokking-Deep-Learning》。这本书是了解神经网络体系构造根本组成的一个好终点。电子书链接：https://github.com/iamtrask/Grokking-Deep-LearningSebastian Raschka 在 github 中上传了 80 份笔记本，其中引见了如何完成不同的深度学习模型，如 RNN 和 CNN。重要的是，一切模型都已在 PyTorch 和 TensorFlow 中完成。教程（https://medium.com/@d3lm/understand-tensorflow-by-mimicking-its-api-from-scratch-faa55787170d）可以帮你深化理解 TensorFlow 的打工原理。Christian Perone 爲 PyTorch 设计了一个项目。Fast.ai 还发布了一个名爲「NLP 入门」的课程，并附带一个播放列表。主题范围从情感剖析到主题建模再到 Transformer。视频链接：https://www.youtube.com/playlist?list=PLtmWHNX-gukKocXQOkQjuVxglSDYWsSh9Xavier Bresson 的演讲可以协助了解用于分子生成的图卷积神经网络。演讲链接：https://ipam.wistia.com/medias/excbyr8gvv；PPT ：http://helper.ipam.ucla.edu/publications/glws4/glws4_16076.pdf。讨论如何预训练 GNN 的论文：https://arxiv.org/abs/1905.12265在图网络的主题中，一些工程师运用图网络来预测分子和晶体的特性：https://www.eurekalert.org/pub_releases/2019-06/uoc--eug060719.php。Google AI 团队还发布了一篇出色的博客解释了他们如何运用 GNN 停止气息预测。博客链接：https://ai.googleblog.com/2019/10/learning-to-smell-using-deep-learning.html假如你对运用 Graph Neural Networks 感兴味，这里是各种 GNN 及其使用的片面概述：https://arxiv.org/pdf/1812.08434.pdf这是约翰霍普金斯大学的 Rene Vidal 等无监视学习办法的视频的播放列表：https://www.youtube.com/playlist?list=PLFInMJnvb3owAddRh4qk2gCX25kGLDay-假如你有兴味将预训练的 TensorFlow 模型转换爲 PyTorch，可以看 Thomas Wolf 的这篇博客：https://medium.com/huggingface/from-tensorflow-to-pytorch-265f40ef2a28想理解生成型深度学习吗？David Foster 写了一本很棒的书，教数据迷信家如何使用 GAN 和编码器-解码器模型来完成绘画、写作和作曲。电子书链接：https://www.oreilly.com/library/view/generative-deep-learning/9781492041931/；这是本书随附的官方代码：https://github.com/davidADSP/GDL_code，其中包括 TensorFlow 代码。应用（https://github.com/MLSlayer/Generative-Deep-Learning-Code-in-Pytorch）也可以将代码转换爲 PyTorch。该 Colab 笔记本包括一些代码块，用于理论和理解因果推理概念，例如干涉（intervention）、反现实等。链接：https://colab.research.google.com/drive/1rjjjA7teiZVHJCMTVD8KlZNu3EjS7Dmu#scrollTo=T9xtzFTJ1Uwf这是 Sebastian Ruder，Matthew Peters，Swabha Swayamdipta 和 Thomas Wolf 提供的 NAACL 2019 的「自然言语处置中的转移学习」教程的资料。资料链接：https://github.com/huggingface/naacl_transfer_learning_tutorial。他们还提供了配套的 Google Colab 笔记本：https://colab.research.google.com/drive/1iDHCYIrWswIKp-n-pOg69xLoZO09MEgfJay Alammar 的另一篇很棒的博客关于数据表示的主题。他还写了许多其他风趣的插图指南，包括 GPT-2 和 BERT。Peter Bloem 还宣布了十分详细的博客，解释了构成 Transformer 的一切要素。博客链接：http://peterbloem.nl/blog/transformers规范自我留意力机制的可视化图，图片来源：http://peterbloem.nl/blog/transformers这是 Mihail Eric 撰写的关于 ACL 2019 NLP 趋向的精彩概述。包括将知识注入 NLP 体系构造、可解释性和增加成见等。文章链接：https://www.mihaileric.com/posts/nlp-trends-acl-2019/。假如你感兴味，这里还有另外几个概述。链接 2：https://medium.com/@mgalkin/knowledge-graphs-in-natural-language-processing-acl-2019-7a14eb20fce8和链接 3：http：/ /noecasas.com/post/acl2019/ 。斯坦福（CStan）发布了 CS231n 2019 版的完好课程纲要。课程链接：http://cs231n.stanford.edu/syllabus.htmlDavid Abel 发布了 ICLR 2019 的概述。文章链接：https://david-abel.github.io/notes/iclr_2019.pdf。他也提供了 NeurlPS2019 的综述。李沐的《入手学深度学习》是一本很棒的书，它向读者引见了有关深度学习的相关内容。关于 BERT、ELMo等用于迁移学习 NLP 的插图指南链接如下：http://jalammar.github.io/illustrated-bert/图片来源：http://jalammar.github.io/illustrated-bert/Fast.ai 发布了 2019 年版「面向顺序员的适用深度学习」课程。课程链接：https://www.fast.ai/2019/01/24/course-v3/由 Pieter Abbeel 和其他教授设计的这门课程，可以协助你理解关于深度无监视学习的知识。课程链接：https://sites.google.com/view/berkeley-cs294-158-sp19/homeGilbert Strang 出版了一本与线性代数和神经网络有关的旧书。电子书链接：http://math.mit.edu/~gs/learningfromdata/「Scipy 讲义」是一系列课程，教你如何掌握 matplotlib，NumPy 和 SciPy 等工具。课程链接：https://scipy-lectures.org/这里还有一份关于了解高斯进程的优秀课程。课程链接：https://peterroelants.github.io/posts/gaussian-process-tutorial/这是一篇必读的文章，其中 Lilian Weng 深化讨论了通用言语模型，例如 ULMFit、OpenAI GPT-2 和 BERT。文章链接：https://lilianweng.github.io/lil-log/2019/01/31/generalized-language-models.htmlPapers with Code 是一个网站，显示了精选的带有代码和最新效果的机器学习论文列表：https://paperswithcode.com/Christoph Molnar 发布了第一版的《可解释性机器学习》，该书触及用于更好地解释机器学习算法的重要技术。链接：https://christophm.github.io/interpretable-ml-book/David Bamman 发布了完好的课程提纲以及加州大学伯克利分校自然言语处置课程的 PPT。课程链接：http://people.ischool.berkeley.edu/~dbamman/nlp18.html伯克利发布了「使用 NLP」类的一切资料。链接：https://github.com/dbamman/anlp19Aerin Kim 是 Microsoft 的初级研讨工程师，她撰写了与使用数学和深度学习有关的文章，主题包括条件独立性、伽玛散布等。文章链接：https://towardsdatascience.com/@aerinykimTai-Danae Bradley 撰写了博客，讨论了如何了解矩阵和张量。本文以可视化效果编写，有助于更好天文解在矩阵上执行的某些转换和操作。人工智能中的品德伦理学能够是往年人工智能零碎中讨论最多的方面之一，其中包括围绕成见、公道和通明度等方面的讨论。本节提供了有关该主题的风趣故事和论文清单：「Does mitigating ML's impact disparity require treatment disparity?」一文讨论了经过对真实数据集停止实验且使用不同窗习进程的后果。文章链接：http://papers.nips.cc/paper/8035-does-mitigating-mls-impact-disparity-require-treatment-disparityHuggingFace 宣布了一篇文章在人工智能对话中开源 NLP 技术背景下的伦理成绩。文章链接：https://medium.com/huggingface/ethical-analysis-of-the-open-sourcing-a-state-of-the-art-the-art-conversational-ai-852113c324b2随着我们持续将 AI 的技术引入社会，探求伦理在 AI 研讨中的作用是一项重要的打工。上面的论文提供了「伦理相关的研讨在抢先的人工智能、机器学习和机器人范畴的使用」的剖析。文章链接：https://arxiv.org/abs/1809.08328在 NAACL 2019 上宣布的论文讨论了除偏办法如何掩盖词嵌入中的性别成见。文章链接：https://arxiv.org/abs/1903.03862可以听听 Zachary Lipton 在他的论文《Troubling Trends in ML Scholarship》中做的演讲：https://www.youtube.com/watch?v=A2Jtqi_oa2Y]。附摘要：https://medium.com/dair-ai/an-overview-of-troubling-trends-in-machine-learning-scholarship-582df3caa518Gary Marcus 和 Ernest Davis 宣布了他们的书《重启人工智能：构建我们可信任的人工智能》。本书的主题是讨论完成弱小的人工智能必需采取的步骤。链接：https://www.amazon.com/Rebooting-AI-Building-Artificial-Intelligence/dp/1524748250关于 AI 提高的话题，Fran ois Chollet 也写了一篇令人印象深入的论文，提出更好的办法来测量智力。文章链接：https://arxiv.org/abs/1911.01547由 Andrew Trask 提出的有关差同化隐私、结合学习和加密 AI 等主题的 Udacity 课程链接如下：https://www.udacity.com/course/secure-and-private-ai--ud185关于隐私主题，Emma Bluemke 撰写了一篇很棒的文章，讨论了如何在维护患者隐私的同时训练机器学习模型。文章链接：https://blog.openmined.org/federated-learning-differential-privacy-and-encrypted-computation-for-medical-imaging/在往年年终，Mariya Yao 发布了一份关于 AI 伦理的综合研讨论文摘要。虽然论文参考清单来自 2018 年，但它们明天依然适用。文章链接：https://www.topbots.com/most-important-ai-ethics-research/原文链接：https://medium.com/dair-ai/nlp-year-in-review-2019-fb8d523bcb19原文 PDF：https://github.com/omarsar/nlp_highlights

联系人：卧虎

TG：xylmwohu