加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

这是一份非常全面的开源数据集,你,真的不想要吗?

发布时间:2018-09-07 01:17:12 所属栏目:移动互联 来源:机器之心编译
导读:9月15日技术沙龙 | 与东华软件、AWS、京东金融、饿了么四位大咖探讨精准运维! 近期,skymind.ai 发布了一份非常全面的开源数据集。内容包括生物识别、自然图像以及深度学习图像等数据集,现将其整理如下:(内附链接哦~) 最近新增数据集 开源生物识别数据:

人脸数据集

  • Labelled Faces in the Wild:13000 个经过裁剪的人脸区域(使用已经用名称标识符标记过的 Viola-Jones)。数据集中每个人员的子集里包含两个图像——人们常用此数据集训练面部匹配系统。
  • 地址:http://vis-www.cs.umass.edu/lfw/
  • UMD Faces:有 8501 个主题的 367,920 个面孔的带注释数据集。
  • 地址:http://www.umdfaces.io/
  • CASIA WebFace:超过 10,575 个人经面部检测的 453,453 张图像的面部数据集。需要一些质量过滤。
  • 地址:http://www.cbsr.ia.ac.cn/english/CASIA-WebFace-Database.html
  • MS-Celeb-1M:100 万张全世界的名人图片。需要一些过滤才能在深层网络上获得最佳结果。
  • 地址:https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/
  • Olivetti:一些人类的不同图像。
  • 地址:http://www.cs.nyu.edu/~roweis/data.html
  • Multi-Pie:The CMU Multi-PIE Face 数据库。
  • 地址:http://www.multipie.org/
  • Face-in-Action:http://www.flintbox.com/public/project/5486/
  • JACFEE:日本和白种人面部情绪表达的图像。
  • 地址:http://www.humintell.com/jacfee/
  • FERET:面部识别技术数据库。
  • 地址:http://www.itl.nist.gov/iad/humanid/feret/feret_master.html
  • mmifacedb:MMI 面部表情数据库。
  • 地址:http://www.mmifacedb.com/
  • IndianFaceDatabase:http://vis-www.cs.umass.edu/~vidit/IndianFaceDatabase/
  • 耶鲁人脸数据库:http://vision.ucsd.edu/content/yale-face-database
  • 耶鲁人脸数据库 B:http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html
  • Mut1ny 头部/面部分割数据集:像素超过 16K 的面部/头部分割图像
  • 地址:http://www.mut1ny.com/face-headsegmentation-dataset

————————我是深度学习视频的分割线————————

视频数据集

  • Youtube-8M:用于视频理解研究的大型多样化标记视频数据集。
  • 地址:https://research.googleblog.com/2016/09/announcing-youtube-8m-large-and-diverse.html

文本数据集

  • 20 newsgroups:分类任务,将出现的单词映射到新闻组 ID。用于文本分类的经典数据集之一,通常可用作纯分类的基准或任何 IR /索引算法的验证。
  • 地址:http://qwone.com/~jason/20Newsgroups/
  • 路透社新闻数据集:(较旧)纯粹基于分类的数据集,包含来自新闻专线的文本。常用于教程。
  • 地址:https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection
  • 宾州树库:用于下一个单词或字符预测。
  • 地址:http://www.cis.upenn.edu/~treebank/
  • UCI‘s Spambase:来自著名的 UCI 机器学习库的(旧版)经典垃圾邮件数据集。根据数据集的组织细节,可以将它作为学习私人垃圾邮件过滤的基线。
  • 地址:https://archive.ics.uci.edu/ml/datasets/Spambase
  • Broadcast News:大型文本数据集,通常用于下一个单词预测。
  • 地址:http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC97S44
  • 文本分类数据集:来自 Zhang et al., 2015。用于文本分类的八个数据集合集。这些是用于新文本分类基线的基准。样本大小从 120K 至 3.6M 不等,范围从二进制到 14 个分类问题。数据集来自 DBPedia、亚马逊、Yelp、Yahoo!和 AG。
  • 地址:https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M
  • WikiText:来自维基百科高质量文章的大型语言建模语料库,由 Salesforce MetaMind 策划。
  • 地址:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/
  • SQuAD:斯坦福问答数据集——应用广泛的问答和阅读理解数据集,其中每个问题的答案都以文本形式呈现。
  • 地址:https://rajpurkar.github.io/SQuAD-explorer/
  • Billion Words 数据集:一种大型通用语言建模数据集。通常用于训练分布式单词表征,如 word2vec。
  • 地址:http://www.statmt.org/lm-benchmark/
  • Common Crawl:网络的字节级抓取——最常用于学习单词嵌入。可从 Amazon S3 上免费获取。也可以用作网络数据集,因为它可在万维网进行抓取。
  • 地址:http://commoncrawl.org/the-data/
  • Google Books Ngrams:来自 Google book 的连续字符。当单词首次被广泛使用时,提供一种简单的方法来探索。
  • 地址:https://aws.amazon.com/datasets/google-books-ngrams/
  • Yelp 开源数据集:Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。
  • 地址:https://www.yelp.com/dataset

————————我是深度学习文本的分割线————————

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读