加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

这是一份非常全面的开源数据集,你,真的不想要吗?

发布时间:2018-09-07 01:17:12 所属栏目:移动互联 来源:机器之心编译
导读:9月15日技术沙龙 | 与东华软件、AWS、京东金融、饿了么四位大咖探讨精准运维! 近期,skymind.ai 发布了一份非常全面的开源数据集。内容包括生物识别、自然图像以及深度学习图像等数据集,现将其整理如下:(内附链接哦~) 最近新增数据集 开源生物识别数据:

问答数据集

  • Maluuba News QA 数据集:CNN 新闻文章中的 12 万个问答对。
  • 地址:https://datasets.maluuba.com/NewsQA
  • Quora 问答对:Quora 发布的第一个数据集,包含重复/语义相似性标签。
  • 地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs
  • CMU Q / A 数据集:手动生成的仿真问/答对,维基百科文章对其难度评分很高。
  • 地址:http://www.cs.cmu.edu/~ark/QA-data/
  • Maluuba 面向目标的对话:程序性对话数据集,对话旨在完成任务或做出决定。常用于聊天机器人。
  • 地址:https://datasets.maluuba.com/Frames
  • bAbi:来自 Facebook AI Research(FAIR)的综合阅读理解和问答数据集。
  • 地址:https://research.fb.com/projects/babi/
  • The Children’s Book Test:Project Gutenberg 提供的儿童图书中提取的(问题+背景、答案)对的基线。用于问答(阅读理解)和仿真查找。
  • 地址:http://www.thespermwhale.com/jaseweston/babi/CBTest.tgz

情感数据集

  • 多领域情绪分析数据集:较旧的学术数据集。
  • 地址:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/
  • IMDB:用于二元情感分类的较旧、较小数据集。对文献中的基准测试无法支持更大的数据集。
  • 地址:http://ai.stanford.edu/~amaas/data/sentiment/
  • Stanford Sentiment Treebank:标准情感数据集,在每个句子解析树的每个节点都有细粒度的情感注释。
  • 地址:http://nlp.stanford.edu/sentiment/code.html

推荐和排名系统

  • Movielens:来自 Movielens 网站的电影评分数据集,各类大小都有。
  • 地址:https://grouplens.org/datasets/movielens/
  • Million Song 数据集:Kaggle 上元数据丰富的大型开源数据集,可以帮助人们使用混合推荐系统。
  • 地址:https://www.kaggle.com/c/msdchallenge
  • Last.fm:音乐推荐数据集,可访问深层社交网络和其它可用于混合系统的元数据。
  • 地址:http://grouplens.org/datasets/hetrec-2011/
  • Book-Crossing 数据集:来自 Book-Crossing 社区。包含 278,858 位用户提供的约 271,379 本书的 1,149,780 个评分。
  • 地址:http://www.informatik.uni-freiburg.de/~cziegler/BX/
  • Jester:来自 73,421 名用户对 100 个笑话的 410 万个连续评分(分数从-10 至 10)。
  • 地址:http://www.ieor.berkeley.edu/~goldberg/jester-data/
  • Netflix Prize:Netflix 发布了他们的电影评级数据集的匿名版;包含 480,000 名用户对 17,770 部电影的 1 亿个评分。首个主要的 Kaggle 风格数据挑战。随着隐私问题的出现,只能提供非正式版。
  • 地址:http://www.netflixprize.com/

————————我是深度学习图表的分割线————————

网络和图形

  • Amazon Co-Purchasing:亚马逊评论从「购买此产品的用户也购买了……」这一部分抓取数据,以及亚马逊相关产品的评论数据。适合在网络中试行推荐系统。
  • 地址:http://snap.stanford.edu/data/#amazon
  • Friendster 社交网络数据集:在变成游戏网站之前,Friendster 以朋友列表的形式为 103,750,348 名用户发布了匿名数据。
  • 地址:https://archive.org/details/friendster-dataset-201107

语音数据集

  • 2000 HUB5 English:最近在 Deep Speech 论文中使用的英语语音数据,从百度获取。
  • 地址:https://catalog.ldc.upenn.edu/LDC2002T43
  • LibriSpeech:包含文本和语音的有声读物数据集。由多个朗读者阅读的近 500 小时的各种有声读物演讲内容组成,包含带有文本和语音的章节。
  • 地址:http://www.openslr.org/12/
  • VoxForge:带口音的清晰英语语音数据集。适用于提升不同口音或语调鲁棒性的案例。
  • 地址:http://www.voxforge.org/
  • TIMIT:英语语音识别数据集。
  • 地址:https://catalog.ldc.upenn.edu/LDC93S1
  • CHIME:嘈杂的语音识别挑战数据集。数据集包含真实、仿真和干净的录音。真实录音由 4 个扬声器在 4 个嘈杂位置的近 9000 个录音构成,仿真录音由多个语音环境和清晰的无噪声录音结合而成。
  • 地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html
  • TED-LIUM:TED 演讲的音频转录。1495 个 TED 演讲录音以及这些录音的文字转录。
  • 地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

————————我是深度学习音频的分割线————————

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读