GTS 。 吴震,应成灿,赵飞,范志芳,戴新宇,夏瑞。 在《 EMNLP的发现》中,2020年。 数据 [] [ (来自拥抱面)] 数据格式描述在。 注:我们认为三重数据集是从我们以前的工作的比对数据集和原始SemEval , , 的数据集。 要求 有关详细信息,请参见require.txt或Pipfile pytorch == 1.7.1 变形金刚== 3.4.0 Python= 3.6 用法 训练 例如,您可以使用以下命令对OPE任务上的Bert进行微调(预先训练的Bert模型保存在文件夹“ pretrained /”中): python main.py --task pair --mode train --dataset res14 最佳模型将保存在文件夹“ savemodel /”中。 测验 例如,您可以使用以下命令在OPE任务上测试Bert: python ma
2022-01-21 19:28:58 19.09MB Python
1
ucsc跟踪大鼠投影数据集 大鼠投影数据集
2022-01-10 09:20:06 10.67MB
1
会话数据集 用于对话响应选择的大型数据集的集合。 该存储库提供了用于创建可重现的数据集的工具,用于训练和评估会话响应模型。 这包括: -37亿条基于话题对话的评论 电影和电视字幕超过4亿行(提供英语和其他语言) -亚马逊产品中超过360万个问题-答案对 机器学习方法最适合诸如此类的大型数据集。 在PolyAI,我们在庞大的对话数据集上训练对话响应模型,然后将这些模型适应对话AI中特定领域的任务。 在庞大的数据集上对大型模型进行预训练的一般方法在图像社区中早已流行,现在在NLP社区中正在兴起。 除了提供原始处理的数据外,我们还提供脚本和说明来自行生成数据。 这使您可以查看并可能操纵预处
1
预处理的DUC 2001关键字提取基准数据集 该数据集已引入: 使用邻域知识的单文档关键词提取。 万晓军和肖建国。 在AAAI 2008年会议记录中。第855-860页。 数据集分为三个目录: references :用于评估的参考关键词 test :测试集 src :从中构建数据集的脚本和存档 每个输入文件都是使用Stanford CoreNLP套件v3.6.0处理的。 我们使用默认参数并执行标记化,句子拆分和词性(POS)标记。 文件为XML格式。 参考关键字短语为json格式,并根据以下规则进行命名: test.reader.[stem]?.json 读者提供的(无论是否阻塞)参考关键字短语以进行测试。 使用nltk Porter算法(英语)执行词干(如果已应用)。 以下是参考文件的玩具示例: { "doc-1": [ [
2022-01-05 15:30:42 5.34MB
1
这是百度点石大数据比赛充电桩故障检测的数据集和源码(acc=1)
2021-12-30 10:03:23 2.53MB 充电桩 分类算法 数据集
1
DDAD-自动驾驶的密集深度 DDAD是TRI(丰田研究所)提供的新的自动驾驶基准,可在挑战性和多样化的城市条件下进行远距离(最大250m)和密集深度估计。 它包含单眼视频和准确的地面深度(在整个360度视野内),这些深度是由安装在跨洲环境中的自动驾驶汽车车队上的高密度LiDAR生成的。 DDAD包含来自美国(旧金山,湾区,剑桥,底特律,安阿伯)和日本(东京,台场)的城市环境的场景。 如何使用 可以在此处下载数据: (257 GB,md5校验和: c0da97967f76da80f86d6f97d0d98904 )和 ( c0da97967f76da80f86d6f97d0d98904 GB,md5校验和: cb244da1865c28898df3de7e904a1200 )。 要加载数据集,请使用。 以下代码段将实例化数据集: from dgp . datasets import S
2021-12-29 19:41:40 8.85MB JupyterNotebook
1
视觉分析实验室项目2020/21 约翰内斯·开普勒大学林茨分校视觉分析实验室项目的提交。 小组成员 名 姓 GitHub个人资料 分析的一部分 [菲利普] [Meingaßner] 相似属性的聚类/预处理的一部分 [特里斯坦] [班达] 相关分析 [Nikita] [科列斯尼琴科] 描述统计/预处理的一部分 [罗伯特] [Königshofer] 演示/预处理/数据集查找 数据集 数据集是关于什么的? 您从何处获得此数据集(即,数据集的来源)? 我们选择的数据集是关于1800年至2100年(预测的80年)期间全球各国的预期寿命。 我们从Gapminder网站获取了数据集。 资料来源: :
2021-12-27 14:30:43 307KB HTML
1
95云:38云数据集的扩展 ( )中引入的95-Cloud是对我们先前发布的云检测数据集( )的扩展。 它由384 * 384的34,701个补丁组成,用于培训。 95云的测试集与38云的测试集完全相同。 训练补丁是从75个Landsat 8 Collection 1 Level-1场景中提取的,这些场景大多位于北美。 95-Cloud的测试集包括20个场景的9201个补丁。 95云和38云的测试集完全相同。 但是他们的训练方式是不同的。 95-Cloud的场景比38-Cloud的要多训练57个场景。 每个贴片具有4个对应的光谱通道,分别是红色(波段4),绿色(波段3),蓝色(波段2)和近红外(波段5)。 与其他计算机视觉图像不同,这些通道不会合并在一起。 相反,它们位于其对应目录中。 数据集的目录树与38-Cloud完全相同。 由于篇幅所限,该数据集分为两部分:95个云训练+的
2021-12-23 13:26:25 2KB
1
如何使用AWS EC2 Hadoop集群处理200 GB数据 存储200 GB的NYC出租车数据集并部署Cloudera Hadoop集群以对其进行可视化。 使用Python Datashader绘制和可视化Hadoop大型数据集 没有Datashader的可视化 工作流程概述 使用数据着色器 最终可视化
2021-12-23 11:05:42 1.68MB jupyter-notebook pyspark dask datashader
1
来自的来自世界各地的开放数据门户网站和目录的数据集。
2021-12-20 14:35:49 39KB
1