随着物联网、云计算、移动互联网的迅猛发展,大数据(Big Data)吸引了越来越多的关注,正成为信息社会的重要财富,同时也给数据的处理与管理带来了巨大挑战.首先从大数据概念入手,阐述了大数据的来源、主要挑战、关键技术、大数据处理工具和应用实例等,并对比了大数据与云计算、物联网、移动互联网等技术之间关系,然后剖析了大数据核心技术、大数据企业解决方案,讨论了目前大数据应用实例,最后归纳总结了大数据发展趋势.旨在为了解大数据当前发展状况、关键技术以及科学地进行大数据分析与处理提供参考.
2025-06-11 15:57:10 2.02MB 自然科学 论文
1
标注方式上: RefCOCOg采用的是非交互式标注法,选定区域请人标注,再请另外一批人根据标注的expression选择对应的region; RefCOCO和RefCOCO+采用的是双人游戏 (Refer it game)的方式. 数据划分方式上: RefCOCO和RefCOCO+包含train, val, testA, testB。testA的图片包含多个人;testB的图片包含多个除人之外的物体。同一个图片的object-expression样本对要么全在训练集,要么全在验证\测试集。 RefCOCOg包含train, val, test。是按照object进行划分的,同一个图片的object-expression样本对集合可能会在训练集一部分,在验证\测试集另一部分。 图片选择上: RefCOCO:图像包含同一类别的多个物体。 RefCOCO+:图像包含同一类别的多个物体,并且expression不能有绝对位置(e.g., left)的词。 RefCOCOg:图像包含同一类别的2-4个物体,覆盖面积超过图片面积的5%
2025-06-11 14:21:27 43.5MB 数据集
1
利用LandsatTM/ETM+数据进行南昌市地表温度反演,得出1989年和2000年2个时相的南昌市热岛强度等级分布特征,结合下垫面土地覆盖类型图.选取样区对比分析了地表温度空间分布.结果表明:南昌市存在比较明显的热岛效应,主城区的地表温度由城区中心向近郊、远郊逐渐降低,城市地表温度与下垫面的性质紧密相关.研究结果对于改善南昌城市生态环境、减缓城市热岛效应具有重要的参考价值.
2025-06-08 23:08:21 278KB 自然科学 论文
1
利用层次分析法建立了一个公务员招聘的数学优化模型.首先将面试成绩、期望成绩与笔试成绩转化为相应的权重,再充分考虑应聘人员的志愿,最后建立双向选择的权重计算模型,并在处理过程中抓住应聘人员的实际权重与各部门期望权重的贴近度,运用整数规划确定出各种条件下的最优分配方案.对一般情况即Ⅳ个应聘人员M个用人单位时做了合理的论证,以达到该模型在运用中的推广.
2025-06-07 16:21:20 204KB 自然科学 论文
1
### 南邮自然语言处理实验三知识点解析 #### 一、实验概述 南京邮电大学的这份实验报告针对的是自然语言处理(NLP)领域的三项基本任务:词性标注(Part-of-Speech Tagging, POS)、命名实体识别(Named Entity Recognition, NER)以及信息抽取(Information Extraction)。这些技术在文本挖掘、机器翻译、问答系统等领域有着广泛的应用。 #### 二、实验目的 1. **词性标注**:掌握如何对文本中的词语进行词性标注。 2. **命名实体识别**:学会识别文本中的特定实体,如人名、地名等。 3. **信息抽取**:理解如何从非结构化或半结构化的文本中提取结构化信息。 #### 三、实验环境 - **硬件**: 微型计算机 - **软件**: Windows操作系统、Python3.7或3.8 #### 四、实验原理与内容 本节将详细介绍实验中涉及到的主要知识点。 ##### 1. 词性标注 词性标注是自然语言处理中的基础任务之一,其目标是对句子中的每个词赋予一个表示其语法功能的标记。 - **基于隐马模型的词性标注** - **隐马尔可夫模型**(Hidden Markov Model, HMM)是一种统计模型,常用于序列标注问题,如语音识别、手写识别、生物信息学中的序列分析等。 - 在词性标注中,HMM假设当前词的词性仅依赖于前一个词的词性,这被称为一阶HMM;而二阶HMM则考虑前两个词的词性。 - **代码示例**: ```python from pyhanlp import * from test07 import ensure_data HMMPOSTagger = JClass('com.hankcs.hanlp.model.hmm.HMMPOSTagger') AbstractLexicalAnalyzer = JClass('com.hankcs.hanlp.tokenizer.lexical.AbstractLexicalAnalyzer') PerceptronSegmenter = JClass('com.hankcs.hanlp.model.perceptron.PerceptronSegmenter') FirstOrderHiddenMarkovModel = JClass('com.hankcs.hanlp.model.hmm.FirstOrderHiddenMarkovModel') SecondOrderHiddenMarkovModel = JClass('com.hankcs.hanlp.model.hmm.SecondOrderHiddenMarkovModel') def train_hmm_pos(corpus, model): tagger = HMMPOSTagger(model) # 创建词性标注器 tagger.train(corpus) # 训练 analyzer = AbstractLexicalAnalyzer(PerceptronSegmenter(), tagger) # 构造词法分析器 text = "新华社北京 5 月 29 日电(记者严赋憬、杨淑君)记者从国家林草局获悉,在有关部门和京沪两地各方的高度重视和共同努力下,大熊猫“丫丫”顺利通过隔离检疫,乘坐包机平安抵达北京,于 5 月 29 日 0 时 43 分回到北京动物园大熊猫馆。目前,“丫丫”健康状况稳定。" print(analyzer.analyze(text)) # 分词+词性标注 return tagger ``` **结果**:新华/nt 社/v 北京/v 5 月/v 29 日/v 电/v (/v 记者/v 严赋憬/v 、/v 杨淑君/v )/v 记者/v 从/v 国家/v 林草局/v 获悉/v ,/v 在/v 有关/v 部门/v 和/v 京/v 沪/v 两地/v 各方/v 的/v 高度重视/ - **分析解读**: - `nt` 表示地名; - `v` 表示动词; - 其他标记根据上下文可以推断出来。 ##### 2. 命名实体识别 命名实体识别旨在从文本中识别出具有特定意义的实体,如人名、地名、组织机构名等,并将其分类。 - **命名实体的类别**: - 人名(Person) - 地名(Location) - 组织机构名(Organization) - **技术实现**: - 使用训练好的模型对文本进行识别。 - **应用场景**: - 新闻报道分析 - 社交媒体监控 - 情感分析 ##### 3. 信息抽取 信息抽取是从文本中自动抽取结构化信息的过程,它可以帮助我们快速了解文本的关键信息。 - **信息抽取的步骤**: 1. 文本预处理:分词、词性标注、命名实体识别等。 2. 特征提取:基于规则的方法、基于机器学习的方法等。 3. 关系抽取:识别实体之间的关系。 - **应用场景**: - 数据库填充 - 自动问答系统 - 事件检测 #### 五、总结 本次实验通过实际操作加深了学生对词性标注、命名实体识别以及信息抽取这三个NLP领域关键技术的理解。通过使用Python编程语言和相关的NLP工具库,学生不仅掌握了理论知识,还提高了实践能力。这些技能对于从事自然语言处理研究和开发的人员来说至关重要。
2025-06-05 15:02:10 230KB 自然语言处理
1
介绍了Alpha稳定分布和其分数低阶矩(FLOM),设计了一种用于2-D波达方向(DOA)估计的阵列配置,并基于相 控分数低阶矩(PFLOM)提出了2-DDOA算法。由接收信号的PFLOM协方差矩阵得到有用信号的PFLOM协方差矩阵,对其进行特征值分解,并利用最小二乘或总体最小二乘方法就可得到DOA。最后,比较了基于传统协方差、符号协方差、FLOM和PFLOM的旋转不变技术估计信号参数算法。仿真结果表明,该算法具有鲁棒性和较小的角度估计偏差及均方误差。
2025-06-03 22:34:20 327KB 自然科学 论文
1
基于沥青混合料Burgers模型的黏弹性理论,通过动态蠕变试验进行AC-20黏弹性分析,得到不同温度及应力下的混合料变形特征曲线及Burgers模型4个参数的变化规律结果表明:在同一温度下,随应力水平增加,永久变形随之增大,稳定期永久应变发展速率增大且破坏期提前到来,Burgers模型参数中E1、E2增大,η1.、η2减小;在同一应力水平下,永久变形会随温度升高而增大,同时E1、E2减小,η1、η2增大.因此应力及温度对沥青混合料黏性及弹性影响程度不同,随着应力增加,弹性增强而黏性降低;随温度升高,则弹性
2025-06-02 18:42:54 224KB 自然科学 论文
1
空隙是沥青混合料细观结构特性的重要组成部分,水和空气存在于其中时会造成混合料的水损害与老化,另外空隙也是混合料结构中的薄弱点与缺陷,与混合料的受力特性与破坏过程紧密相关.该文利用离散元工具生成了具有级配特征的沥青混合料颗粒流模型,移植借鉴离散元流固耦合分析的方法来计算混合料中各空隙的位置与体积等参数,得到了混合料中的空隙分布特性,并与实际混合料试件上使用 CT扫描与图像分析得到的结果进行了对比,证明了论文所用分析方法的有效性.
2025-06-02 18:42:17 5.56MB 自然科学 论文
1
内容概要:本文详述了使用 DeepSeek R1 Distill 实现大模型微调入门的实际操作。主要内容涵盖如何利用 unsloth 工具快速加载和设置 DeepSeek R1 模型(包括 LLaMA 和 Qwen),并对模型进行了医学问题回答的实验,指出了初步效果欠佳的现象。接着,采用一种最小可行性实验方法对模型进行小规模微调以改善问答质量,具体展示了从数据集准备、模型设置、训练启动到初步验证的全过程。最后扩展到了全量数据的大规模微调,提升了医学专业问答的效果,实现了更为精确的答案输出。 适合人群:从事深度学习研究和技术人员,特别是对大规模语言模型及其医学应用场景感兴趣的科研人员及工程师。 使用场景及目标:本教程适合希望通过快速入门和动手实践深入了解大模型在医学领域的问答系统建设的专业人士。通过此项目的学习,读者可以掌握如何有效地使用 unsloth 对现有大模型进行特定领域内的精细调整,并优化其性能。 其他说明:为了更好地理解和复现实验过程,文中不仅提供了必要的代码片段,还给出了详细的配置细节。此外,在实验过程中涉及的关键参数选择也有较为深入的介绍。
2025-05-31 15:34:26 1.66MB 深度学习 自然语言处理
1
ChatGPT 技术的自然语言生成与理解研究 ChatGPT 技术的自然语言生成与理解研究是人工智能领域中的两个重要子领域。它们的研究目标是使计算机能够像人类一样理解和生成自然语言,进而与人类进行交流和沟通。近年来,随着深度学习技术的快速发展,ChatGPT 技术在自然语言生成与理解方面取得了重要突破。 在自然语言生成方面,ChatGPT 技术能够根据输入的上下文和语义信息,生成连贯、准确的回答。通过预训练的方式,它学习了大量真实对话数据,能够根据对话历史产生有逻辑的回复。与以往的生成模型相比,ChatGPT 具备更强的上下文理解能力和语境感知能力,能够更好地模拟人类的表达和思维方式。这让它在对话系统中的应用更加自然、流畅。 在自然语言理解方面,ChatGPT 技术可以通过模式匹配和语义分析,准确地理解人类的语言输入。它能够识别语句中的实体、情感、动作等信息,并根据这些信息做出相应的回应。这为智能客服、信息检索等场景提供了更好的解决方案。 然而,尽管 ChatGPT 技术取得了一定的成功,它仍然面临一些挑战。ChatGPT 技术往往在多回合的对话中容易出现语义歧义和回复不准确的问题。这是因为模型只能在有限的上下文范围内进行推理,导致对话的语境理解和推断能力受限。ChatGPT 技术对于文本的敏感性较强,在遇到包含误导信息或口语化表达的文本时,容易产生错误的回复。 为解决这些挑战,可以通过引入更多的预训练数据和多模态信息,提高对话系统的上下文理解和语言生成能力。此外,可以结合强化学习等方法,对 ChatGPT 进行后序微调,以提高其在特定任务上的表现和可控性。 此外,ChatGPT 技术的应用领域也可以进一步拓展。例如,它可以用于情感分析、内容摘要、写作辅助等方面。通过结合自然语言生成和理解技术,我们可以开发出更加智能化、个性化的人机对话系统,进一步提升人工智能在交流和沟通方面的能力。 ChatGPT 技术的自然语言生成与理解研究对于人工智能领域的发展具有重要意义。它不仅为对话系统、翻译系统等应用提供了新的思路和解决方案,也为我们对人类语言本质的研究提供了新的视角。 ChatGPT 技术的应用前景非常广阔。例如,在客服领域,ChatGPT 技术可以用于智能客服系统,提供更加智能化的客服服务。在翻译领域,ChatGPT 技术可以用于机器翻译,提高翻译的准确性和流畅性。在写作领域,ChatGPT 技术可以用于写作辅助,帮助用户快速生成高质量的文章和报告。 此外,ChatGPT 技术还可以应用于情感分析、内容摘要、对话管理等领域。例如,在情感分析领域,ChatGPT 技术可以用于分析用户的情感倾向,提高客服系统的回应准确性。在内容摘要领域,ChatGPT 技术可以用于自动生成摘要,帮助用户快速了解文章的主要内容。 ChatGPT 技术的自然语言生成与理解研究对于人工智能领域的发展具有重要意义。它不仅可以提高对话系统、翻译系统等应用的智能化和流畅性,也可以为我们对人类语言本质的研究提供新的视角。随着技术的不断进步和创新,我们有理由期待 ChatGPT 技术在实际应用中发挥更大的价值。
2025-05-29 11:55:02 37KB
1