相关文章
深度学习的一些方向
2024-11-10 18:02

目录

深度学习的一些方向

深度学习的一些方向

一、多模态

1.特征提取(feature extraction)

2.文本转图像

3.可视化问题回答

二、计算机视觉

1.深度估计(depth estimation)

2.图像分类(image classification

3.图片分割(Image Segmentation

4.图像转图像(image to image)

5.物体检测(object detection

6.视频分类(Video Classification

7.无条件图像生成(unconditional image generation

8.零样本图像分类(Zero-shot image classification

三、自然语言处理(Natural Language Processing

1.对话(conversational

2.填空(fill-mask

3.问题回答(Question Answering)

4.文本相似性(Sentence Similarity)

5.总结(Summarization)

6.表格问题回答(table question answering)

7.文本分类(text classification

8.文本生成(text generation

9.Token Classification

10.翻译(translation

11.Zero-shot Classification

四、音频(Audio

1.音频分类(Audio Classification

2.语音转语音(Audio to Audio)

3.Automatic Speech Recognition(ASR

4.Text-to-Speech

五、Tabular(表格的)

1.Tabular Classification(基于表格的分类问题

2.Tabular Regression(基于表格的回归问题

六、Reinforcement Learning(强化学习


大一暑假,我对深度学习的一些方向进行了了解,接下来就是我的介绍。

参考:Tasks - Hugging Face

1.特征提取(feature extraction)

基本概念: 从已知的特征中创造一个新的特征集合(Creating a subset of new features by combinations of the existing features)

目的

减少特征数据集中的特征数,从而达到选取最主要特性的目的)特征提取是一个降低维度的步骤,初始的资料集合被降到更容易管理的族群(特征)以便于学习,同时保持描述原始资料集的精准性与完整性。

主要方法

1.PCA:Principle Component Analysis(主成分分析

2.LDA:Linear Discriminant Analysis(线性评判分析

2.文本转图像

流程:输入:文本

输出:图像

应用场景

1.数据生成:企业可以通过输入文本和输出图像来生成数据供其使用

2.沉浸式会话机器人:如ChatGPT

3.可视化问题回答

概念:视觉问答是基于图像回答开放式问题的任务。它们对自然语言问题输出自然语言响应。

应用场景

1.帮助视觉障碍的人

通过允许视障人士从网络和现实世界获取有关图像的信息,VQA模型可以用于减少视障人士的视觉障碍。

2.用于教育

VQA模型可以通过允许参观者直接提出他们感兴趣的问题来改善博物馆的体验。

3.改进的图像检索

视觉问答模型可用于检索具有特定特征的图像。例如,用户可以问“有狗吗?”从一组图像中找到所有有狗的图像。

1.深度估计(depth estimation)

概念:就是来估计单个像素到拍摄源的距离

应用场景

体积信息估计

深度估计模型被广泛用于研究图像内物体的体积形成。这是计算机图形学领域中的一个重要用例。

3D表示

深度估计模型也可用于从2D图像开发3D表示。

2.图像分类(image classification

概念:给图像贴标签

输入:一个图像

输出:一个标签或一个预测

应用场景

关键字分类

图像分类模型广泛应用于库存摄影中,为每张图像分配一个关键词。

图片搜索

经过图像分类训练的模型可以通过在手机上或云上对多个关键词或标签的照片库进行组织和分类来改善用户体验。

3.图片分割(Image Segmentation

概念:就如本名

变种

1.实体分割(instance segmentation

分割每一个确定的物体

2.全视分割(Panoptic Segmentation=instance segmentation+semantic segmentation:

分割每一个确定的物体又分类

3.语义分割(Semantic Segmentation

对每个像素点进行分类

语义分割等。

应用场景: 1.自动驾驶

2.背景移除

3.医学图像

4.图像转图像(image to image)

概念:任何图像处理和图像增强都可以归为图像转图像模型

输入:图像 输出:图像

应用场景:图像风格迁移

变体

1.图像填充

2.图像着色

3.超分辨率:提高图片的分辨率

5.物体检测(object detection

概念:物体检测模型接收图像作为输入,并在检测到的物体上输出带有边界框和标签的图像。

应用场景

1.自动驾驶

2.在比赛中的物体循迹(比如博尔特和苏炳添同时到终点线,看谁赢

3.物体计数

4.图片搜索(有点类似于华为的智慧识物

6.视频分类(Video Classification

概念:感觉和图片分类有点像

应用场景

1.活动检测

2.视频搜索:可以主动对视频分类,利于管理和搜索

7.无条件图像生成(unconditional image generation

概念:无条件图像生成是在没有任何特定输入的情况下生成新图像的任务。这样做的主要目标是创建新颖的、原创的图像,而不是基于现有的图像。但是!无条件图像会和训练这个模型的图片风格相类似,例如,你可以生成一只新的蝴蝶,基于一堆蝴蝶的照片。

应用场景

1.艺术表达:因为无条件图像生成总是生成新颖的东西,所以可以探索很多未知的艺术可能

2.生成图片用于虚拟现实

3.医学图像:可以生成图片,这样可以用来训练医学模型,从而改进医学图像算法

4.工业设计:新奇的设计可以为工业设计(如衣服家具)提供灵感

8.零样本图像分类(Zero-shot image classification

概念

零样本图像分类是一种计算机视觉任务,将图像分类为几个类别之一,而不需要任何事先的训练或类别知识。

这是一种迁移学习,比如,一个模型用来区分汽车和飞机的模型可以用来对船舶图像进行分类。

应用场景

1.image retrieval(图片检索)有点像无监督分类

2.Action recognition(动作识别)也是和上面的有点像

1.对话(conversational

概念:输上句答下句

应用场景

1.聊天机器人

2.语音助手

2.填空(fill-mask

概念:句子挖空填空

应用场景

Domain Adaptation

因为其不需要那种带标签的样本,只需要被遮住部分单词的的句子并期望其能猜出该单词

比如:可以训练模型来解决一些特定领域的问题,比如你可以将对应领域的论文进行导入,这样就可以回答对应问题。从而建立一个信息获取系统(模型更多的是掌握运用在该领域的语言,并未完全理解

3.问题回答(Question Answering)

概念:基于文字回答问题

输入:问题和文字

输出:问题答案

应用场景:就是基于文本回答问题了。进行归纳总结。

4.文本相似性(Sentence Similarity)

概念:检测两个文本的相似性层度

输入:原句,待比较句

输出:每个比较句对应的相似程度

应用场景

1.信息检索(information retrieval):

例如你现在面临一个问题,然后你面临很多与其有关的文档,你现在不知道那个文档最值得看,你就可以用此功能,为每个文档与问题的相似度进行排名,这样你就可以找出最有用的文档。

2.建立句子转换库(the sentence transformers library):

句子变形库在计算句子、段落和整个文档的embeddings非常强大。embeddings是文本的矢量表示,用于查找两个文本的相似程度。(这里其实有点像建立哈希表)

5.总结(Summarization)

概念:字面意思,输入:大文本 输出:一小段文本(要么从文章中提取,要么自己生成的新文本

应用场景:paper主要信息提取工具

6.表格问题回答(table question answering)

概念:和上面的问题回答没有太大的区别,但是输入中文本变成了表格

7.文本分类(text classification

概念:文本分类是为给定文本分配标签或类的任务。一些用例是情感分析、自然语言推理和评估语法正确性。

应用场景:顾客的情感分析。

8.文本生成(text generation

概念:生成文本是生成新文本的任务。例如,这些模型可以填充不完整的文本或改写。

例如:你能以“一觉醒来,我竟发现我成为了百亿资产的拥有者”开头写一篇文章吗

应用场景

1.代码生成(迁移学习transfer learning)

2.故事生成

9.Token Classification

概念:可以给很多token贴标签

input :My name is Omar and I live in China.

output:My name is Omar(person) and I live in China(GPE).

应用场景:通过对实体(entity)分类在发票(invoices)中提取信息

10.翻译(translation

概念:正如本名

11.Zero-shot Classification

前面已经介绍了Zero-shot Classification,这里简单介绍一下模型的特点

1.不需要需要工作数据的任何样本。

2.足够大,这样可以兼容比较多的场景。

1.音频分类(Audio Classification

概念:对音频进行贴标签,从而达到分类的效果,可以是情感态度

应用场景

1.要求辨识:通过关键词标签可以识别用户的要求

2.语言识别:可以利用VoxLingua107

[VoxLingua]  https://huggingface.co/TalTechNLP/voxlingua107-epaca-tdnn 

模型来使模型能适应107种语言,可以应用于模型的预处理

3.情感识别

4.识别谁在说话

2.语音转语音(Audio to Audio)

概念:输入语音 输出语音

例如:语音增强和语音分割

应用

1.语音增强(去除杂音noise

2.Audio source separation:分开不同声源的声音,也可以用来去除杂音

3.Automatic Speech Recognition(ASR

概念:语音转文本(Speech to text)

应用场景

1.虚拟语音助手,比如小艺小艺,打开某某软件

2.caption generation,比如腾讯会议的直播文档,会议记录,也可以用于帮助非母语语言的听课

任务变体

多语言ASR

4.Text-to-Speech

概念:意如其名

应用场景: 1.语音助手:当那些语音助手在说话时就是了,这样的声音比拼凑的,断断续续的要好很多

2.Announcement systems:比如在机场等公共交通场所

1.Tabular Classification(基于表格的分类问题

概念:给表格中的一组数据一个取向(attribute)或者说是标签

其中根据标签或取向的类别也可以将其分为一些种类

1.Binary variables:一般是二分型,比如好与坏,对与错

2.ordinal variables:变量一般有排名顺序,比如好,中等,坏等

3.Nominal variables:这种就没有一个固定的顺序了,比如:猪,狗,鸟等

应用场景

1.诈骗检测(fraud Detection:比如在银行,可以通过一定时间内的资金出入,交易时间这些由表格存储的数据来分析,是一种二分类的。

2.流失检测(churn detection:分析客户的流失情况

2.Tabular Regression(基于表格的回归问题

概念:就是基于一系列的在表格中的特征来进行回归分析

应用场景:比如加州房价预测,也还可以填补一些表格里缺失或错误的数据。

注意:强化学习会包含很多,但这里只是简单的介绍一下

    以上就是本篇文章【深度学习的一些方向】的全部内容了,欢迎阅览 ! 文章地址:http://fswenzheng.xhstdz.com/news/4274.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://fswenzheng.xhstdz.com/mobile/ , 查看更多   
最新文章
适合中老年游戏活动的项目有哪些?
引言:为何中老年游戏活动尤为重要 随着社会的不断发展和生活水平的提升,中老年人的生活方式也随之改变。对于他们来说,健康和快乐成为了生活的重要组成部分。而游戏活动,不仅能够增加社交互动,还能锻炼身体与思维。因此,选择适合中老
上海旅游攻略:探访繁华之都的风情韵味
引言:开启上海的奇妙之旅 上海,这座迷人的城市,拥有着深厚的文化底蕴与现代化的繁华景象,无论是初次造访还是再次归来,都会让人惊叹于它独特的风情韵味。在这里,历史与现代交融,传统与创新并存,等待着你去探索这座繁华之都的每个角
高新企业网站优化方法大揭秘!
高新企业网站的重要性 随着互联网的快速发展,企业网站已经成为企业宣传、推广和营销的重要渠道。对于高新技术企业来说,网站更是展示企业形象、产品技术、行业影响力的窗口。因此,如何优化企业网站,提升网站的曝光率和用户体验成为了高
探索旅游景区的独特魅力:人文、自然与体验的完美结合”
引言:旅游景区的魅力所在 在如今快节奏的生活中,越来越多的人选择通过旅行来放松身心,寻找内心的宁静。在旅游的过程中,景区的选择则显得尤为重要。一个优质的旅游景区不仅仅是壮丽的自然风光,还有深厚的人文底蕴和丰富的体验活动。本
提升健康与活力:探索运动健身的多样化内容与方法
引言:健身的时代已来临 随着人们生活水平的提高,越来越多的人开始关注自身的健康与活力。运动健身不再是一种单一的方式,而是发展出了多样化的内容与方法。无论是为了减肥、塑形,还是增强体质,运动健身都成为了许多人的日常习惯和生活
80岁老人旅游规定的常见问题及注意事项解析
引言:老年人的旅游热潮 随着社会的发展和生活水平的提升,越来越多的老年人开始积极参与到旅游活动中。他们用实际行动证明,年龄并不是旅途的限制,反而是丰富人生经验的体现。虽然老年游客在旅途中享有更多的自由和乐趣,但在旅游规定及
AI写作论文是否会被检测?解密检测机制!
引言:AI写作的崛起 近年来,人工智能(AI)技术的发展迅猛,尤其是在写作领域。AI写作工具不仅能生成高质量的文章,还能满足不同用户的需求,成为内容创作的得力助手。然而,伴随着AI写作的普及,一个新的问题也逐渐显现出来:AI写作论文
几月份去兰州旅游最宜?
探索兰州的四季魅力 兰州,作为甘肃省的省会,坐落于黄河之畔,是一座历史悠久的城市,兼具独特的自然风貌与深厚的人文底蕴。每个季节,兰州展现出不同的面貌,吸引着四面八方的游客前来探索。那到底几月份去兰州旅游最为宜人呢?接下来,
探索中国旅游标志的原型与文化内涵的深度解读
探索中国旅游标志的原型与文化内涵 中国作为一个拥有悠久历史和丰富文化的国家,其旅游标志更是象征着一种独特的文化内涵。中国旅游标志的原型多取材于中国传统艺术元素,加之对中国文化的理解与诠释,形成了独具魅力的形象。 中国国徽与中
轻松搞定!服务器配置RAID:提高性能数据安全双保险!
轻松搞定!服务器配置RAID:提高性能数据安全双保险! 随着信息技术的不断发展,服务器在企业中扮演着至关重要的角色。为了提高性能和数据安全,服务器配置RAID已经成为了一种常见的选择。RAID(Redundant Array of Independent Disks)即
相关文章