Módulo 3. Análisis de datos y laboratorio de tecnología

Term
1 / 11
Me piden que analice un gran conjunto de datos que consta de transacciones financieras para revelar cualquier patrón interesante en los datos. Una rápida mirada al conjunto de datos muestra que los datos se han registrado en orden cronológico. Como resultado, realizo ____________ para descubrir cualquier patrón oculto en los datos. Al examinar un subconjunto de datos, descubro que una parte de las transacciones no muestran las mismas características que la mayoría de las transacciones. Grabó las propiedades basadas en el aprendizaje supervisado para identificar estas transacciones. Grabó las propiedades manifestadas por esta porción de las secciones de transición. A continuación, aplico la ________________ técnica basada en el aprendizaje supervisado para identificar las transacciones.
Click the card to flip 👆
Terms in this set (11)
Me piden que analice un gran conjunto de datos que consta de transacciones financieras para revelar cualquier patrón interesante en los datos. Una rápida mirada al conjunto de datos muestra que los datos se han registrado en orden cronológico. Como resultado, realizo ____________ para descubrir cualquier patrón oculto en los datos. Al examinar un subconjunto de datos, descubro que una parte de las transacciones no muestran las mismas características que la mayoría de las transacciones. Grabó las propiedades basadas en el aprendizaje supervisado para identificar estas transacciones. Grabó las propiedades manifestadas por esta porción de las secciones de transición. A continuación, aplico la ________________ técnica basada en el aprendizaje supervisado para identificar las transacciones.
Como parte de una iniciativa de Big Data para el almacenamiento y análisis de archivos de registro, una empresa comienza a construir una solución de Big Data. Los archivos de registro deben extraerse de varios servidores en toda la empresa. El equipo de TI importa los archivos necesarios y los guarda en la plataforma Big Data. Los requisitos iniciales dictan que cualquier analista que carezca de habilidades de programación debería ser capaz de ejecutar consultas simples basadas en la agregación en el conjunto de datos del archivo de registro. Después de un análisis exitoso del conjunto de datos inicial, los analistas quieren incorporar datos diarios de registro en sus análisis. El equipo de TI cumple con este requisito de tal manera que las importaciones de datos no necesitan ser realizadas manualmente todos los días. Enumere todos los diferentes mecanismos de Big Data que se implementan en la solución Big Data de la empresa
Durante mi análisis de un Dataset, comencé aplicando _________ para determinar si dos variables que ya he identificado están relacionadas entre sí.
Esta aplicación me proporciona un valor de 0,80, que básicamente indica que las dos variables están relacionadas entre sí.

En base a este hallazgo, luego aplico ___________ para predecir el valor de la variable dependiente, usando los valores conocidos de la variable independiente.
¿Cuál de estas afirmaciones es verdadera?

1. PNL se basa solo en el aprendizaje supervisado.
2. La agrupación y la clasificación se pueden usar para fines de minería de datos.
3. La regresión puede usarse primero para determinar si dos variables en un conjunto de datos
están relacionados el uno con el otro. La correlación puede usarse para predecir el valor del
variable dependiente.
4. La detección de valores atípicos puede basarse tanto en técnicas de aprendizaje supervisadas como no supervisadas.
¿Qué tipos de análisis se describen a continuacion?

Un analista de investigación médica está explorando un conjunto de datos que contiene datos relacionados con pacientes que sufren
de una enfermedad en particular en todo el país. Su tarea inicial es identificar primero el número total de pacientes relacionados con cada región.
Luego ejecuta varias consultas para establecer la razón por la cual los hombres son más propensos a contraer esta enfermedad que las mujeres.
Finalmente, usa un algoritmo para determinar las posibilidades de que una persona contraiga esta enfermedad, en base a los casos conocidos existentes.
Me han pedido que implemente un sistema de recomendación que recomienda canciones para música en línea
oyentes que registran su preferencia de escucha en el sitio web de la empresa. Una gran cantidad de
los datos sobre las preferencias de escucha de los usuarios ya están disponibles como resultado. En base a esta información,
Decido usar una técnica de aprendizaje automático que compara las preferencias de escucha de un usuario objetivo
con usuarios que tienen preferencias de escucha similares. La técnica de aprendizaje automático usa el
resultados de esta comparación para proporcionar nuevas sugerencias de canciones al usuario objetivo. Qué filtrado
técnica que estoy usando para implementar mi sistema de recomendación?
A medida que implemente un ciclo de vida de análisis de Big Data en múltiples conjuntos de datos que contienen datos textuales (archivos csv) de diferentes fuentes de datos, primero elimino cualquier información innecesaria durante la etapa _______________.

Los datos requeridos para el análisis se distribuyen en múltiples conjuntos de datos. Como resultado, me uno a los conjuntos de datos necesarios juntos durante la etapa _______________.

Descubrí que algunos conjuntos de datos tienen la misma información bajo diferentes etiquetas, por lo que concilio estos conjuntos de datos durante la etapa _______________.

Después de analizar con éxito los datos, presento mis hallazgos a la gerencia durante la etapa _______________.

Sin embargo, uno de los gerentes no está seguro si las cifras son correctas. Puedo determinar la precisión de las cifras haciendo un seguimiento de los conjuntos de datos cuyos campos utilicé para cálculos de figuras, porque recordé agregar metadatos durante la etapa _______________.
¿Cuál de las siguientes afirmaciones es falsa?

• Dentro de las pruebas A / B, la versión de control se prueba primero antes de probar la versión de tratamiento.
• Obtener un valor de 0 del análisis de correlación sugiere que no hay mucho valor para realizar análisis de regresión, como las dos variables no están relacionadas entre sí.
• Obtener un valor de -1 del análisis de correlación sugiere que el análisis de regresión puede aplicarse más, para predecir una disminución en la variable dependiente a medida que aumenta el valor de la variable independiente.
Una empresa de servicios públicos que es responsable de suministrar agua posee una gran cantidad de tuberías que están interconectadas.

Estas tuberías se ejecutan desde las plantas de tratamiento hasta el nivel de propiedad. El sistema actual para analizar la infraestructura de tuberías utiliza una base de datos relacional para almacenar todos los segmentos de tubería.

Esta base de datos se utiliza para consultar los datos de la tubería como parte del mantenimiento general, así como para reparar fugas. Se ha informado que los usuarios están experimentando un retraso severo cuando realizan consultas basadas en la localización de enlaces entre tuberías. Usted determina que se debe realizar un análisis para trazar las entidades como nodos y las conexiones como bordes entre los nodos en los datos de la tubería. Para lo cual se requiere una técnica de análisis, Que t'ecnica de Analisis se requiere ?
Se me proporciona un gran conjunto de datos y se me instruye para descubrir cualquier patrón interesante dentro de los datos. El conjunto de datos contiene datos de atributos relacionados con varias entidades. Como no tengo ningún conocimiento previo sobre qué atributos son pertinentes para descubrir patrones ocultos, decido realizar _______________ análisis de datos durante el paso de análisis de datos del ciclo de vida de análisis de Big Data.Exploratorio